求教R软件学习做数据挖掘的两个问题

扫码下载官方App
学习过该课程的人还学习过:
其他联系方式
所属系列课程
& 网易公司 版权所有
关注我们:
R数据挖掘实战,IT与互联网,数据处理,小蚊子数据分析,大数据分析实战,跟小蚊子学数据分析--R数据挖掘实战,简单、实用的R数据挖掘视频教程。主要介绍R在数据处理、挖掘方面的实战方法技巧。
适用人群:适合需提升竞争力、提升工作效率、喜欢用数据说话的职场人士,如从事产品、运营、市场、分析等当前位置:
R语言与数据挖掘
字数:19.1万
点击:5.6万
用户还喜欢
本书共9章,第1章讲解如何连接不同数据源,包括文本、Excel、Access数据库文件及服务器上的数据;第2~5章循序渐进讲解各种图形的创建方法,包括单变量图、双变量图、多变量图和地图;第7~8章详细讲解了如何自定义图中各个元素以及如何将做好的可视化图形打包分享;第6章和第9章主要介绍Tableau的高级功能,包括自定义字段、自定义标记形状、添加不同的筛选器、创建动画可视化等。
《计算机科学丛书:数据挖掘与R语言》首先简要介绍了R软件的基础知识(安装、R数据结构、R编程、R的输入和输出等)。然后通过四个数据挖掘的实际案例(藻类频率的预测、证券趋势预测和交易系统仿真、交易欺诈预测、微阵列数据分类)介绍数据挖掘技术。这四个案例基本覆盖了常见的数据挖掘技术,从无监督的数据挖掘技术、有监督的数据挖掘技术到半监督的数据挖掘技术。全书以实际问题、解决方案和对解决方案的讨论为主线来组织内容,脉络清晰,并且各章自成体系。读者可以从头至尾逐章学习,也可以根据自己的需要进行学习,找到自己实际问题的解决方案。读者既可以把《计算机科学丛书:数据挖掘与R语言》作为学习如何应用R的一本优秀教材,也可以作为数据挖掘的工具书。
本书从社会科学研究者角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和最佳实践。深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共11章。第1章介绍如何创建一个可用的R环境和基本的R命令;第2章讲述如何使用R语言进行探索性数据分析;第3章重点探讨数据采样和概率分布的概念;第4章探讨因变量和解释变量集合之间的线性关系;第5章介绍基于树的分类器:K近邻分类器、逻辑回归分类器以及朴素贝叶斯分类器;第6章神经网络和支持向量机;第7章展示一些模型评估的方法;第8章探讨集成分类器;第9章讲述多种聚类算法;第10章介绍关联分析和序列挖掘;第11章介绍如何从原始变量中选择和抽取特征;第12章讨论大数据分析(R和Hadoop)。
本书在着重解决游戏分析的基本认识、方法之外,还有更多对于业务理解的思考。本书分为两大部分:一部分贯穿了从基本的游戏数据分析概念、分析师的定位、数据指标认识、游戏数据分析方法论、统计学运用、渠道流量经营到具体的产品每个阶段用户的数据运营知识。二部分则重点阐述运用R语言和数据挖掘的知识,深入探讨游戏数据分析的高阶知识。
R语言与数据挖掘&&著
R是一种适用于统计分析计算和图像处理的语言,受S语言和Scheme语言影响发展而来。早期R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不做任何修改地在R环境下运行。R的语法来自Scheme,作为一款诞生于20世纪90年代的语言,R已经成为S统计编程语言的一类实现方式。本书从实际应用出发,结合实例及应用场景,深入浅出地介绍了R语言应用的相关知识:R语言的安装及使用、数据对象与数据读写、常用数据管理、图形探索、高级绘图工具及常用的建模算法在R语言中的实现方式。书中以R语言的函数应用为主,先介绍了函数的应用场景及使...
目录(85章)
张良均,男,现任广州泰迪智能科技有限公司总经理、高级信息系统项目管理师,广西科技大学硕士生导师,华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。编著《R语言与数据挖掘》等。
网易公司版权所有©1997-2017 &&网络出版服务许可证(总)网出证(粤)字第030号
&&信息网络传播视听节目许可证号1908260
&&增值电信业务经营许可证B2-
购买书籍后无法阅读等问题
网易邮箱登录
其他帐号登录:
在客户端“资讯”首页刷新后,即可阅读此内容。
在客户端“书籍”首页刷新后,即可阅读此书籍。
还差两步,你就能在客户端上阅读此内容。
排序保存成功!使用 RDOM 程序包进行数据挖掘-数据挖掘-火龙果软件工程
每天15篇文章
不仅获得谋生技能
更可以追随信仰
RDOM 程序包进行数据挖掘
作者 Casimir Saternos,火龙果软件&&& 发布于&
数据挖掘、预测分析和统计技术通常不会成为重大新闻。然而,New
York Times 去年引用了 Google 首席经济学家 Hal Varian 对未来十年统计学家的巨大需求之预测。他们还发表了一篇有关日益流行的
R 语言作为数据分析工具的文章。
R 是 SPSS 和 SAS 等统计软件的一个开源替代品。它类似于 S
语言(由 John Chambers 和贝尔实验室的其他人员开发),同样受到 Scheme(一种重要的
Lisp 方言)的影响。它可用于通过交互式编程环境执行数据分析和可视化。
Oracle Database 包括广泛的统计和分析功能。其标准安装中提供了许多特性,包括 Oracle
SQL 分析功能和 DBMS_STAT_FUNCS 程序包。Oracle Database 还提供可选的程序包来补充这些功能,包括
Oracle OLAP。
在所有高级分析功能中,最强大的或许就是 Oracle Data Mining (ODM) 选件,它提供了
12 种数据挖掘算法,用以发现数据库中的模式和关系、在数据库中构建和应用描述性、预测性的数据挖掘模型。
本文将介绍如何结合使用 Oracle Database 11g 企业版和通过一个 R 接口 (RODM)
访问的 ODM 选件。ODM 可以对数据库内的数据进行分析。这样能消除传输数据所需的时间、开销和资源。数据安全地保留在数据库中,从而减少因信息延迟而造成的问题。
Oracle Database 还有一个名为 Oracle Data Miner“Classic”的
ODM 图形用户界面以及一个全新的 Oracle Data Miner 11g 第 2 版工作流 GUI,后者是
SQL Developer 的一个扩展,即将推出早期试用版。现在,对于已经熟悉了开源 R 语言的数据分析师,还有另外一种解决方案:RODM
RODM 程序包允许 R 用户与 Oracle Database 和 ODM 功能交互。用户可以分析和操作数据,而无需使用
SQL 或 PL/SQL。这个程序包由 Pablo Tamayo 和 Ari Mozes 编写,可从 Comprehensive
R Archive Network (CRAN) 下载。该程序包依靠 RODBC 包与 Oracle 数据库连接并执行基本数据操作。
RODM 允许 R 用户使用熟悉的 R 语法访问 ODM 数据库中函数的强大功能。RODM 提供了一个强大的环境,用于构建数据分析和数据挖掘方法的原型。RODM
在以下方面特别有用:
1、快速构建垂直的或基于域的由 Oracle Database 支持的应用程序原型
2、编写“生产”数据挖掘方法的脚本
3、定制 ODM 数据挖掘结果的图形(例如:分类、回归、异常检测)
RODM 接口允许 R 用户在 R 编程环境中使用 ODM 挖掘数据。它包含一组用 R 语言源代码编写的函数包装器,这些包装器通过开放数据库连接
(ODBC) 接口将 R 环境中的数据和参数作为标准用户 PL/SQL 查询传递给 Oracle Database
11g 企业版。RODM 接口代码是一个瘦的逻辑和 SQL 代码层,其包含的逻辑和 SQL 代码通过 ODBC
接口进行调用。RODM 未使用或提供任何 Oracle 产品代码,因为它完全是一种外部接口,并非任何 Oracle
产品的一部分。RODM 类似于展示 ODM 使用的示例脚本(例如,PL/SQL 演示代码),举例来说,展示如何创建数据挖掘模型、传递参数、检索结果等。
软件前提条件
如果尚未安装,请在您的 Microsoft Windows 工作站上安装
R 语言。随后,即可随意安装任何 R 程序包,包括 RODM 程序包。
请注意,要使用 RODM,您将需要访问(或安装)带有 ODM 选件的 Oracle 11g Database。如果您尚未安装
Oracle Database 并且需要从头开始安装,我们强烈建议您遵从 Oracle 数据挖掘管理员指南中的指导。Oracle
Database 快捷版(Oracle Database XE)不包括此选件。您还需要一个具有适当安全性和权限的数据库用户以及与数据库的
ODBC 连接。这个数据库用户应具备连接数据库、创建表、创建视图、创建挖掘模型的权限。
以下是创建这种用户的一个脚本。该脚本(请针对您的环境进行修改)需要由 DBA
或其他具有管理权限的人员运行。
CREATE USER dm IDENTIFIED BY
DEFAULT TABLESPACE users
TEMPORARY TABLESPACE temp
QUOTA 20M ON
GRANT create mining model TO
GRANT create table TO
GRANT create view TO
GRANT create session TO
ODBC 连接配置
RODBC 程序包用于连接到 Oracle 数据库。要在 Microsoft
Windows 中配置一个 ODBC 数据源,请单击 Start 菜单,依次选择 Control Panel、Administrative
Tools 和 Data Sources (ODBC)。
如果尚未建立 Oracle 11g 数据库连接,单击 Add 按钮,输入相关信息。在输入连接信息和凭证之后,选择
Test Connection 按钮验证连通性。
从 R 连接到 Oracle 数据库
R 的交互式编程环境允许单命令的运行和求值单独进行。下面列出的每条命令都可在
R 中单独执行。第一步是载入所需的 R 库。打开 R,输入以下命令。
& library(RODM)
此命令将加载 RODM 库以及相关的 RODBC 程序包。下一步是建立数据库连接。
& DB &- RODM_open_dbms_connection(dsn=&orcl&, uid=&dm&, pwd=&dm&)
后续命令将使用 DB 对象(RODBC 类的一个实例)连接到数据库。命令中指定的 DNS 是您之前在
ODBC 连接配置中对 Data Source Name 使用的名称。通过只键入函数名称(不带圆括号),您可以查看该命令所执行的实际
& RODM_open_dbms_connection
此函数调用 RODBC odbcConnect 函数来建立数据库连接,另外,它还验证数据库的版本(在
Oracle 数据字典 product_component_version 表中)并确保 ODM 选件可用(检查
v$option 表,其中 parameter 列设置为 Data Mining)。它还会验证要建立连接的用户是否具有必要的凭证(查看
user_sys_privs 表),如果需要的话,会创建 RODM_SETTINGS_TABLE 临时表。
对于不关心底层细节的用户来说,最重要的是:成功调用此函数表示您已使用凭证连接到了 Oracle 数据库,这些凭证允许您使用
ODM 程序包。
数据帧和 Oracle 表
R 用户通常操作数据帧、列表和向量等对象。Oracle 数据库在表中存储数据。RODM(和
RODBC)提供了一个转换层,这个转换层用一条命令将 R 数据帧映射到 Oracle 数据库表。
要执行您的首次 Oracle 数据库数据挖掘测试,请选择一个用于统计分析和预测分析任务的标准数据集。使用
data 函数可列出系统中可用的数据集。
我们将使用 Orange 数据集,这个表包含树木编号、树龄及其周长。查看前几行数据,大体了解 Orange
对象的结构和内容。
& head(Orange)
我们不会直接使用这个 R 数据对象,而是创建一个具有自己名称的变量:
& orange_data=Orange
这并不是必须的,但这么做是为了强调几点。R 中的变量名称用于在 Oracle
数据库中自动创建表。R 区分大小写,但 Oracle 数据库对象名称通常不区分大小写。
在 Oracle 数据库中创建表(将由 ODM 算法和处理使用):
& RODM_create_dbms_table(DB, &orange_data&)
您可以查看所创建的表,为此,您可以使用 SQL 查询 user_tables 表,也可以直接使用以下
R 命令列出可用表:
& sqlTables(DB, schema='DM')
您还可以在 R 中列出该表中的列:
& sqlColumns(DB, 'orange_data')$COLUMN_NAME
此功能可能需要您对编码风格进行一些调整。例如,R 用户通常会在其变量名称中包含点。
& orange.data&-Orange
此类变量名称如果用于创建 Oracle 数据库中的表,则会导致出错。
& RODM_create_dbms_table(DB, &orange.data&)
Error in sqlSave(database, dat = eval(parse(text
= data_table_name)), :
HY000 1918 [Oracle][ODBC][Ora]ORA-01918: user
'ORANGE' does not exist
[RODBC] ERROR: Could not SQLExecDirect 'CREATE
TABLE ORANGE.DATA (&TREE& varchar(255),
&AGE& double precision, &CIRCUMFERENCE&
double precision)'
错误非常明确,可以轻松避免。选择变量名称时,应使其仅包含字母数字字符和下划线,并且长度不超过 30 个字符。
有些数据挖掘算法要求数据帧包含唯一的“Case ID”,以便唯一地标识一行。下面的
R 命令集就可以对 Orange 数据集做出这样的调整。
& numrows &- length(orange_data[,1]) & orange_data.rows &- length(orange_data[,1]) & orange_data.id &- matrix(seq(1, orange_data.rows),
nrow=orange_data.rows, ncol=1, dimnames= list(NULL, c(&CASE_ID&))) & orange_data &- cbind(orange_data.id, orange_data)
对数据帧的此项调整随后需要传播到数据库。可以使用 sqlColumns 函数确认更改,如前所述。
& RODM_create_dbms_table(DB, &orange_data&)& sqlColumns(DB, 'orange_data')$COLUMN_NAME
请注意,没有必要显式删除表并重新创建表。如果有必要,这些操作将自动完成。
创建并应用一个模型
下表显示了 RODM 函数与对应的数据挖掘算法之间的关系。
RODM_create_ai_model
属性重要性
RODM_create_assoc_model
RODM_create_dt_model
RODM_create_glm_model
一般线性模型
RODM_create_kmeans_model
分层 k-均值
RODM_create_nb_model
朴素贝叶斯
RODM_create_nmf_model
非负矩阵因子分解
RODM_create_oc_model
RODM_create_svm_model
支持向量机
所有这些函数都会在后台调用 RODM_create_model 函数,并将数据检索回
R 中。如果您对后台执行的 SQL 和 PL/SQL 语句的细节感兴趣,请设置 sql.log.file
参数,查看日志文件中的命令。
下面这个示例展示了如何创建一个模型。该例使用一般线性模型对 orange_data
执行回归分析。大多数参数是不言自明的。请记住,所指定的 model_name 将在许多数据库对象的名称中使用。默认挖掘函数为
classification,因而本例中需要指定 regression。
& glm &- RODM_create_glm_model(database = DB, data_table_name = &orange_data&,case_id_column_name = &CASE_ID&,target_column_name = &circumference&,model_name = &GLM_MODEL&,mining_function = &regression&)
通过对从该模型返回并保存在名为 glm 的变量中的值进行分析可获得有关此模型的信息。
& glm$model.model_settings& glm$glm.globals& $glm.coefficients
建立了模型之后,即可将模型应用到新数据集。首先,创建或检索与培训数据格式相同的样本数据。
& query&-('select 999 case_id, 1 tree, 120 age, 32 circumference from dual')
& orange_test&-sqlQuery(DB, query)
& RODM_create_dbms_table(DB, &orange_test&)
本例旨在表明,所分析的数据不一定来自 R,还可以来自数据库本身。数据将带回到 R 中,并发送回数据库。然而,如果您具备一些
SQL 认识,您无需使用 CREATE TABLE AS 语法在 R 和 Oracle 数据库之间来回移动数据即可完成此任务。
& RODM_drop_dbms_table(DB, &orange_test&)& sqlQuery(DB, paste('create table orange_test as ', query))
这个方法可提高性能和效率,特别是在处理大型数据集时。最后,该模型可应用于新数据集,结果将得到分析。
results &- RODM_apply_model(database = DB, data_table_name = &orange_test&,model_name = &GLM_MODEL&,supplemental_cols = &circumference&)
会话完成时,您可以清除所创建的对象(如果您希望这样做),还应关闭数据库连接:
& RODM_drop_model(database=DB,'GLM_MODEL')& RODM_drop_dbms_table(DB, &orange_test&)& RODM_drop_dbms_table(DB, &orange_data&)& RODM_close_dbms_connection(DB)
人们日益认识到,需要对海量数据进行有效的分析,大部分此类数据都存储在 Oracle
数据库中。统计和建模技术用于改善各种业务功能。使用 R 语言访问 ODM 可发现更多信息,从而提高您的数据价值。RODM
是一个强大的工具,使您的组织能够做出预测、对数据进行分类并创建可视化,获得最高的有效性和效率。
更多课程...&&&
每天2个文档/视频
扫描微信二维码订阅
订阅技术月刊
获得每月300个技术资源
|&京ICP备号&京公海网安备号苹果/安卓/wp
积分 112, 距离下一级还需 33 积分
权限: 自定义头衔
道具: 涂鸦板, 彩虹炫, 雷达卡, 热点灯, 显身卡, 匿名卡, 金钱卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 变色卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
R软件的中文教程,软件可以去官网下载
11:13:09 上传
本帖被以下文库推荐
& |主题: 57, 订阅: 27
还不错,感觉很基础,适合刚入门时使用!!!谢谢啦!!!!!
好东西,谢谢lz
想起我高中的数学老师了,她讲的就很好啊~~希望更多的老师看到哦!
顶 起来 顶起来
“因真理,得自由,以服务”,这是当年燕京大学的校训,取自圣经中的两段经文。约翰福音8:32 “你们必晓得真理,真理
怎么回事?超时连接,不能下载.
我试一下啊
看一下先,3ks~~
非常感谢!!!
THANKS A LOT!
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师

我要回帖

更多关于 R软件画图 的文章

 

随机推荐