请教clementine教程 C5.0算法出现的问题

clementine - 下载频道
- CSDN.NET
&&&&C5.0 讲述
clementine
clementine
c5.0算法在spss clementine 上的实现分析,ppt,还不错
若举报审核通过,可奖励20下载分
被举报人:
haonan0917
举报的资源分:
请选择类型
资源无法下载
资源无法使用
标题与实际内容不符
含有危害国家安全内容
含有反动色情等内容
含广告内容
版权问题,侵犯个人或公司的版权
*详细原因:
您可能还需要
开发技术下载排行推荐出版社
购物车 0 件商品 共 ?0.0 元
Clementine数据挖掘方法及应用
出版日期:2010-09
字数:432000
开本:16开
包装:平装
定价:38.0
折扣:88折
蔚蓝价:?33.4
vip(2-3星):?32.7
svip(4-5星):?31.9
商品评论(0)
商品问答(0)基于C5.0算法的医院患者分析--《电脑开发与应用》2014年01期
基于C5.0算法的医院患者分析
【摘要】:针对医院患者对个性化服务的需求日益强烈,医院无法为新入院患者提供适合的医疗服务的问题,使用测量优先度信息增益率的计算方法,对医院现有住院客户的基本信息分析处理,在Clementine数据挖掘平台使用C5.0算法模型进行数据挖掘,构造了对住院客户价值分类的决策树模型和相应的规则集,经分析评估正确率为89.9%,从而指导医院向患者提供个性化的医疗服务,提高了患者就医的满意度。
【作者单位】:
【关键词】:
【分类号】:TP311.13【正文快照】:
基于决策树的分类技术作为一种重要的数据挖掘方法,已经广泛应用于各行各业中。数据挖掘随着人工智能和统计分析的发展促使自身飞速发展,与传统的统计分析方法相比,数据挖掘是在没有明确前提下进行信息的挖掘、知识的发现,所以数据挖掘得到的信息应该具有未知性、有效性和实用
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【参考文献】
中国期刊全文数据库
柯新利;边馥苓;;[J];长江流域资源与环境;2010年04期
庞素琳;巩吉璋;;[J];系统工程理论与实践;2009年12期
【共引文献】
中国期刊全文数据库
马耀兰;;[J];赤峰学院学报(自然科学版);2010年12期
孙永光;李秀珍;何彦龙;贾悦;马志刚;;[J];长江流域资源与环境;2011年06期
向晖;杨胜刚;;[J];财经理论与实践;2011年04期
柯新利;邓祥征;刘成武;;[J];地理科学进展;2010年11期
于新洋;张安定;侯西勇;;[J];测绘科学;2012年04期
许霄霄;牛瑞卿;;[J];长江科学院院报;2012年12期
季益萍;杨云辉;黄少君;;[J];纺织学报;2013年06期
朱建军;刘思峰;杨萍;汪军;;[J];产业与科技论坛;2013年07期
马世发;艾彬;欧金沛;;[J];地理科学;2013年10期
窦鹏;翟亮;张继贤;;[J];测绘与空间地理信息;2013年11期
中国重要会议论文全文数据库
黄章树;乔昕;;[A];第十三届中国管理科学学术年会论文集[C];2011年
中国博士学位论文全文数据库
郭斌;[D];陕西师范大学;2011年
赖永文;[D];福建农林大学;2012年
刘年平;[D];重庆大学;2012年
杨鑫;[D];中国地质大学(北京);2012年
王根生;[D];江西财经大学;2011年
郝翠;[D];南开大学;2012年
中国硕士学位论文全文数据库
孙丽;[D];暨南大学;2011年
陈炽文;[D];华南理工大学;2011年
张珺;[D];北京邮电大学;2012年
李智芸;[D];大连理工大学;2010年
陈晓伟;[D];中国石油大学;2010年
于新洋;[D];鲁东大学;2012年
聂雨;[D];西安科技大学;2012年
白秀莲;[D];内蒙古师范大学;2012年
费斐;[D];浙江工业大学;2012年
杨刚;[D];湖南科技大学;2012年
【二级参考文献】
中国期刊全文数据库
涂小松;濮励杰;吴骏;朱明;;[J];长江流域资源与环境;2008年06期
温兴平;胡光道;杨晓峰;;[J];地理与地理信息科学;2007年06期
黎夏,叶嘉安;[J];地理学报;2002年02期
杨青生;黎夏;;[J];地理研究;2007年02期
范洁,杨岳湘;[J];湖南广播电视大学学报;2005年01期
季桂树;陈沛玲;宋航;;[J];科技广场;2007年01期
刘耀林,刘艳芳,明冬萍;[J];武汉大学学报(信息科学版);2004年01期
杨小雄;刘耀林;王晓红;段滔;;[J];武汉大学学报(信息科学版);2007年12期
杨青生;黎夏;;[J];遥感学报;2006年06期
【相似文献】
中国期刊全文数据库
陈峰;;[J];计算机应用;2009年08期
岑琴;;[J];微型机与应用;2011年11期
肖海涛;许南山;;[J];计算机与现代化;2006年09期
华文立;胡学刚;;[J];安徽电子信息职业技术学院学报;2006年04期
汪云亮;吕久明;;[J];电子信息对抗技术;2007年01期
郑春香;董甲东;;[J];安庆师范学院学报(自然科学版);2007年01期
续蕾;刘玉江;;[J];电脑知识与技术(学术交流);2007年05期
姜楠;高巍;张丽秋;;[J];机械设计与制造;2007年04期
迟庆云;;[J];微计算机信息;2008年09期
张仁伟;王洪斌;;[J];哈尔滨职业技术学院学报;2008年04期
中国重要会议论文全文数据库
吴亚军;潘杨;;[A];上海市烟草系统2010年度优秀学术论文集(经管类)[C];2011年
钱学君;胡小建;;[A];2008年安徽省科协年会机械工程分年会论文集[C];2008年
张潮;李晨;王勇;张阳;;[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
叶红云;倪志伟;陈恩红;;[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
周帅印;李晨;王勇;张阳;;[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;[A];广西计算机学会2004年学术年会论文集[C];2004年
昝欣;吴祈宗;;[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
刘希宋;喻登科;;[A];中国高等院校市场学研究会2009年年会论文集[C];2009年
王英;左万利;王鑫;彭涛;;[A];第六届全国信息检索学术会议论文集[C];2010年
陈清光;许家佗;于波;郭喆千;屠立平;崔龙涛;张志枫;费兆馥;;[A];全国第十二次中医诊断学术年会论文集[C];2011年
中国重要报纸全文数据库
李蓓;[N];经济观察报;2003年
粤行;[N];中国邮政报;2011年
郭卫;[N];江苏经济报;2008年
;[N];证券时报;2011年
本报记者 周蓉蓉;[N];计算机世界;2005年
苏文军;[N];粮油市场报;2009年
王志军;[N];江苏经济报;2007年
陈德状;[N];中国城乡金融报;2006年
蔡清泉;[N];中国石化报;2009年
孟扬;[N];金融时报;2009年
中国博士学位论文全文数据库
王宏;[D];哈尔滨工程大学;2006年
蒙肖莲;[D];华中科技大学;2005年
伍平阳;[D];南方医科大学;2008年
陈苗;[D];吉林大学;2008年
海占广;[D];北京林业大学;2009年
刘涵;[D];西安理工大学;2006年
汪素南;[D];浙江大学;2007年
陶洪;[D];东华大学;2008年
吴强;[D];中国科学技术大学;2006年
冯永;[D];重庆大学;2006年
中国硕士学位论文全文数据库
路慧萍;[D];同济大学;2006年
陆青;[D];上海交通大学;2008年
王颖;[D];贵州大学;2006年
顾萃琛;[D];上海师范大学;2010年
毛志雄;[D];中南大学;2005年
王志浩;[D];山东师范大学;2006年
凌昊;[D];湖南大学;2007年
史真真;[D];长春理工大学;2008年
郭修昌;[D];南京理工大学;2009年
贺健;[D];天津大学;2005年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 知识超市公司
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备74号决策树C5.0算法的分析与应用_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
&&¥2.00
&&¥1.00
&&¥3.00
&&¥3.00
&&¥2.00
&&¥1.00
&&¥1.00
喜欢此文档的还喜欢
决策树C5.0算法的分析与应用
决​策​树​C.算​法​的​分​析​与​应​用
阅读已结束,如果下载本文需要使用
想免费下载本文?
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。
C4.5算法是ID3算法的修订版,采用GainRatio来加以改进方法,选取有最大GainRatio的分割变量作为准则,避免ID3算法过度配适的问题。
C5.0算法则是C4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率,又称为BoostingTrees,在软件上计算速度比较快,占用的内存资源较少。
决策树模型,也称规则推理模型。通过对训练样本的学习,建立分类规则;依据分类规则,实现对新样本的分类;属于有指导(监督)式的学习方法,有两类变量:目标变量(输出变量),属性变量(输入变量)。
决策树模型与一般统计分类模型的主要区别:决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的。
常见的算法有CHAID、CART、Quest和C5.0。对于每一个决策要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。
决策树很擅长处理非数值型数据,这与神经网络智能处理数值型数据比较而言,就免去了很多数据预处理工作。
C5.0是经典的决策树模型算法之一,可生成多分支的决策树,目标变量为分类变量,使用C5.0算法可以生成决策树或者规则集。C5.0模型根据能偶带来的最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行指导样本子集不能在被拆分为止。最后,重新缉拿眼最低层次的拆分,哪些对模型值没有显著贡献的样本子集被提出或者修剪。
C5.0优点:
C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健;
C5.0模型比一些其他类型的模型易于理解,模型退出的规则有非常直观的解释;
C5.0也提供强大技术以提高分类的精度。
C5.0算法选择分支变量的依据:以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降。
信息熵:信息量的数学期望,是心愿发出信息前的平均不确定性,也称先验熵。
&&&&&&&&&&&信息uiir的发生概率Pui组成信源数学模型,?Pui=
单位是bit,对的底数取2)
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
o信息熵HU的性质
oHU时,表示只存在唯一的可能性,不存在不确定性
o如果信源的k个信号有相同的发出概率,即所有的ui有uik,&HU达到最大,不确定性最大
&&&&&& oui差别越小,&HU就越大;&ui差别大,&HU就越小
&&&&&&&&&&&&&&&&&&& &&&&&&&&&&&&&
&&&&&&&&&&&& 如果某属性变量T,有N个分类,则属性变量T引入后的条件熵定义为:
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& &&
&&&&&&&&&&&& 属性变量T带来的信息增益为:
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
C5.0算法示例:
该组样本的熵:
关于T1的条件熵为:
T1带来的信息增益为:
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:56793次
排名:千里之外
转载:43篇
(14)(8)(7)(14)

我要回帖

更多关于 c5.0算法 的文章

 

随机推荐