如何用SAS分析数据建立sas时间序列预测代码模型,估计遗失值

客户流失预测模型的建立与应用--《北京理工大学》2015年硕士论文
客户流失预测模型的建立与应用
【摘要】:客户流失是互联网时代中大型公司所面临的一大难题,研究证明,从一位老客户中得到的收益要大于一位新用户。同时,吸引一位新用户的成本要比挽留一位即将流失的老客户多得多,因此建立流失预测模型具有重要的意义。本文首先会介绍所需的建模用户数据的筛选以及各个变量的定义。再对变量进行分析,以初步筛选做为建模的X变量。然后,本文分别利用哑元变量方法和WoE变量方法,根据用户的行为特征变量建立logistic回归模型,用该模型的结果对客户流失倾向进行分类并评分,以此预测客户本来刷卡量较高的客户在未来的一段时间内降低消费的可能性。同时,本文还会利用验证集验证模型效果,并检验多元共线性和变量相关性,使模型结果更具有说服力。最后,再通过计算模型的KS值等方法来比较两种方法所生成的模型准确性和稳定性。
【关键词】:
【学位授予单位】:北京理工大学【学位级别】:硕士【学位授予年份】:2015【分类号】:F274【目录】:
摘要5-6Abstract6-8第1章 引言8-9 1.1 本论文研究的目的及意义8 1.2 论文主题结构8-9第2章 建模数据9-12 2.1 确定时间窗9 2.2 建模人群筛选9-10 2.3 Y变量定义10-11 2.4 X变量定义11-12第3章 变量初步筛选12-14 3.1 根据数据质量筛选12 3.2 根据数据相关性筛选12-13 3.3 计算X变量的相关性13-14第4章 用哑元变量方法建立模型14-20 4.1 连续变量转变为分段变量14-15 4.2 将类型变量和分段变量生成哑元变量15 4.3 用哑元变量方法生成 logistic 回归模型15-17 4.4 模型验证17-18 4.5 模型检验18-20第5章 用WOE变量方法建立模型20-23 5.1 将类型变量和分段变量生成WOE变量20 5.2 用WOE变量方法生成LOGISTIC回归模型20-23结论23-24参考文献24-25附录25-26致谢26
欢迎:、、)
支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库
张安勤;[J];安徽教育学院学报;2002年03期
【共引文献】
中国期刊全文数据库
陈荣江;赵磊;张祎芳;王桂风;张瑞婷;申贵阳;;[J];河南科技学院学报(自然科学版);2014年06期
赖蓓蕾;金寒冰;方丽;吴祥庭;;[J];食品工业科技;2014年16期
桂文明;;[J];科技创新导报;2014年34期
赵晶;刘国伟;王在翔;;[J];中国病案;2015年01期
林洁;孙志明;;[J];中国医药导报;2015年18期
中国硕士学位论文全文数据库
孙彤;[D];辽宁工程技术大学;2004年
闫绍峰;[D];辽宁工程技术大学;2004年
谢国富;[D];中南大学;2003年
王宁;[D];云南师范大学;2006年
徐劲松;[D];上海交通大学;2007年
【二级参考文献】
中国期刊全文数据库
钟晓;马少平;张钹;俞瑞钊;;[J];模式识别与人工智能;2001年01期
【相似文献】
中国期刊全文数据库
潘振明;;[J];印刷经理人;2003年09期
,陈松青;[J];中国质量;2004年12期
张莉;;[J];北方牧业;2004年10期
李竞明,尹柳营;[J];江苏商论;2005年05期
,婉懿;[J];中国质量与品牌;2005年04期
周文涛;[J];企业改革与管理;2005年08期
叶孝明;梁祺;;[J];物流科技;2006年06期
夏国恩;陈云;金炜东;;[J];科技管理研究;2006年12期
杨天林;;[J];山西财经大学学报;2007年S1期
夏国恩;邵培基;;[J];计算机应用研究;2009年06期
中国重要会议论文全文数据库
司学峰;蒋国瑞;李英毅;;[A];第三届中国智能计算大会论文集[C];2009年
李红霞;;[A];中国企业运筹学[C];2009年
张俊巍;;[A];黑龙江省通信学会学术年会论文集[C];2005年
段巍巍;;[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
张海波;赵焕成;;[A];21世纪数量经济学(第11卷)[C];2010年
苏小龙;;[A];中国创新与企业成长(CI&G)2013年度会议论文集[C];2013年
余力涛;党延忠;杨光飞;;[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
李保升;陆炜颖;吕廷杰;;[A];2006中国控制与决策学术年会论文集[C];2006年
柳炳祥;盛昭翰;;[A];2002年中国管理科学学术会议论文集[C];2002年
李萍;齐佳音;舒华英;;[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
中国重要报纸全文数据库
冰蓝;[N];电脑商报;2005年
;[N];计算机世界;2005年
吴喆;[N];通信产业报;2004年
吴喆;[N];通信产业报;2004年
张闯;[N];通信产业报;2004年
訾惠博;[N];医药经济报;2005年
柳原;[N];中国花卉报;2005年
;[N];民营经济报;2006年
中国电信广州研究院
黄宇芳 全波
李磊;[N];通信产业报;2007年
郭志明;[N];中国企业报;2008年
中国博士学位论文全文数据库
迟准;[D];哈尔滨工程大学;2013年
夏国恩;[D];西南交通大学;2007年
罗彬;[D];电子科技大学;2010年
中国硕士学位论文全文数据库
王颖;[D];辽宁大学;2015年
库姝婧;[D];兰州财经大学;2015年
张秋红;[D];西南交通大学;2015年
常晓宁;[D];同济大学;2007年
卿财源;[D];暨南大学;2009年
张少辉;[D];北京大学;2007年
刘伟汉;[D];湘潭大学;2010年
杨洪伟;[D];电子科技大学;2013年
刘杨;[D];电子科技大学;2013年
司学峰;[D];北京工业大学;2009年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号2015汇丰杯Sas数据分析大赛试题_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
2015汇丰杯Sas数据分析大赛试题
上传于||暂无简介
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩2页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢IBM SPSS Modeler 决策树之银行行销预测应用分析_决策树分析 – 数据分析
本站分享大数据、数据分析、数据挖掘、数据库、商业智能(BI)、数据分析师、培训课程考试认证等相关信息!【广告合作】在线联系数据分析QQ交流群:
> IBM SPSS Modeler 决策树之银行行销预测应用分析_决策树分析
IBM SPSS Modeler 决策树之银行行销预测应用分析
关键词:,,,
本文将通过 SPSS Modeler 介绍决策树 (Decision tree) 演算法于银行行销领域的应用实例。通过使用网路公开电销资料建立不同决策树模型,分析、解释并讨论模型结构,您将会了解各种决策树演算法及其不同之处,针对不同资料特征选择合适的决策树模型。
随着资讯科技的演进,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。而决策树演算法是目前在进行数据分析时很常用的分类方法,本文将使用 IBM SPSS Modeler 进行实作,介绍决策树 (Decision tree) 演算法于银行行销领域的应用实例。IBM SPSS Modeler 包含多种决策树模型,包括 C5.0、C&R Tree、Quest、CHAID。首先,本文将会简介决策树演算法的基本原理,接着会针对案例数据 (网路公开电销数据) 进行初步的数据分析,并套入决策树模型中,分析、解释并讨论最后的结果。通过本文,您将会了解各种决策树演算法及其不同之处,针对不同数据特征选择适当决策树模型。
决策树演算法 (Decision Tree) 简介
决策树演算法的原理
决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。
一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支 。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。
决策树演算法的比较
决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及 C&R Tree 四种。使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异,但概括来说,决策树的主要原理均为通过演算法所定义的规则,对数据进行分类,以建立决策树。鉴于篇幅所限,以下部分将会针对这四类决策树演算法进行简单的介绍和比较,而详细演算法原理将不会在本文中详述。
由 C4.5 演化而来。此演算法的分类原理主要是利用资讯衡量标准 (Information Measure) 来构建决策树,并对每一个节点产生不同数目的分支来分割数据,直到数据无法分割为止。C5.0 的目标字段 (Target) 测量级别,不适用于连续类型 (Continuous) 的测量级别。而输入字段的数据型态则适用连续类型 (Continuous) 的测量级别。
2. CHAID (Chi-Square Automatic Interaction Detector)
此演算法和前述的 C5.0 概念很像,均可以在每一个节点产生不同数目的分支来分割数据,用来建立决策树。但是在背后分类的原理则利用卡方分析检定 (Chi-square F test) 来进行分支,通过卡方检定来计算节点中的 P-value,来决定数据是否仍须进行分支。另外,CHAID 的目标字段 (Target) 的测量级别可适用于连续类型 (Continuous) 的测量级别,但在输入字段则只适用分类类型 (Categorical) 的测量级别。
3. QUEST (Quick Unbiased Efficient Statistical Tree)
此演算法是利用统计方法分割数据,即以判定决策树是否仍需进行分支,以建立二元的决策树。QUEST 在变数的数据型态限制上,跟 C5.0 一样,目标字段 (Target) 测量级别,不适用于连续类型 (Continuous) 的测量级别。但在输入字段的测量级别则适用连续类型 (Continuous) 的测量级别。
4. C&R Tree (Classification and Regression Tree)
又称为 CART,构建决策树的原理是使用 Gini Ratio 作为判定决策树是否仍须进行分支的依据,并建立二元的决策树。此演算法不管是在目标变数 (Target) 以及输入字段的测量级别均适用连续类型 (Continuous) 的测量级别做分析。
决策树演算法的选择
在使用决策树演算法进行分析之前,首要工作就是选择适当的演算法。一般来说,会根据所要分析数据的特性以及数据型态等选择初步的演算法。接下来再通过比较初步筛选的出来的结果,选择最适合的决策树演算法。
银行电话行销数据栏位和特征分析
这次分析使用的数据是识别化的葡萄牙银行电销数据。电销的产品是银行的定存。电销的数据包括:
1、客户的基本数据:年龄、工作、教育等
2、客户的业务相关数据:是否破产、余额、房贷、个人信贷等
3、电销数据:连络方式、连络日期、次数、谈话时间,以及关键的电销结果
一般来说,业务相关数据及电销数据对我们预测相当重要,而客户的基本数据有时候并不重要,例如性别。但在此,年龄、工作、教育对一个人的收入等级连带的定存意愿可能有关联,所以进一步的分析是必要的。(请看图 1)
图 1. 银行电销数据概观
在模型建置前,首先要了解数据的组成。通过 Data Audit Node 中简单的图表及统计数据 (如图 2 所示),我们可以察觉数据的异常、极端值。以年龄栏位为例,我们可以通过最大、最小及平均值,来观察有无异常分布。年龄 18~95 岁及平均 40 岁属于正常分布,所以不需要做特殊处理。其它栏位可以通过同样方式检视,以增加对客户数据的了解。
图 2. 银行电销数据概观 2 – Data Audit Node
接下来我们选择几个代表性的栏位来分析电销结果在数据栏位间的分布。以客户职业为例,由图 3 可发现,学生、退休人员,及公司主管对定存产品的接受度较高。同时,我们也意外发现,失业者的定存接受度也相当高。而这些发现仍需再进一步的研究,才可解释其原因。但在此,将不多作探讨。
图 3. 银行客户职业与定存产品接受度之图表
以年龄的分布来说,超过 60 岁的客户普遍对定存产品的接受度较高 (图 4),因此,可以做为打电话的参考依据。然而,以单一面相来决定结果并非最理想,我们仍需要找寻跟其它栏位的关联性。
图 4. 银行客户年龄与定存产品接受度之图表
其它栏位的分析
此小节我们将简单的对其它栏位作分析。在业务数据上,许多栏位是连续类型的测量级别(Continuous),通过直方图,我们可以发现,打电话的时间、月份、客户接电话的次数都会影响结果。这些栏位都是建立预测模型的重要参考依据。Modeler 也提供了网状图让我们了解栏位间的关联。例如由打电话的月份这个栏位,我们可以通过网状图评估月份对成功率的影响。
图 5. 银行最后一次致电客户的时间 (秒) 对定存产品接受度之图表
图 6. 与银行客户通话次数对定存产品接受度之图表
建立决策树模型串流
SPSS Modeler 中需要根据数据档案格式,来选择不同的源节点读取数据。本篇文章中我们使用的数据档案格式为 .csv 档,因此我们将使用可变文件节点。在节点设定方面,文件标签下我们先读入数据“bank-full.csv”,接着勾选“读取文件中的字段名”和使用分号 (;) 做为字段定界符。此外,在多次反覆训练模型后,根据变量重要性的排序,我们在最后的模型选择移除相对较不重要的栏位,将会据此筛选出建模所需要的数据栏位:过滤标签下选取是否破产 (default) 、有无贷款 (loan) 等较无法预测结果的栏位。
图 7. 使用可变文件节点读取数据
数据类型定义
为了产生决策树模型,我们需要在数据建模前就定义好各栏位的角色,也就是加入字段选项下的「类型」节点。将类型节点拉入串流后,我们会先点选读取值按钮,接着设定角色。在本案例中,栏位 y 是我们最后预测的目标,因此先将其角色设定为“目标”,余下的栏位则是要设定为“输入”。
为了在训练出模型后能够分析模型准确度,在此我们将加入字段选项下的「分区」节点,将数据分为 50%训练数据以及 50%测试数据。在分区节点的编辑页中,点选预览可发现每笔数据已经多出了一个栏位「分区」,栏位中的值被随机归类为「1_训练」及「2_测试」,让决策树节点可判别是否要使用此资料做为训练数据。在完成资料分区后,我们已经完成数据准备 (请见图 8),可以套用决策树模型节点了。
图 8. 数据准备
决策树节点设定
如我们第一章节所述,SPSS Modeler 共提供四种决策树节点建模,包括 C5.0、C&R 树、Quest 和 CHAID。考量到数据特性以及我们希望提供的决策树具有多元分类法,因此我们将建立 C5.0 和 CHAID 两种分类模型。
C5.0 节点设定
将 C5.0 节点与分区节点连结后,我们将于此节点编辑页面中的模型标签下设定相关的变数。以下为各变数的详细介绍,此定义来自SPSS Modeler 15 Modeling Nodes 文件。
使用分区数据:如果定义了分区字段,则此选项可确保仅训练分区的数据用于构建模型。
为每个分割构建模型:给指定为分割字段的输入字段的每个可能值构建一个单独模型。
输出类型:在此指定希望结果模型块是决策树还是规则集。
组符号:如果选中此选项,C5.0 将试图组合输出字段中具有相似样式的符号值。如果未选中此选项,C5.0 将为用于分割父节点的符号字段的每个值创建一个子节点。
使用 boosting:C5.0 算法有一个特殊的方法用于提高其准确率,称为 boosting。它的工作原理是在序列中构建多个模型。第一个模型按常规方式进行构建。构建第二个模型时,将焦点集中于由第一个模型误分类的记录。构建第三个模型时,将焦点集中于第二个模型的错误,依此类推。最后,通过将整个模型集应用到观测值,并使用加权投票过程将单独的预测组合为一个总预测来分类观测值。推进可以显着提高 C5.0 模型的准确性,但也需要更长的训练时间。通过试验次数选项可以控制在推进模型过程中使用的模型数目。
交互验证:如果选中此选项,C5.0 将使用一组模型(根据训练数据的子集构建)来估计某个模型(根据全部数据集构建)的准确性。
专家模式- 修剪严重性: 确定对决策树或规则集的修剪程度。增加该值可获得一个更简洁的小型树。减小该值可获得一个更精确的树。
专家模式- 每个子分支的最小记录数:可使用子组的大小限制树的任何分支中的分割数。仅当两个或多个生成的子分支中至少包含从训练集合得到的这一最小记录数时,才可分割树的分支。默认值为 2。
根据我们的分析需求,此节点的设定如下:勾选使用分区数据、选择决策树输出类型、专家模式下的修剪严重性设定为 80、每个子分支的最小记录数 15。此设定考量到我们资料量较大,避免过度配适的情形发生。
CHAID 节点设定
将 CHAID 节点与分区节点连结后,我们将于此节点编辑页面中的模型标签下设定相关的变数。由于 CHAID 节点设定较多,以下将挑选我们有修改预设值的变数进行详细介绍。此定义来自“SPSS Modeler 15 Modeling Nodes 文件”。
最大树深度:指定根节点以下的最大级数(递归分割样本的次数)。
修剪树以防止过拟合:修剪包括删除对于树的精确性没有显着贡献的底层分割。修剪有助于简化树,使树更容易被理解,在某些情况下还可提高广义性。
停止规则:设置最小分支大小可阻止通过分割创建非常小的子组。如果节点(父)中要分割的记录数小于指定值,则父分支中的最小记录数 将阻止进行分割。如果由分割创建的任意分支(子)中的记录数小于指定值,则 子分支中的最小记录数 将阻止进行分割。
根据我们的分析需求,此节点的设定如下:最大树深度选择自定义 8、勾选修剪树以防止过度拟合选项、停止规则选择使用绝对值、父分枝的中的最小记录数 50、父分枝的中的最小记录数 15。
生成决策树模型
决策树节点设定完成后,点击主工具列的运行当前流前即可看到两个决策树模型的产生。双击决策树模型则可看到模型结果,而我们最主要要观察的是模型标签及查看器标签下的内容。模型标签内容如图 9 所示,左栏位使用文字树状展开,表现每一阶层的分类状况及目标变数的模式;右栏位则是整体模型预测变量的重要性比较。我们也将会根据变量重要性调整模型设定、变数选择,持续的训练出较佳的模型。查看器标签则是将一样的决策树结果用树状图的方式展现。
图 9. 决策树模型结果
在前面的串流产生中,我们加入了分区节点将数据分成训练数据与测试数据,因此在决策树模型产生后,可加入分析节点,完成的决策树串流如图 10 所示。分析节点中我们勾选重合矩阵选项,因此除了分析节点原本就提供的正确错误率比较,可进一步了解实际值与预测值的比较矩阵,如图 11。分析结果将于下一小节详述。
图 10. 决策树串流
图 11. C5.0 结果
比较决策树模型分析结果
由于各决策树的演算法不同,最后的分枝结果以及预测的准确性亦不同,本文使用 C5.0 及 CHAID 两种决策树节点,其预测正确率如图 11 和图 12 所示。从结果来看,不论是训练以及测试数据,C5.0 的正确率都高于 CHAID,因此接下来我们会使用 C5.0 结果为主。进一步观察实际值与预测值的重合矩阵,可发现模型预测不购买定存商品的准确性远高于预测将会购买的准确性,以 C5.0 测试数据来看,no 的预测准确性为 95.9%,远大于 yes 的 49.1%。
图 12. CHAID 决策树分析结果
变量重要性
C5.0 与 CHAID 模型的变量重要性如图 13 所示。比较左边与右边的图可发现,尽管变量重要性的排序两个模型相差很大,但是最重要的两个分析变量「duration」和「poutcome」相同,且都比其他变量相对重要许多。
图 13. 变量重要性
解读预测结果
C5.0 决策树模型产生许多预测规则,而大部分的预测结果如同实际数据一样,都是不会购买定存产品。为了提高电销的成功率,银行人员可由这些规则来筛选目标。SPSS Modeler 提供的决策树结果,包括了分类结果、实例数字和置信度,当分类的实例置信度较高,则可导出预测规则。以图 14 为例,橘色底色的规则为「当 duration&=391,poutcome in [“failure”“other”],其预测结果是 no」,实例数字为 2808 笔数据符合,其中 91%被正确预测。
图 14. 模型结果
以下条列预测结果 (图 15,图 16) 为 yes 的规则及其实例数字和置信度(以 50%最低置性,及 100 最小实例数):
图 15. 生成规则集
图 16. 规则集
利用图形节点了解重要预测值
duration 和 poutcome 是刚刚得出的重要预测值。由直方图 (图 17) 来看,duration(与客户对谈时间)越长,成功率能大幅提升。超过 1000 秒的对谈时间,成功率能超过五成。以分布图 (图 18) 来观察 poutcome(上次行销结果),上次跟客户的成功交易,会大幅影响这次的结果。
图 17. duration 与客户接受银行商品意愿的关系图
图 18. poutcome 与客户接受银行商品意愿的关系图
由本次分析的结果看来,电销中有适当的与客户的谈话时间 (&1000 秒),及上次电销的成功率将会影响到本次电销的结果。由 Repeat customer 来着手,成功率会最明显提升。电销的谈话时间需要进一步的检视与客户对谈的实际内容,以设计吸引客户的话题。从 campaign(打电话) 次数来看,打给客户推销的次数越多,销售的效果越差。
公司在进行电销行动前也可以事先筛选客户,例如大于 60 岁或从事某一些职业 (学生、退休、主管等) 的客户设定为优先考虑。再来筛选财务状况。将基本的条件筛选完毕后,电销结果就会跟谈话的质量有关系。(转)
林俞均, 软件工程师, IBM
賴秉宏, 软件工程师,
IBM 袁璞, 软件工程师, IBM
转载请注明: &
or分享 (0)一 分析目的
本文分析数据来源于捷克银行(Czech bank),该数据涉及5300个银行客户数据、100万笔交易数据、700份贷款信息、900张信用卡数据。
通过对这些数据进行清洗、变换,并进行规范化后,来得到用户的信用度等描述性信息,并通过逻辑回归模型来对这些数据进行预测判断,得到哪些用户的贷款违约率较大等信息,从而为银行提供如下的相关决策支持:
1)针对高价值的用户,可以推荐或定制更多个性化的增值服务;
2)&针对不同信用度的用户,可增加或减少用户的贷款额度,并预估未来的坏账比例,及时做好资金安排。
二 分析工具
分析软件:SAS Enterprise Guide 5.1
分析模型:简单逻辑回归
分析数据:
& & & &Accounts(账户表):记录了账户号、行号、日期等信息,共计4500条;
& & &&Clients(客户信息表):记录了客户号、性别、生日、地区信息,共计5369条;
& & &&Disp(权限分配表):记录了客户号、账号、权限信息,共计5369条;
& & &&Order(支付订单表):记录账户号及对应的支付信息,共计6471条;
& & &&Trans(交易表):记录账户号、交易日期、交易金额和账户余额,共1056320条;
& & &&Loans(贷款表):记录账户号、贷款金额、贷款状态,共682条;
& & &&Cards(信用卡):记录每一个账户上的信用卡信息,共892条;
& & &&District(人口地区统计表):记录每个地区的GDP、人均收入、失业率和犯罪率,共77条;
三 分析过程
数据分析通常采用如下步骤:
1.数据收集
数据的8张表之间的关系如下图1所示。
评价用户是否高价值,数据来源有:
Cards.type:卡类型。价值由高到低为 金卡&青年卡&普通卡;
Cards.issue:发卡日期。在确定卡活跃度一致前提下,日期越久,用户忠诚度越高;
Trans.trans_date:交易日期。转换为定期(如年、月、日)的交易频度,频度越高,说明用户使用流动资金的意愿更高,银行可以对该用户更高的引用等级;
Trans.amount:交易金额;
Trans.balance:账户余额;
评价用户的信用度,数据来源有:
Clients表:提供用户的基本信息;
Loans表:关键表信息,其历史还款状态(status)可作为信用度参考依据;
District表:通过关联到用户所在的区域,可知其犯罪率、失业率、GDP、人均收入水平,也能作为因子进行信用度预测分析;
Trans表:用户的交易日期(trans_date)、交易金额(amount)、交易余额(balance)记录了用户还贷的频次(count(trans_date))、时长(max(trans_date))、交易总金额(sum(amount))、平均账户余额(avg(balance)),也可作为因子进行信用度预测分析;
Disp表:用户权限分配表。取权限类型(type)为“所有者”,因为只有权限为“所有者”的账户才能进行贷款申请。
评价用户是否高价值,属描述性统计分析,本文不做赘述。用户信用度预测,属于测数据挖掘分析,本章重点讲述该过程。
Step2.数据处理
本文分析的目的是要做逻辑回归,因此需获将Client、Loans、District、Trans、Disp共5张表做一定的转换后,合并为一张表(表名Analysis),从而进行预测。本步骤主要是对这些表做数据清洗、转换、规范化。
Loans表可以提供用户的还款状态(status)。status共分为A、B、C、D四种,A代表合同终止且正常还款,B代表终止但未还款,其他代码标示合同尚未结束。因此我们将C、D值用空白值“”代替(见图2),同时去掉列“每月归还还款额”,利用SAS EG的查询生成器功能,生成表step0。
为了将Loans的贷款数据与用户信息的数据连接起来,我们需要用到表Clients和Disp。由于只有权限为“所有者”的账户才能进行贷款申请,因此我们需要将表Clients和Disp进行内连接,筛选出Disp.type=’所有者’的用户数据,并利用SAS EG的查询生成器功能,生成表step1,见图4。
对Trans表的数据进行转换,得到用户还贷的频次(count(trans_date))、时长(max(trans_date))、交易总金额(sum(amount))、平均账户余额(avg(balance)),见图5。
District表代表着一个地区的经济发展水平和信用水平。通过将District表和step0进行内联接,可以得到step3,如图6所示。
最后,将step0、step1、step2、step3进行内连接,同时生成新列“犯罪增长率”、“失业增长率”、“贷款占比”,生成表Analysis,如图7。
犯罪增长率=1996年犯罪率/1995年犯罪率-1;
失业增长率=1996年失业率/1995年失业率-1;
贷款占比=贷款金额/平均账户余额(avg(balance))
Step3.数据分析
对Analysis进行逻辑回归,选择“还款状态”作为预测变量(因变量),而贷款频率、交易量、平均账户余额(avg)、GDP等均可作为自变量,见图8。
由于逻辑回归的模型为:
对于的图形为
可以知道,对与z&0,g(z)位于0.5~1之间;z&0,g(z)位于0~0.5之间。我们知道逻辑回归主要是应用于两分类问题的,对应于本文的问题,即是A(合同终止且正常还款)或B(合同终止但未还款)的两类问题。我们构造如下变量:
z=θ1 * X1(贷款频率)+θ2 *X2(交易量)+θ3* X3(avg)+θ4
* X4(贷款占比)+
θ5 * X5(GDP)+θ6 * X6(失业增长率)+θ7* X7(平均工资)+θ8
* X8(犯罪增长率)
以图10为例,当z&0时,决策应为A(合同终止且正常还款);当z&0时,决策应为B(合同终止但未还款)。那么对于逻辑回归模型,当g(z)的概率为0.5~1时,我们认为预测变量应为A;当g(z)的概率为0~0.5时,我们认为预测变量应为B。
对SAS EG设置响应如图11,其他设置见图12、13。本文以概率0.5~1时分类为B。
四 分析结论
通过SAS EG运行结果(图15)来看,贷款频率、贷款占比对用户违约概率有正向作用;而交易量、账户平均余额对用户违约概率有负向作用。
从图16来看,预测正确性的概率只有80%,如图16所示。
图17显示还款状态为B的频数只有31个,因此由图18可知,对于B的数据,逻辑回归预测的并不准确,而这需要对数据再做一定的梳理后,并采用改进的逻辑回归算法,对B需要更精确的拟合。
五 实施建议
1、对于数据量小的分类变量,如B,需要采用一种改进的方法进行更准确的预测;
2、& 对于被预测为B的用户,银行可以减少一定额度的贷款比例,并可以根据这些用户违约导致的坏账比例,进行预测分析。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:21604次
排名:千里之外
原创:15篇
(2)(1)(2)(4)(1)(1)(3)(1)(1)(1)(1)(2)

我要回帖

更多关于 sas预测 的文章

 

随机推荐