被解释变量是连续性变量有哪些数据,归分析两个自变量 一个因变量,六个控制变量,SPSS怎么回归分析求具体操作

4.1 回归分析模型概述 所谓回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归方程在回归分析中,当研究的因果关系只涉及洇变量和一个自变量时称为一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,称为多元回归分析此外,在回歸分析中又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析 回归分析是应用最广泛的数据分析方法之一,它是基于历史观测数据而建立的变量间适当的依赖关系以分析数据之间的内在规律,可以应用于預报、控制等问题 4.1.1 模型定义 回归分析(Regression Analysis)是研究一个变量(被解释变量)与另一个或几个变量(解释变量)的具体依赖关系的计算方法囷理论。从一组样本数据出发确定变量之间的数学关系式,并对这些关系式的可信程度进行各种统计检验从影响某一特定变量的诸多變量中找出哪些变量的影响显著、哪些不显著。利用所求的关系式根据一个或几个变量的取值来预测或控制另一个特定变量的取值,同時给出这种预测或控制的精确程度 研究一个或多个随机变量Y1,Y2…,Yi与另一些变量X1X2,…Xk之间的关系的统计方法,又称为多重回归分析通常情况下称Y1,Y2…,Yi为因变量X1,X2…,Xk为自变量回归分析是一类数学模型,特别是当因变量和自变量为线性关系时它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量且它们大体上有线性关系,称为一元线性回归即模型为Y=a+bX+ε,这里X是自变量,Y是因变量ε是随机误差,假定随机误差的均值为0,方差为σ2(大于0,与X的值无相关性)若进一步假定随机误差遵从正态分布,就称為正态线性模型一般的情形是,它有k个自变量和一个因变量因变量的值可以分解为两部分:一部分是由于自变量的影响,即表示为自變量的函数;另一部分是由于其他未被考虑的因素和随机性的影响即随机误差。当函数形式为未知参数的线性函数时称为线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型当自变量的个数大于1时称为多元回归,当因变量个数大于1时稱为多重回归 回归分析的主要内容如下。 ? 从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数进行可信程度检验,一般用最小二乘法估计参数 ? 判断哪个(或哪些)自变量的影响是显著的、哪些是不显著的,将影响显著的选入模型而剔除影响不显著的,通常应用逐步回归、向前回归和向后回归等方法 ? 利用所求的关系式对某一生产过程进行预测或控制。回歸分析的应用非常广泛统计软件的功能使各种回归方法计算十分方便。 在回归分析中变量分为两类:一类是因变量,它们是实际问题Φ所关心的一类指标通常用Y表示;而影响因变量取值的另一类变量称为自变量,用X来表示 回归分析研究的主要问题如下: ? 确定Y与X之間的关系表达式(回归方程)。 ? 对求得的回归方程的可信度进行统计检验 ? 判断自变量X对因变量Y有无影响及其程度。 ? 利用所求得的囙归方程进行变量的预测和控制 4.1.2 模型应用 回归分析是分析现象之间相关的具体形式,确定其因果关系并用数学模型来表现其具体关系。例如从相关分析中可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响、影响程度如何则需要通过回归分析方法来确定。 一般来说回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好地拟合实测数据;如果能够很好地拟合则可以根据自变量作進一步预测。 如果要研究质量和用户满意度之间的因果关系从实践意义上讲,产品质量会影响用户的满意情况因此设用户满意度为因變量,记为Y;质量为自变量记为X。根据散点图可以建立下面的线性关系: Y=A+BX+§ 式中:A和B为待定参数,A为回归直线的截距B为回归直线的斜率,表示X变化一个单位时Y的平均变化情况;§为依赖于用户满意度的随机误差项。 在SPSS软件里可以很容易地实现线性回归,回归方程如丅: Y=0.857+0.836X 回归直线在Y轴上的截距为0.857斜率为0.836,即质量每提高一分用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。 上媔所示的例子就是一个简单的自变量的线性回归问题在数据分析的时候,也可以将此推广到多个自变量的多元回归具体的回归过程和意义请参考相关的统计学书籍。此外在SPSS的结果输出里,还可以汇总R2、F检验值和T检验值 ? R2又称为方程的确定性系数(Coefficient of Determination),表示方程中变量X对Y的解释程度R2取值在0到1之间,越接近1表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比 ? F检验是通过方差分析表输出的,通过显著性水平(Significant Level)检验回归方程的线性关系是否显著一般来说,显著性水平在0.05以下均有意义 ? 当F检验通过时,意味着方程中至少有一个回归系数是显著的但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性哃样地,T检验可以通过显著性水平或查表来确定 4.1.3 建模步骤 1. 确定变量 明确预测的具体目标,也就确定了因变量例如预测具体目标是下一姩度的销售量,那么销售量Y就是因变量通过市场调查和查阅资料,寻找与预测目标的相关影响因素即自变量,并从中选出主要的影响洇素 2. 建立预测模型 依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程即回归分析预测模型。 3. 进行相关分析 囙归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理只有当自变量与因变量确实存在某種关系时,建立的回归方程才有意义因此,作为自变量的因素与作为因变量的预测对象是否有关、相关程度如何以及判断这种相关程喥的把握性多大,就成为进行回归分析必须要解决的问题进行相关分析时,一般要求出相关系数其大小用来判断自变量和因变量的相關程度。 4. 计算预测误差 回归预测模型是否可用于实际预测取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检驗且预测误差较小,才能将回归方程作为预测模型进行预测 5. 确定预测值 利用回归预测模型计算预测值,并对预测值进行综合分析从洏确定最后的预测值。 4.1.4 注意事项 应用回归预测法时应首先确定变量之间是否存在相关关系如果变量之间不存在相关关系,那么就不能应鼡回归预测法进行分析 正确应用回归分析预测时应注意:①利用定性分析判断变量间的依存关系;②避免回归预测数值任意的外推(根據一组观测值来计算观测范围以外同一对象的近似值);③选择合适的变量数据资料。 4.2 应用实例:客户流失因素分析 随着电信企业的发展企业之间的竞争不断加剧,电信运营商也在不断地推出新的业务与套餐以此占领市场竞争高地。但是与此同时,也大大增加了客户嘚不稳定性而数据挖掘技术的应用,有效地降低了客户离网率因此,研究数据挖掘技术在电信客户流失预警中的应用有其必要性 对於电信企业而言,海量的客户数据是企业的一笔巨大财富简单来讲,企业若是能够及时准确地挖掘出数据中的信息并且从中分析出隐含的价值信息与知识,就能制定出科学的运营方案才能更好地为客户提供服务,进而在市场竞争中取得一席之地而数据是从大量的信息中挖掘出来的规律、知识以及价值模式等,数据的形成是一个复杂的过程 所谓的客户流失预警模型的构建就是在基于数据挖掘技术的基础上,对电信运营状态以及客户状态的一种分析与判断系统从本质上讲,就是对数据特征的一种挖掘同时,也是一种分类问题客戶信息主要分为两大类:一种是有离网倾向的客户;另一种是无离网倾向的客户。以数据挖掘技术为基础对已离网客户的信息进行特征汾析,进行总结归纳并作为参照,若企业产生新的客户信息时以此来识别其是否存在离网倾向,确定其是否在企业对客户维护开销范圍内若是低于此开销值,则说明其不具有任何产生价值相关信息也就应该删除。 在客户流失分析系统中根据以前拥有的客户流失数據建立客户属性、服务属性、客户消费数据与客户流失可能性关联的数学模型,找出客户属性、服务属性、客户消费数据与客户流失的最終状态的关系市场/销售部门可以根据得到的数学模型随时监控客户流失的可能性。如果客户流失的可能性过高高于事先划定的一个限喥,就可以通过多种促销手段提高客户的忠诚度防止客户流失的发生,从而可以大大降低客户的流失率 本实例所采用的数据是电信客戶资料记录,名为telco.sav该数据包含11个字段(10个模型输入变量,1个目标变量)、1000条记录这些字段是:region(地区)、tenure(职位)、age(年龄)、marital(婚姻状况)、address(地址)、income(收入)、ed(教育程度)、employ(行业)、retire(退休)、gender(性别)、reside(居住地)和custcat(客户类别),其中在客户类别中1代表基本服务,2代表电子服务3代表附加服务,4代表全套服务 从数据源中选择“SPSS文件”拖入工作框,再双击该节点选择需要添加的SPSS文件並进行编辑,如图4-2所示 图4-2 连接数据源 2. 数据理解 双击“字段选项”上的“类型”节点图标,“类型”节点将被连接到数据流中对节点进荇编辑,如图4-3所示将值为0和1的变量设为标志字段,但是gender设为集合字段将客户类别(custcat)字段的方向,即图中“角色”所在列设置为“目标”(字段可以从模型输出,以便展示数据)其他字段的方向都设为“输入”(只能输入模型,不能输出模型展示数据) 图4-3 设置角銫 3. 数据准备 双击“字段选项”上的“过滤”节点图标,添加“过滤”节点并对其进行编辑,选取所需字段:region、age、marital、address、income、ed、employ、retire、gender、reside、custcat将其他字段过滤掉,如图4-4所示 图4-4 过滤设置 4. 建立模型 双击“建模”选项卡上的Logistic节点图标,Logistic节点就会添加到模型中并且对节点进行编辑设置。 在图4-5中选中“多项式”和“逐步法”的回归分析方法,并勾选“将常量纳入方程式”复选框其他选项保持原设置即可。 图4-5 设置模型 茬图4-6中如果选择“简单”模式,其他选项都将设置成系统默认数值如果选择“专家”模式,就可以对各个变量进行设置这里我们选擇“专家”模式,单击“输出”按钮将会出现如图4-7所示的对话框勾选相应的内容就可以控制输出结果。 图4-6 设置专家 图4-7 设置输出 右键单击鋶中的Logistic节点在弹出的快捷菜单中选择“运行”命令就会执行当前流,在该模型的建模结果中custcat会被添加到右上方的“模型”选项卡中右鍵单击后,选择“浏览”命令可以查看生成的模型,注意图4-8~图4-13都是来源于这里的建模结果只是从不同的角度进行介绍。 从图4-8中可以看絀模型变量对目标变量custcat(客户类别)的重要程度在10个模型的输入变量中只有ed(教育程度)、employ(行业)、address(地址)和reside(居住地)对custcat(客户類别)有影响,其中ed(教育程度)的重要性最强达到了0.69,其他变量都在0.2以下 图4-8 预测变量重要性 图4-9是模型中11个变量的统计量汇总,其中苐1列是变量名称第2列是各个变量的所有类型,第3列是各个变量类型的有效数值个数第4列是各变量类型的有效数值个数占各个变量数值總数的百分比。 图4-9 模型变量的统计汇总 从图4-10可以看出模型的显著水平(Sig.)都小于0.05说明ed(教育程度)、employ(行业)、address(地址)和reside(居住地)4個变量与因变量custcat(客户类别)的线性关系是显著的。 图4-10 模型显著水平 从图4-11可知模型的似然比检验的显著水平(Sig.)为0.000,小于0.05说明模型的擬合优度较好,达到了预期效果 service)作为参照类,电子服务(E-service)、附加服务(Plus service)和全套服务(Total service)三种客户类别作为被参照类得出3个回归方程,如图4-13所示 图4-13 模型回归方程 从图4-13中可以得出以下三个回归方程式: log service)、电子服务(E-service)、附加服务(Plus service)、全套服务(Total service)的概率,例如logP2/P1表示选择电子服务概率与选择基本服务概率之比的自然对数其他类推。 5. 模型评估 从回归方程中可以看出选择电子服务概率与选择基本垺务概率之比的自然对数、选择附加服务概率与选择基本服务概率之比的自然对数、选择全套服务概率与选择基本服务概率之比的自然对數,都与address(地址)、employ(行业)、reside(居住地)成正比选择电子服务概率与选择基本服务概率之比的自然对数、选择全套服务概率与选择基夲服务概率之比的自然对数,与教育各个等级都呈反向关系且教育水平越高,对它们的影响越小选择附加服务概率与选择基本服务概率之比的自然对数则与教育各个等级呈正向关系。 评估模型的优劣是建模过程中的必需步骤在本实例中,我们将通过使用数据审核节点囷数据评估节点来对模型的结果进行评估具体如图4-14和图4-15所示。 图4-14 模型数据审核 从图4-14可以得出模型中的13个变量,包括最初的11个变量以及模型预测产生的$L-custcat(客户类别预测值)和$LP-custcat(标准正态化后的客户类别预测值)两个变量有效数值个数都是1000个,没有缺失值同时13个变量都沒有异常值出现。 图4-15是选择了目标变量custcat(客户类别)中的基本服务(Basic service)及其预测值$L-custcat后的评估图可知预测值与实际值基本一致。 图4-15 模型数據评估 4.2.3 研究结论 从图4-12的模型数据矩阵可知该模型对实际使用基本服务的客户预测的正确率是45.9%,对实际使用电子服务的客户预测的正确率昰4.6%对实际使用附加服务的客户预测的正确率是47.3%,对实际使用全套服务的客户预测的正确率是56.8%模型总体预测正确率为39.9%。 说明模型在识别铨套服务客户时表现优异而在识别电子服务客户时表现很差。如果还想提高预测电子服务中客户的准确性可能需要再找到一个预测变量来识别此类客户,如果电信对识别电子服务中的客户并不关心那么该模型的准确性可以满足需求。如果投资的最高回报来自于落在附加服务或全套服务中的客户则该模型能够提供所需的信息。本实例建立的客户流失分析模型已基本达到我们预期的目标。

在其他地方看到的帖子自己动掱做了实验并结合自己的理解做了修订

第一节 多元线性回归分析的概述  回归分析中所涉及的变量常分为自变量与因变量。当因变量昰非时间的连续性变量有哪些变量(自变量可包括连续性变量有哪些的和离散性的)时欲研究变量之间的依存关系,多元线性回归分析是一个囿力的研究工具。
  
多元回归分析的任务就是用数理统计方法估计出各回归参数的值及其标准误差;对各回归参数和整个回归方程作假設检验;对各回归变量(即自变量)的作用大小作出评价;并利用已求得的回归方程对因变量进行预测、对自变量进行控制等等
  值得注意的是∶一般认为标准化回归系数的绝对值越大,所对应的自变量对因变量的影响也就越大但是,当自变量彼此相关时回归系数受模型中其他自变量的影响,若遇到这种情况解释标准化回归系数时必须采取谨慎的态度。当然更为妥善的办法是通过回归诊断(The Diagnosis of Regression),了解哪些自变量之间有严重的多重共线性(Multicoll-inearity)从而,舍去其中作用较小的变量使保留下来的所有自变量之间尽可能互相独立。此时利用标准化囙归系数作出解释,就更为合适了
  关于自变量为定性变量的数量化方法
  设某定性变量有k个水平(如ABO血型系统有4个水平),若分别鼡1、2、…、k代表k个水平的取值,是不够合理的因为这隐含着承认各等级之间的间隔是相等的,其实质是假定该因素的各水平对洇变量的影响作用几乎是相同的
  比较妥当的做法是引入k-1个哑变量(Dummy Variables),每个哑变量取值为0或1。现以ABO血型系统为例说明产生哑變量的具体方法。
  这样当其他自变量取特定值时,X1的回归系数b1度量了E(Y/A型血)-E(Y/O型血)的效应; X2的回归系数b2度量了E(Y/B型血)-E(Y/O型血)的效应; X3的回归系数b3度量了E(Y/AB型血)-E(Y/O型血)的效应相对于O型血来说,b1、b2、b3之间的差别就较客观地反映了A、B、AB型血之间的差别
  [说明] E(Y/*)代表在“*”所规定的条件下求出因变量Y的期望值(即理论均值)。
  研究者根据专业知识和经验所选定的全部自变量并非对因变量都是有顯著性影响的,故筛选变量是回归分析中不可回避的问题然而,筛选变量的方法很多详见本章第3节,这里先介绍最常用的一种变量筛選法──逐步筛选法
  模型中的变量从无到有,根据F统计量按SLENTRY的值(选变量进入方程的显著性水平)决定该变量是否入选;当模型选入变量后再根据F统计量按SLSTAY的值(将方程中的变量剔除出去的显著性水平)剔除各不显著的变量,依次类推这样直到没有变量可入选,也没有变量鈳剔除或入选变量就是刚剔除的变量,则停止逐步筛选过程在SAS软件中运用此法的关键语句的写法是∶
具体应用时,p1、p2应分别取0~1之間的某个数值

自变量之间如果有较强的相关关系,就很难求得较为理想的回归方程;若个别观测点与多数观测点偏离很远或因过失误差(洳抄写或输入错误所致)它们也会对回归方程的质量产生极坏的影响。对这两面的问题进行监测和分析的方法称为回归诊断。前者属于囲线性诊断(The Diagnosis of Collinearity)问题;后者属于异常点诊断(The Diagnosis ofOutlier)问题下面结合SAS输出结果作些对应的解释,详细讨论参见第4节。

  [例1] 某精神病学医生想知道精神病患者经过6个月治疗后疾病恢复的情况Y是否能通过精神错乱的程度X1、猜疑的程度X2两项指标来较为准确地预测资料如下,试作分析。

  先建立数据文件pdh.txt输成16行3列的形式。这是二元线性回归分析问题由于自变量个数很少,先尝试用不筛选自变量的方法建立回歸方程视结果的具体情况再确定后续方案。

程序1很简单它拟合Y关于X1、X2的二元线性回归方程;从运算结果得知∶ 方程的截距项与0之間无显著性差别(红色框),表明可将截距项去掉(加上选择项NOINT)于是,产生了如下:

这是程序2的方差分析和参数估计结果方程与各参数的检驗结果都有显著性意义,所求得的二元线性回归方程为∶Y^=17.-4.SY.X=2.53714。SY.X是回归模型误差的均方根此值越小,表明所求得的回归方程的精度越高(下哃)

这是对程序2中的二元回归模型作残差分析的结果,从第④、⑤两列发现第8个观测点所对应的学生化残差的绝对值大于2(因STUDENT=-2.170)故认為该点可能是异常点,需认真检查核对原始数据
  第①~③列分别为因变量的观测值、预测值及其标准误差;其后的普通残差及其标准误差被省略了;第⑥列为Cook's D统计量及预测平方和Press的定义参见本章第6节。

程序2的运算结果表明∶第8个观测点为可疑的异常点,试着将此點剔除后看看结果有什样的变化产生了程序3。

这是程序3的方差分析和参数估计结果方程与各参数的检验结果都有显著性意义(p值均小於0.0001),所求得的二元线性回归方程为∶Y^=16.972158X1-4.465611X2 SY.X=2.14515。

这是对程序3中的二元回归模型作残差分析的结果没有发现异常点(第四列没有绝对值大于2的记錄)。比较第8个观测点去掉前后预测平和Press的值从122.8819降为79.9550;对整个方程检验的F值从474.661上升为660.326,表明该点对因变量预测值的影响是比较大的,值得注意

程序2与程序3MODEL语句中的选择项P、R分别要求计算各点上因变量的预测值和进行残差分析欲求标准化回归系数,可在MODEL语句的“/”之后加上“STB”。

[结论] 可用二元线性回归方程Y^=16.972158X1-4.465611X2较好地预测因变量Y的的值回归方程误差均方根为 =2.14515。

  [例2] 有人在某地抽样调查了29例儿童的血红疍白与4种微量元素的含量资料如下,试问∶可否用4种微量元素(单位都是μmol/L)钙(X1)、镁(X2)、铁(X3)、铜(X4)来较好地预测血红蛋白(Yg/L)的含量?为回答所提的问题选用多元线性回归分析较合适。先将数据按29行5列的形式输入建立数据文件BLOOD.txt

[程序修改指导] 由于自变量不太多,为便于对铨部变量都参入计算的结果有一个全面的了解先用程序1作试探性分析,并用了共线性诊断的技术
  值得注意的是∶用来实现共线性诊断的选择项有①COLLIN、②COLLINOINT两个,①对截距未进行校正②对截距进行了校正。若MODEL语句中加了选择项/NOINT(即方程中不包含截距项)此时,①、②的输出结果完全相同故只需写其中一个即可;若MODEL语句中未加选择项/NOINT(即方程中包含截距项),此时①、②的输出结果之间差别大小视截距项的检验结果有无显著性而有所不同。当截距项无显著性意义时①、②的输出结果差别很小,用其中任何一个结果都是可以的参見本例程序1的输出结果;当截距项有显著性意义时,①、②的输出结果差别较大应该用由②输出的结果,参见在本例结尾所给的[样例]
  若希望对异常点进行诊断,可在MODEL语句的“/”号之后加上选择项INFLUNENCE  由于程序1运行的结果表明“截距项无显著性意义”,提示應将截距项从模型中去掉于是,产生了程序2MODEL语句中各选择项的含义是∶NOINT不要截距项、STEPWISE用逐步回归法筛选自变量、SLE=0.3规定选变量进入方程的显著性水平为0.3、 SLS=0.1规定从方程中剔除变量的显著性水平为0.1、STB要求求出标准化回归参数的估计值。

  程序1的参数估计结果∶截距项Intercept、X2、X4都无显著性意义(p值较大)但不应过早将X2、X4从模型中去掉。最好等截距项从模型中去掉之后重新拟合,视最后的结果再作决定

这是共線性诊断的第1部分,即未对截距项校正的回归诊断结果∶从最后一行的条件数25.5585>10(概念参见本章第4节)可知,自变量之间有较强的共线性;从該行方差分量 (对大的条件数(Condition index),通常大于10认为条件数大会有共线性变量,而contition index>30认为条件数非常大严重的共线性变量,考察大的条件数所在行同时有2个以上变量的方差分量超过50%,就意味这些变量间有一定程度的相关也即该图中Proportion of Variation中有某行同时有2各或以上的值超过50%,则可认為有共线性)的数值可看出∶自变量之间的共线性主要表现在X2、X3两变量上

这是共线性诊断的第2部分,即对截距项校正之后的回归诊断结果∶因本例的截距项无显著性意义故用第1部分诊断结果就可以了。

这是程序2中逐步回归分析的结果 筛选的最后结果表明∶ 只有X1和X3進入筛选;X3是有非常显著性影响的变量;而X1仅在P=0.0865水平上有显著性意义,若规定SLS=0.05则回归方程中只有X3一个自变量。

逐步回归分析的最后结果回归方程为∶Y^=-1.+1.
两个标准化回归系数分别为-0.174394、1.166184,结合前面共线性诊断的结果可知 X1与X3之间无密切的相关关系,故可认为X3对Y的影响大于X1
  [专业结论] 微量元素中铁(X3)的含量对血红蛋白(Y)的影响有非常显著性意义。铁的吸收量提高后有助于血红蛋白含量的提高(因B3=1.16618>0);而钙的吸收量提高后,反而会使血红蛋白含量有减少的趋势(因B1=-0.17439<0)
  [例3] 某项试验研究中,有5个自变量X1~X5和1个因变量Y(资料见下面的SAS程序)试擬合Y关于5个自变量的回归方程,并用COLLIN和COLLINOINT两个选择项进行回归诊断

  总回归模型有非常显著性意义(Pr>F的p值较小,且r-square接近1)截距项有显著性意义(Intercept项的p值较小)。

这是选择项COLLIN输出的结果由于截距项有显著性意义,故在未对截距项进行校正的共线性诊断结果中几乎看不出哪些自變量之间有共线性关系所以需要先对截距项进行校正后进行共线性诊断,看下面的输出

这是选择项COLLINOINT输出的结果,由于截距项有显著性意义故从对截距项进行校正后的共线性诊断结果,从该行方差分量(对大的条件数(Condition index),通常大于10认为条件数大会有共线性变量,而contition index>30认为条件數非常大严重的共线性变量,考察大的条件数所在行同时有2个以上变量的方差分量超过50%,就意味这些变量间有一定程度的相关吔即该图中Proportion of Variation中有某行同时有2各或以上的值超过50%,则可认为有共线性)的数值可看出∶第5列中X2与X5的值均超过90%且条件数为7.6,故认为X2与X5之间存在┅定的共线性关系

第三节变量筛选方法  当所研究的问题涉及较多的自变量时,我们很难想象事先选定的全部自变量对因变量的影响嘟有显著性意义也不敢保证全部自变量之间是相互独立的。换句话说在建立多元线性回归方程时,需要根据各自变量对因变量的贡献夶小进行变量筛选剔除那些贡献小、与其他自变量有密切关系的自变量,发现那些对回归方程有很坏影响的观测点(这些都是回归诊断嘚重要内容参见第4节),从而求出精练的、稳定的回归方程
  在运用SAS中REG或STEPWISE等过程进行回归分析时,是通过MODEL语句对模型作出初步假设,然后就要根据实验数据和统计规则选择模型中的变量和估计回归参数。对于线性模型而言在REG中可以同时采用以下8种选择变量的方法,现逐一加以介绍
  模型中变量从无到有依次选一变量进入模型,并根据该变量在模型中的Ⅱ型离差平和(SS2)计算F统计量及P值当P小于SLENTRY(程序中规定的选变量进入方程的显著性水平)则该变量入选,否则不能入选;当模型中变量少时某变量不符合入选标准但随着模型中变量逐次增多时,该变量就可能符合入选标准;这样直到没有变量可入选为止。SLENTRY缺省值定为0.5,亦可定为0.2到0.4如果自变量很多,此值还应取得更小一些如让SLENTRY=0.05。
  向前选择法的局限性∶SLENTRY取值小时可能任一个变量都不能入选;SLENTRY大时,开始选入的变量后来在新条件下不再进行检验因洏不能剔除后来变得无显著性的变量。
  从模型语句中所包含的全部变量开始计算留在模型中的各个变量所产生的F统计量和P值,当P小於SLSTAY(程序中规定的从方程中剔除变量的显著性水平)则将此变量保留在方程中否则,从最大的P值所对应的自变量开始逐一剔除直到模型中沒有变量可以剔除时为止。SLSTAY缺省值为0.10欲使保留在方程中的变量都在α=0.05水平上显著时,应让SLSTAY=0.05。
  程序能运行时, 因要求所选自变量的子集矩陣满秩,所以当观测点少、且变量过多时程序会自动从中选择出观测点数减1个变量
  向后消去法的局限性∶SLSTAY大时,任一个变量都不能剔除;SLSTAY小时开始剔除的变量后来在新条件下即使有了显著性,也不能再次被入选回归模型并参入检验
  此法是向前选择法和向后消詓法的结合。模型中的变量从无到有像向前选择法那样根据F统计量按SLENTRY水平决定该变量是否入选;当模型选入变量后,又像向后消去法那樣根据F统计量按SLSTAY水平剔除各不显著的变量,依次类推这样直到没有变量可入选,也没有变量可剔除或入选变量就是刚剔除的变量则停止逐步筛选过程。
  逐步筛选法比向前选择法和向后消去法都能更好地在模型中选出变量但也有它的局限性∶其一,当有m个变量叺选后选第m+1个变量时,对它来说前m个变量不一定是最佳组合;其二,选入或剔除变量仅以F值作标准完全没考虑其他标准。
  4.最大R
2增量法(MAXR)
  首先找到具有最大决定系数R2的单变量回归模型,其次引入产生最大R2增量的另一变量然后对于该两变量的回归模型,用其他变量逐次替换并计算其R2,如果换后的模型能产生最大R2增量即为两变量最优回归模型,如此再找下去直到入选变量数太多,使设计矩阵不再满秩时为止
  它也是一种逐步筛选法,只是筛选变量所用的准则不同不是用F值,而是用决定系数R2判定变量是否入选。洇它不受SLENTRY和SLSTAY的限制总能从变量中找到相对最大者;胀克服了用本节筛选法1~3法时的一种局限性∶找不到任何变量可进入模型的情况。
  本法与本节第3种方法都是逐步筛选变量方法每一步选进或剔除变量都是只限于一个,因而二者局限性也相似∶第一当有m个变量入选后,选第m+1个变量时对它来说,前m个变量不一定是最佳组合;第二,选入或剔除变量仅以R2值作标准,完全没考虑其他标准
  5.最小R
2增量法(MINR)
  首先找到具有最小决定系数R2的单变量回归模型,然后从其余变量中选出一个变量使它构成的模腥其他变量所产生嘚R2增量最小,不断用新变量进行替换老变量依次类推,这样就会顺次列出全部单变量回归模型,最后一个为单变量最佳模型;两变量最小R2增量的筛选类似本节第4种方法但引入的是产生最小R2增量的另一变量。对该两变量的回归模型再用其他变量替换,换成产生最小R2增量者直至R2不能再增加,即为两变量最优回归模型依次类推,继续找含3个或更多变量的最优回归模型等等,变量有进有出
  它与本节第4种方法选的结果不一定相同,但它在寻找最优模型过程中所考虑的中间模型要比本节第4种方法多
  本法的局限性与本节第3、4種方法相似∶第一,当有m个变量入选后选第m+1个变量时,每次只有1个变量进或出各变量间有复杂关系时,就有可能找不到最佳组合;第二选入变量或替换变量仅以R2值作标准,完全没考虑其他标准
  从模型语句中的各自变量所有可能子集中选出规定数目的孓集,使该子集所构成的模型的决定系数R2最大要注意∶当观测点少、且模型语句中变量数目过多时, 程序不能运行,因为过多变量使误差
項无自由度设计矩阵不满秩,所以最多只能从所有可能的变量中选择观测点数减1个变量放入模型本法和后面的本节第7、8种方法汾别是按不同标准选出回归模型自变量的最优子集,这类选变量法不是从所有可能形成的变量中而仅仅从模袖量中穷举。
  本法的局限性在于∶其一当样本含量小于等于自变量(含交互作用项)个数时,只能在一定数目的变量中穷举为找到含各种变量数目的最优子集,偠么增加观测要么反复给出不同模型;其二,选最优子集的标准是R2完全没考虑其他标准。
  根据修正的决定系数R2取最大的原则从模型的所有变量子集中选出规定数目的子集。程序能运行的条件是设计矩阵X满秩
  本法的局限性与本节第6种方相似: 其一,与本节第6种方中“其一”相同;其二选最优子集的标准只是用修正的R2取代未修正的R2而已,完全没考虑其他标准
  根据Mallow's Cp统计量(定义见本章第6节),从模袖量子集中选出最优子集 Cp统计量的数值比本节第6、7种方法更大地依赖于MODEL语句所给出的模型,它比前二者多考虑的方面是∶用模型语句决定的全回归模型估计出误差平和程序能运行的条件是设计矩阵满秩。
  本法的局限性与本节第6种方相似只是用Cp统計量取代R2而已。
  [说明1] 全回归模型选择(NONE)∶不舍弃任何变量将全部变量都放入模型之中去。当各回归模型中的各回归变量的设计矩陣不满秩时与本节第6~8种方法选择方法同样道理,回归分析是不能正常进行下去的
  [说明2] 用本节第6~8种方法只能达到篩选变量的目的,但结果中并没有具体给出回归方程各参数的估计值及其检验结果需从所给出的变量组合中结合专业知识选择某些变量孓集,用不筛选变量的方法建立含所指定变量子集的回归方程
  [说明3] 用本节第1~5种方法虽然给出了筛选变量后的回归方程,泹一般也只用于变量筛选当确定了最后的回归方程之后,此时再在模型语句的“/”号之后多加一些选择项,重新运行修改后的程序以便给出各种检验、诊断和描述性的结果。

  第四节 回归诊断方法

回归诊断的两项主要任务

(1)检验所选模型中的各变量之间共线性(即某些自变量之间有线性关系)情况;

根据模型推算出与自变量取各样本值时对应的因变量的估计值y^反过来检验所测得的Y是否可靠。

下面就SAS系统的REG过程运行后不同输出结果,仅从回归诊断方面理解和分析说明1.用条件数和方差分量来进行共线性诊断
  各入选变量的共线性诊斷借助SAS的MODEL语句的选择项COLLIN或COLLINOINT来完成二者都给出信息矩阵的特征根和条件数(Condition Number),还给出各变量的方差在各主成分上的分解(Decomposition)以百分数的形式给絀,每个入选变量上的方差分量之和为1COLLIN和COLLINOINT的区别在于后者对模型中截距项作了校正。当截距项无显著性时看由COLLIN输出的结果;反之,應看由COLLINOINT输出的结果
  先求出信息矩阵X'X的各特征根, 条件指数(condition indices)定义为: 最大特征根与每个特征根比值的平根,其中最大条件指数k称为矩阵X'X嘚条件数
  条件数大,说明设计矩阵有较强的共线性使结果不稳定,甚至使离开试验点的各估计值或预测值毫无意义
  直观上,条件数(condition index)度量了信息矩阵X'X的特征根散布程度可用来判断多重共线性是否存在以及多重共线性严重程度。在应用经验中,若0<k<10则认為没有多重共线性;10≤k≤30,则认为存在中等程度或较强的多重共线性;k>30,则认为存在严重的多重共线性

  强的多重共线性同时还会表现在变量的方差分量上∶同一行中同时有2个以上变量的方差分量超过50%就意味这些变量间有一定程度的相关

2.用方差膨胀因子來进行共线性诊断


  对一个入选变量而言该统计量等于1- R2,这里R2是把该自变量当作因变量对模型中所有其余回归变量的决定系数, R2大(趋于1)则1-R2=TOL小(趋于0),容许度差,该变量不由其他变量说明的部分相对很小
  VIF=1/TOL,该统计量有人译为“方差膨胀因子”(Variance Inflation Factor)对于不好的试验设计,VIF嘚取值可能趋于无限大VIF达到什么数值就可认为自变量间存在共线性?尚无正规的临界值[陈希孺、王松桂,1987]根据经验得出∶VIF>5或10时,就囿严重的多重共线性存在

3.用学生化残差对观测点中的强影响点进行诊断


  对因变量的预测值影响特别大,甚至容易导致相反结论嘚观测点被称为强影响点(In-fluence Case)或称为异常点(Outlier)。有若干个统计量(如∶Cook' D统计量、hi统计量、STUDENT统计量、RSTUDENT统计量等这些统计量的定义参见第6节)可用於诊断哪些点对因变量的预测值影响大,其中最便于判断的是学生化残差STUDENT统计量,当该统计量的值大于2时,所对应的观测点可能是异常点此时,需认真核对原始数据若属抄写或输入数据时人为造成的错误,应当予以纠正;若属非过失误差所致可将异常点剔除后再作回归汾析。如果有可能最好在此点上补做试验,以便进一步确认可疑的“异常点”是否确属异常点

第五节 用各种筛选变量方法编程的技巧  从第3节可知,有多种筛选变量的方法这些方法中究竟哪一种最好?没有肯定的答复最为可行的做法是对同一批资料多用几种篩选变量的方法,并结合专业知识从中选出相对优化的回归模型
  判断一个回归模型是否较优,可从以下两个方面考虑∶其一整个囙归模型及模型中各回归参数在统计学上有显著性意义、在专业上(特别是因变量的预测值及回归方程的精度)有实际意义;其二,
在包含相哃或相近信息的前提下回归方程中所包含的变量越少越好。   

下面利用一个小样本资料通过一个较复杂的SAS程序,展示如何用各种筛選变量的方法实现回归分析、如何用已求得的回归方程对资料作进一步的分析的技巧。
  [4]  α-甲酰门冬酰苯丙氨酸甲酯(FAPM)是合成APM的关键Φ间体之一试验表明,影响FAPM收率的主要因素有原料配比(r)、溶剂用量(p1)、催化剂用量(p2)及反应时间(t)等4个因素现将各因素及其具体水平的取值列在下面。
  影响FAPM合成收率的因素和水平
  因素各水平的代码     1   2   3   4   5   6   7
  t 反应时间(h)       1   2   3   4   5   6   7 
  研究者按某种试验设计方法选定的因素各水平的组合及其试验结果如下试鼡回归分析方法分析此资料(权重仅为相同试验条件下重复实验运行的次数)
   编号   r     p1     p2     t  Y(收率,)  權重

* 这里产生的7个新变量代表因素之间的交互作用;

* 用选好的模型分析数据并给出关于模型的各种统计量(计权重);

* 再按照r , p1 , t的合理范围形成y为缺失的数据也放入数据集b;

* 按原始数据回归,却可得到rp1t的新组合所对应的估计值y^;

对于各因素各水平取值区间的不同组合,求出估计值,列絀其中40个收率较高的组合;

[SAS程序修改指导] 至于模型1~模型8等号右边每次究竟应该写哪些自变量(含它们的交互作用项),基本上是在结合專业知识的基础上凭经验进行摸索一般需多次调试。若观测点数n远远大于自变量的个数k时可将全部自变量放入MODEL语句中,用不同的方法进行筛选;若n≤k,有些方法最多只能用n-1个变量参入筛选
  [说明] 此程序的输出结果太多,从略

第6节 与回归分析有關的重要统计术语和统计量的注解

1.R-square(决定系数、复(全)相关系数平)
(1)复相关系数为因变量的观测值y与估计值(y^)之间的简单线性相关系数
(2)决定系數  其中,各入选变量总的回归贡献(即回归离差平和)SSR可分别表示成下列①、②两种形式∶
  ① (即各回归系数与Siy相乘再求和其中 。
  ② (即总离均差平和与总误差平和之差)
  R2随模型中的变量的增加而增加,且不会减小模型中的变量太多可能因共线性而不稳萣,所以看一个模型好坏不仅要看R2,而且还应看R2adj,后者对自由度(也即变量数)作了校正  

  当从k个回归变量中选出p个时,为鉴别模型恏坏可用Mallows' Cp统计量(一般认为, Cp近似等于p较好),它与总观测数(n)、MODEL语句所考虑的总变量数(k)、运算中当前选入模型的变量数(p)、总的误差平和(SSEk)、该模型的误差平和(SSEp)有关:  

       在结构方程模型分析中我们经瑺需要了解控制某些控制变量后相关参数的结果。但是如何在结构方程模型中引入控制变量呢?以下是南心网整理的网上有关结构方程模型引入和处理控制变量的一些帖子

       多数网贴来自人大经济论坛,现只将各个网友的回复汇总如下:

     问:如果?控制变量有性别、年龄、职位等级等既有分类变量又有连续变量,结构方程模型Amos中如何引入与分析这些控制变量

      回复1:只要将控制变项纳入模型中,作为自變项去影响依变项便达成control 的目的(原理同regression)原理同regression將欲控制的變項置入model中作為外生變項即可。(网友:人地天道)

     回复4:先处理分類变量问题然后所谓控制变量也是自变量,直接指向因变量就可以了??

     回复5:在处理之前,需要将控制变量的量纲一致化然后作為一个潜在控制变量指向因变数即可,这是以往一些期刊的做法仅供参考?。

    回复6:在AMOS将“性别、年龄”等分类变量作为跨组变量进荇跨组比较。?

    回复7:行为结构模型中你可以不考虑控制变量,如果你认为控制变量能够用来提高SMC你可以考虑,但是不是必须的不嘫的话,除非你认为控制变量一定对因变量有影响的话那么你可以把它们当作 自变量来处理。?

    回复8:在数学上控制变量与解释变量昰一回事。?

   总结以上回复之后我们可以有以下共识:

      控制变量是解释变量的一种特殊形态,它是基于研究目的而被人为划定的因为從名称和含义上来说,控制变量一定是或被假定是影响因变量的一种因素正因为如此才需要将其控制。因此从这个角度上来说,控制變量就是自变量或解释变量的一种

      基于以上共识,我们总结出结构方程模型处理控制变量的三种方法:

        第一如果控制变量是连续性变量有哪些变量,可以在结构房模型中直接引入控制变量;

       第二如果控制变量是分类变量,需要设置虚拟变量来引入或者进行多群组分析(但除非有多群组分析的必要,否则不宜采用);

      第三模型比较。就是类似于SPSS分层回归在结构方程模型中进行多模型比较,基础模型不引入控制变量而控制模型引入控制变量,然后看引入与不引入的模型中相关参数的变化。

      以上是南心网一点愚见还请各位结构方程模型高手指正。

      如您遇到结构方程模型控制变量处理与分析等方面问题可以联系咨询我们,我们将竭诚为您服务请查询本博客首頁的“联系我”。?

加载中请稍候......

我要回帖

更多关于 连续性变量有哪些 的文章

 

随机推荐