spss二元logistic回归归在spss操作中,自变量存在二分类资料,二分类资料要不要拉入“分类”选项?

研究者想调查人们对“本国税收過高”的赞同程度:Strongly Disagree——非常不同意用“0”表示;Disagree——不同意,用“1”表示;Agree--同意用“2”表示;Strongly Agree--非常同意,用“3”表示

另外,研究鍺也调查了一些其它情况包括:是否是“雇主”(biz_owner:Yes——是,用“0”表示;No——否用“1”表示)、年龄(age)和党派(politics:Lib——党派1,用“1”表示;Con——党派2用“2”表示;Lab——党派3,用“3”表示)部分数据如下图:


使用有序Logistic进行回归分析时,需要考虑4个假设

假设1:因變量唯一,且为有序多分类变量如城市综合竞争力等级可以分为高、中、低;某病的治疗效果分为痊愈、有效、无效等。

假设2:存在一個或多个自变量可为连续、有序多分类或无序分类变量。

假设3:自变量之间无多重共线性

假设4:模型满足“比例优势”假设。意思是無论因变量的分割点在什么位置模型中各个自变量对因变量的影响不变,也就是自变量对因变量的回归系数与分割点无关

有序多分类嘚Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归,例如本例中因变量“本国的税收过高”的赞同程度有4个等级分析时拆分為三个spss二元logistic回归归,分别为(0 vs 1+2+3) 、(0+1 vs 2+3)、(0+1+2 vs 3)均是较低级与较高级对比。

在有序多分类Logistic回归中假设几个spss二元logistic回归归中,自变量的系数相等仅常数項不等,结果也只输出一组自变量的系数因此,有序多分类的Logistic回归模型必须对自变量系数相等的假设(即“比例优势”假设)进行检驗(又称平行线检验)。如果不满足该假设则考虑使用无序多分类Logistic回归。

对假设进行验证前我们需要将分类变量设置成哑变量。

1. 为什麼要设计哑变量

若直接将分类变量纳入Logistic回归方程则软件会将分类变量按连续变量处理。例如如果把性别按“1”——男、“2”——女进荇编码,然后直接把性别纳入方程方程会认为“女”是“男”的2倍。为了解决这个问题需要用一系列的二分类变量“是”或“否”来表示原始的分类变量,这些新的二分类变量被称为“哑变量”

在SPSS软件的二项Logistic回归模型中,将分类变量选入categorical软件会自动设置一系列的哑變量。由于验证假设3(自变量之间无多重共线性)需要通过线性回归实现而在线性回归中,就需要手动设置哑变量因此,这里需要先手动設置哑变量

2. 设置哑变量的思路

哑变量的数目是分类变量类别数减一。本例中党派1、党派2和党派3的原始编码为1、2和3。设置哑变量时需偠对党派1和党派2进行重新编码。

建立新变量Lib(党派1)若调查对象选了党派1,则Lib编为“1”代表是;若未选党派1,则Lib编为“0”代表否。哃样建立新变量Con(党派2),将是否选党派2编为“1”或“0”此时,若既未选党派1又未选党派2,则两个新变量Lib和Con的编码都为“0”代表黨派3。此时党派3在模型中是参考类别(Reference)。

设置得到的结果如下图:

本例中没有缺失值可省略这一步。

(6)继续创建新变量“Lib”与以上步骤相似。两个变量创建完成后点击变量视图,可以看到在最右侧已经生成了两个新变量“Con”和“Lib”如下图:

假设1-2都是对研究设计的假设,需要研究者根据研究设计进行判断所以这里主要对数据的假设3-4进行检验。

1. 检验假设3:自变量之间无多重共线性

如果容忍度(Tolerance)小於0.1或方差膨胀因子(VIF)大于10则表示有共线性存在。

本例中容忍度均远大于0.1,方差膨胀因子均小于10所以不存在多重共线性。如果数据存在多重共线性则需要用复杂的方法进行处理,其中最简单的方法是剔除引起共线性的因素之一剔除哪一个因素可以基于理论依据。

2. 檢验假设4:模型满足“比例优势”假设

“比例优势”假设可以在后面结果部分的“平行线检验”中看到

(4)点击Location,出现Ordinal Regression: Location对话框如果自变量間有交互作用,则通过该对话框进行选择本例中自变量间无交互作用,所以点击Continue→OK

1. 假设4的检验结果

在结果解释之前,我们需要先看一丅假设4的检验结果(平行线检验的结果)

如果平行线假设不能满足,可以考虑一下两种方法进行处理:①进行无序多分类Logistic回归而非有序Logistic回归,并能接受因变量失去有序的属性;② 用不同的分割点将因变量变为二分类变量分别进行二项Logistic回归。

但是当样本量过大时,平荇线检验会过于敏感即当比例优势存在时,也会显示P<0.05此时,可以尝试将因变量设置为哑变量并拟合多个二分类Logistic回归模型,通过观察洎变量对各哑变量的OR值是否近似来判断

输出结果中,首先会给一个警告内容为:有235(63.2%)个频率为零的单元格。如果存在过多频数为0的單元格则会影响模型的拟合,导致拟合优度检验不可信

要理解这一点,就需要理解“协变量模式(covariate pattern)”的概念协变量模式是指数据Φ自变量数值的组合,与因变量无关比如,在本数据中一个协变量模式是23岁(age),雇主(biz_owner)和党派3(politics)对于每种协变量模式,可能囿多个研究对象比如,如果有4个研究对象是23岁、雇主和党派3这代表一个协变量模式。

需要理解的另一个概念是“单元格模式(cell pattern)”咜是指自变量和因变量数值的组合,与协变量模式相似但加上了因变量。对于同一个协变量模式如果协变量模式能对应因变量所有值,就没有“缺失”的单元格但实际中,一个协变量模式对应的因变量可能只有一个值假如,有1个23岁、雇主和党派3研究对象的因变量是“Agree”但由于因变量总共有4个水平,所以此时单元格“缺失”3个

因此,协变量模式与单元格模式之间的联系是:(1)所有可能的单元格總数是协变量模式个数乘以因变量的分组个数;(2)实际的单元格是指单元格模式中频率不为0的单元格单元格频率为零的比率为(总单え格的个数-实际单元格的个数)÷总单元格的个数。

3. 拟合优度检验结果

这两个统计量对于上述单元格频数为0的比例十分敏感。本例中频数為0的单元格非常多这两个统计量不一定服从卡方分布,而基于卡方分布计算的P值也不可信所以本例中这两个检验结果都不可信。

下图給出了三个伪决定系数:Cox and SnellNagelkerke和McFadden,这三种方法是最常用的计算伪决定系数的方法由于三种方法并没有得到广泛的应用,所以我们也不用关紸该结果

Model Fitting Information的结果是对模型中所有自变量的偏回归系数是否全为0的似然比检验。结果χ2=87.911(该值为仅有常数项的模型和最终模型的-2 Log Likelihood值之差)P< 0.001,说明至少有一个自变量的偏回归系数不为0换句话说,拟合包含biz_owner、politics和age这3个自变量的模型拟合优度好于仅包含常数项的模型

probability后,会在SPSS數据集中产生新的变量如下图所示。

那么如何看出模型预测因变量的程度呢?可以按照下述步骤建立表格

Agree时,模型预测正确的分别囿9人(23.7%)、76人(83.5%)和11人(28.2%)模型预测的总准确度可以通过计算获得,即四个分组中预测正确人数除以总人数=(11+9+76+11)÷192=55.7%

在Parameter Estimates中,得到了回归方程的参数包括常数项(Estimates或B)及其标准误和95%置信区间等。

(2)除了常数项不同Location中自变量的系数都是同一个系数,这也是为什么要求有序Logistic回歸需要满足比例优势的假设最终拟合的三个方程如下:

这样可以看到党派1 VS 党派3、党派2 VS 党派3的结果,但是没有党派1和党派2比较的结果此時,可以对Politics重新编码将党派1编为3,党派3编为1再进行上述操作,即可得到结果

运用符合比例优势假设的有序Logistic回归分析是否是雇主、投票选举的党派和年龄对“税收过高”的效应。

平行线检验的结果为χ2 = 8.620P=0.375,说明比例优势假设存在Deviance拟合优度检验显示模型拟合好,χ2 = 232.618P=0.960,泹是有大部分(63.2%)频数为0的单元格模型拟合信息显示,本模型优于只有常数项的模型χ2 = 87.911,P< 0.001

八、利用其它模块计算OR值

本例中tax_too_high共有四个等级,“0”表示“非常不同意”如果选择ascending,则“0”是最低的等级;如果选择Descending则表示“0”为最高的等级。

参数估计的OR值和95%CI见下图:

(想偠及时获得更多内容可关注“医咖会”微信公众号:传播研究进展探讨临床研究设计与医学统计学方法;如果你想使用文中数据进行练習,请随时给小咖(微信:xys2016ykf)发消息小咖将原始数据发给你。)

 数据分析真不是一门省油的灯搞的人晕头转向,而且涉及到很多复杂的计算还是书读少了,小学毕业的我真是死了不少脑细胞,

   学习spss二元logistic回归归有一段时间了今忝跟大家分享一下学习心得,希望多指教!

   二元Logistic从字面上其实就可以理解大概是什么意思,Logistic中文意思为“逻辑”但是这里并不是逻辑嘚意思,而是通过logit变换来命名的二元一般指“两种可能性”就好比逻辑中的“是”或者“否”一样,

似然比检验的具体步骤如下:

2:再擬合包含待检验因素的Logistic模型求新的对数似然函数值InL1

3:最后比较两个对数似然函数值的差异,若两个模型分别包含l个自变量和P个自变量记姒然比统计量G的计算公式为 G=2(InLP - InLl). 在零假设成立的条件下,当样本含量n较大时G统计量近似服从自由度为 V = P-l 的 x平方分布,如果只是对一个回归系数(或一个自变量)进行检验则 v=1.

这里的“二元”主要针对“因变量”所以跟“曲线估计”里面的Logistic曲线模型不一样,spss二元logistic回归归是指因变量為二分类变量是的回归分析对于这种回归模型,目标概率的取值会在(0-1)但是回归方程的因变量取值却落在实数集当中,这个是不能夠接受的所以,可以先将目标概率做Logit变换这样它的取值区间变成了整个实数集,再做回归分析就不会有问题了采用这种处理方法的囙归分析,就是Logistic回归

设因变量为y, 其中“1” 代表事件发生 “0”代表事件未发生,影响y的 n个自变量分别为 x1,  x2 ,x3 xn等等

记事件发生的条件概率为 P

事件發生跟”未发生的概率比 为( p / 1-p ) 事件发生比记住Odds

将Odds做对数转换,即可得到Logistic回归模型的线性模型:

上面的数据是大约700个申请贷款的客户我们需要进行随机抽样,来进行spss二元logistic回归归分析上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款接下来,步骤如下:

   1:设置随机抽样嘚随机种子如下图所示:

选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了就采用的默认值,点击确定返回原堺面、

 2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面:

在数字表达式中输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值

如果在0.7的概率下能够成功那么就为1,失败的话就为"0"

  为了保持数据分析的有效性,对于样本中“违约”变量取缺失值嘚部分validate变量也取缺失值,所以需要设置一个“选择条件”

  点击“如果”按钮,进入如下界面:

如果“违约”变量中确实存在缺失值,那么当使用"missing”函数的时候它的返回值应该为“1”或者 为“true", 为了剔除”缺失值“所以结果必须等于“0“  也就是不存在缺失值的现象 

點击 ”继续“按钮,返回原界面如下所示:

   将是“是否曾经违约”作为“因变量”拖入因变量选框,分别将其他8个变量拖入“协变量”選框内 在方法中,选择:forward.LR方法

将生成的新变量“validate" 拖入"选择变量“框内并点击”规则“设置相应的规则内容,如下所示:

设置validate 值为1此處我们只将取值为1的记录纳入模型建立过程,其它值(例如:0)将用来做结论的验证或者预测分析当然你可以反推,采用0作为取值记录

點击继续返回,再点击“分类”按钮进入如下页面

在所有的8个自变量中,只有“教育水平”这个变量能够作为“分类协变量” 因为其咜变量都没有做分类本例中,教育水平分为:初中高中,大专本科,研究生等等,  参考类别选择:“最后一个”   在对比中选择“指示苻”  点击继续按钮返回

再点击—“保存”按钮,进入界面:

 在“预测值"中选择”概率 在“影响”中选择“Cook距离” 在“残差”中选择“學生化”

点击继续,返回再点击“选项”按钮,进入如下界面:


1:在“案例处理汇总”中可以看出:选定的案例489个未选定的案例361个,這个结果是根据设定的validate = 1得到的在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替, 在“分类變量编码”中教育水平分为5类 如果选中“为完成高中,高中大专,大学等其中的任何一个,那么就取值为 1未选中的为0,如果四个嘟未被选中那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为 489个

1:在“分类表”中可以看出: 预测有360个是“否”(未违约) 有129个是“是”(违约)

2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值B为-1.026, 标准误差为:0.103

1:从“不在方程中的变量”可以看出最初模型,只有“常数项”被纳入了模型其它变量都不在最初模型内


下面来举例说明这个计算过程:(“年龄”自变量的得分为例)

计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:

从“不在方程的变量中”可以看出年龄的“得分”为7.46,刚恏跟计算结果吻合!!答案得到验证~!!!!

1:从“块1” 中可以看出:采用的是:向前步进 的方法 在“模型系数的综合检验”表中可以看絀: 所有的SIG 几乎都为“0”   而且随着模型的逐渐步进,卡方值越来越大说明模型越来越显著,在第4步后终止,

  根据设定的显著性值 和  自甴度可以算出 卡方临界值, 公式为:=CHIINV(显著性值,自由度)  放入excel就可以得到结果

最大似然平方的对数值 都比较大,明显是显著的

似然数对数計算公式为:

计算过程太费时间了我就不举例说明 计算过程了

卡方统计量< 临界值,从SIG 角度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体不存在顯著的差异。

2:从Hosmer 和 Lemeshow 检验随即表中可以看出: ”观测值“和”期望值“几乎是接近的不存在很大差异,说明模型拟合效果比较理想印證了“Hosmer 和 Lemeshow 检验”中的结果

而“Hosmer 和 Lemeshow 检验”表中的“卡方”统计量,是通过“Hosmer 和 Lemeshow 检验随即表”中的数据得到的(即通过“观测值和”预测值“)得到的计算公式如下所示:

x?(卡方统计量) =  ∑(观测值频率- 预测值频率)^2 / 预测值的频率

举例说明一下计算过程:以计算 "步骤1的卡方統计量为例 "

1:从“分类表”—“步骤1” 中可以看出: 选定的案例中,“是否曾今违约”总计:489个其中 没有违约的 360个,并且对360个“没有违約”的客户进行了预测有 340个预测成功,20个预测失败预测成功率为:340 / 360 =94.4%

  其中“违约”的有189个,也对189个“违约”的客户进行了预测有95个预測失败, 34个预测成功预测成功率:34 / 129 = 26.4%

  步骤1 的 总体预测成功率为:76.5%, 在步骤4终止后总体预测成功率为:83.4,预测准确率逐渐提升 76.5%—79.8%—81.4%—83.4 83.4的預测准确率,不能够算太高只能够说还行。

从“如果移去项则建模”表中可以看出:“在-2对数似然中的更改” 中的数值是不是很眼熟?,跟在“模型系数总和检验”表中“卡方统计量"量的值是一样的!!!

   将“如果移去项则建模”和 “方程中的变量”两个表结合一起來看

1:在“方程中的变量”表中可以看出: 在步骤1中输入的变量为“负债率”  在”如果移去项则建模“表中可以看出,当移去“负债率”这个变量时引起了74.052的数值更改,此时模型中只剩下“常数项”-282.152为常数项的对数似然值

  在步骤2中当移去“工龄”这个自变量时,引起叻44.543的数值变化(简称:似然比统计量)在步骤2中,移去“工龄”这个自变量后还剩下“负债率”和“常量”,此时对数似然值 变成了:-245.126此时我们可以通过公式算出“负债率”的似然比统计量:计算过程如下:

2:在“如果移去项则建模”表中可以看出:不管移去那一个洎变量,“更改的显著性”都非常小几乎都小于0.05,所以这些自变量系数跟模型显著相关不能够剔去!!

3:根据" 方程中的变量“这个表,我们可以得出 logistic 回归模型表达式:

将”方程中的变量“ —步骤4中的参数代入 模型表达式中可以得到  logistic回归 模型 如下所示:

从”不在方程中嘚变量“表中可以看出: 年龄,教育收入,其它负债都没有纳入模型中,其中:sig 值都大于 0.05所以说明这些自变量跟模型显著不相关。

  茬”观察到的组和预测概率图”中可以看出:

1:the Cut Value is 0.5,   此处以 0.5 为切割值预测概率大于0.5,表示客户“违约”的概率比较大小于0.5表示客户“违约”概率比较小。

2:从上图中可以看出:预测分布的数值基本分布在“左右两端”在大于0.5的切割值中大部分都是“1” 表示大部分都是“违約”客户,( 大约230个违约客户) 预测概率比较准而在小于0.5的切割值中,大部分都是“0” 大部分都是“未违约”的客户(大约500多个客户,未违约) 预测也很准

在运行结束后会自动生成多个自变量,如下所示:

 1:从上图中可以看出已经对客户“是否违约”做出了预测,仩面用颜色标记的部分-PRE_1 表示预测概率

上面的预测概率,可以通过 前面的 Logistic 回归模型计算出来计算过程不演示了

2:COOK_1  和 SRE_1 的值可以跟 预测概率(PRE_1) 进行画图,来看 COOK_1 和 SRE_1 对预测概率的影响程度因为COOK值跟模型拟合度有一定的关联,发生奇异值会影响分析结果。如果有太多奇异值应該单独进行深入研究!

研究者想调查人们对“本国税收過高”的赞同程度:Strongly Disagree——非常不同意用“0”表示;Disagree——不同意,用“1”表示;Agree--同意用“2”表示;Strongly Agree--非常同意,用“3”表示

另外,研究鍺也调查了一些其它情况包括:是否是“雇主”(biz_owner:Yes——是,用“0”表示;No——否用“1”表示)、年龄(age)和党派(politics:Lib——党派1,用“1”表示;Con——党派2用“2”表示;Lab——党派3,用“3”表示)部分数据如下图:

使用有序Logistic进行回归分析时,需要考虑4个假设 

  • 假设1:因變量唯一,且为有序多分类变量如城市综合竞争力等级可以分为高、中、低;某病的治疗效果分为痊愈、有效、无效等。

  • 假设2:存在一個或多个自变量可为连续、有序多分类或无序分类变量。

  • 假设3:自变量之间无多重共线性

  • 假设4:模型满足“比例优势”假设。意思是無论因变量的分割点在什么位置模型中各个自变量对因变量的影响不变,也就是自变量对因变量的回归系数与分割点无关

    有序多分类嘚Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归,例如本例中因变量“本国的税收过高”的赞同程度有4个等级分析时拆分為三个spss二元logistic回归归,分别为(0 vs 1+2+3) 、(0+1 vs 2+3)、(0+1+2 vs 3)均是较低级与较高级对比。

    在有序多分类Logistic回归中假设几个spss二元logistic回归归中,自变量的系数相等仅常数項不等,结果也只输出一组自变量的系数因此,有序多分类的Logistic回归模型必须对自变量系数相等的假设(即“比例优势”假设)进行检驗(又称平行线检验)。如果不满足该假设则考虑使用无序多分类Logistic回归。

对假设进行验证前我们需要将分类变量设置成哑变量。

假设1-2嘟是对研究设计的假设需要研究者根据研究设计进行判断,所以这里主要对数据的假设3-4进行检验

要理解这一点,就需要理解“协变量模式(covariate pattern)”的概念协变量模式是指数据中自变量数值的组合,与因变量无关比如,在本数据中一个协变量模式是23岁(age),雇主(biz_owner)囷党派3(politics)对于每种协变量模式,可能有多个研究对象比如,如果有4个研究对象是23岁、雇主和党派3这代表一个协变量模式。

需要理解的另一个概念是“单元格模式(cell pattern)”它是指自变量和因变量数值的组合,与协变量模式相似但加上了因变量。对于同一个协变量模式如果协变量模式能对应因变量所有值,就没有“缺失”的单元格但实际中,一个协变量模式对应的因变量可能只有一个值假如,囿1个23岁、雇主和党派3研究对象的因变量是“Agree”但由于因变量总共有4个水平,所以此时单元格“缺失”3个

因此,协变量模式与单元格模式之间的联系是:(1)所有可能的单元格总数是协变量模式个数乘以因变量的分组个数;(2)实际的单元格是指单元格模式中频率不为0的單元格单元格频率为零的比率为(总单元格的个数-实际单元格的个数)÷总单元格的个数。

运用符合比例优势假设的有序Logistic回归分析是否昰雇主、投票选举的党派和年龄对“税收过高”的效应。

八、利用其它模块计算OR值

本例中tax_too_high共有四个等级“0”表示“非常不同意”。如果選择ascending则“0”是最低的等级;如果选择Descending,则表示“0”为最高的等级

参数估计的OR值和95%CI见下图:

我要回帖

更多关于 spss二元logistic回归 的文章

 

随机推荐