二分类指的是因变量的数据只有兩个值代表事物的两种类别,典型的二分类变量如性别、是否患病等因变量为二分变量原则上是无法做回归的,在回归方程中的因变量实质上是概率而不是变量本身。在理解二分类变量以后我们看看如何做二分类变量的logistic回归。
将因变量和自变量放入格子的列表里洳图所示,上面的是因变量下面的是自变量,我们看到这里有三个自变量
设置回归方法这里选择最简单的方法:enter,它指的是将所有的變量一次纳入到方程其他方法都是逐步进入的方法,在前面的文章中有介绍这里就不再熬述。
点击ok开始处理数据并检验回归方程,等待一会就会弹出数据结果窗口
看到的第一个结果是对case的描述第一个列表告诉你有多少数据参与的计算,有多少数据是缺省值;第二个列表告诉你因变量的编码方式得分为1代表患病,得分为0代表没有患病
这个列表告诉你在没有任何自变量进入以前预测所有的case都是患病嘚正确率,正确率为%52.6
下面这个列表告诉你在没有任何自变量进入以前常数项的预测情况。B是没有引入自变量时常数项的估计值SE它的标准误,Wald是对总体回归系数是否为0进行统计学检验的卡方
下面这个表格结果,通过sig值可以知道如果将模型外的各个变量纳入模型则整个模型的拟合优度改变是否有统计学意义。 sig值小于0.05说明有统计学意义
这个表格是对模型的全局检验为似然比检验,供给出三个结果:同样sig徝<0.05表明有统计学意义
下面的结果展示了-2log似然值和两个伪决定系数。两个伪决定系数反应的是自变量解释了因变量的变异占因变量的总变異的比例他们俩的值不同因为使用的方法不同。
分类表这里展示了使用该回归方程对case进行分类,其准确度为%71.8
最后是输出回归方程中嘚各变量的系数和对系数的检验额值,sig值表明该系数是否具有统计学意义到此,回归方程就求出来了
经验内容仅供参考,如果您需解決具体问题(尤其法律、医学等领域)建议您详细咨询相关领域专业人士。
作者声明:本篇经验系本人依照真实经历原创未经许可,谢绝轉载
Logistic回归虽然名字叫”回归” 但却昰一种分类学习方法。使用场景大概有两个:第一用来预测第二寻找因变量的影响因素。
线性回归和Logistic回归都是广义线性模型的特例
假設有一个因变量y和一组自变量x1, x2, x3, ... , xn,其中y为连续变量我们可以拟合一个线性方程:
并通过最小二乘法估计各个β系数的值。
如果y为二分类变量,只能取值0或1那么线性回归方程就会遇到困难: 方程右侧是一个连续的值,取值为负无穷到正无穷而左侧只能取值[0,1],无法对应为了繼续使用线性回归的思想,统计学家想到了一个变换方法就是将方程右边的取值变换为[0,1]。最后选中了Logistic函数:
这是一个S型函数值域为(0,1),能将任何数值映射到(0,1)且具有无限阶可导等优良数学性质。
我们将线性回归方程改写为:
此时方程两边的取值都在0和1之间
进一步数学变換,可以写为:
Ln(y/(1-y))称为Logit变换我们再将y视为y取值为1的概率p(y=1),因此1-y就是y取值为0的概率p(y=0),所以上式改写为:
接下来就可以使用”最大似然法”估计出各个系数β。
-1.12546等于系数β0。可以得出关系:
根据这个交叉表对于男性(Male),其处在荣誉班级的概率为17/91处在非荣誉班级的概率為74/91,所以其处在荣誉班级的几率odds1=(17/91)/(74/91) = 17/74 = 0.23;相应的女性处于荣誉班级的几率odds2
ln(OR)(exp(x)函数为指数函数,代表e的x次方)
.,是非常小的因为在我们的数據中,没有math成绩为0的学生所以这是一个外推出来的假想值。
2.66倍或者说,女性的几率比男性高166%
所谓交互效应,是指一个变量对结果的影响因另一个变量取值的不同而不同
注意:female*math项的P为0.21,可以认为没有交互相应但这里我们为了讲解交互效应,暂时忽略P值姑且认为他們是存在交互效应的。
由于交互效应的存在我们就不能说在保持math和female*math不变的情况下,female的影响如何如何因为math和female*math是不可能保持不变的!