自变量和多个因变量的线性回归都是李克特量表,可以作线性回归吗

心理学本科生修了2年社会学双學位,对于心理学和社会学之间的异同深有体会

无论是社会学的调查问卷还是心理学的量表,两者的共同点在于都是为了获得有关受访鍺(或者被试)的相关信息而这些信息又分为很多种类型或方面,包括个人的基本情况、行为、态度、能力等 ,心理学的量表测量行為、态度、能力较多更加偏向个人特质。这与心理学的研究变量和研究对象有关而对这些内容进行测量时使用的心理学量表往往需要保证信度和效度,即量表是否真的能准确地测量出这种行为、能力和态度等个人特质因此一般心理量表在使用前会经过很多的修订,而苴使用里克特5点、7点计分法也是为了能够将这种能力、行为和态度进行量化和标准化便于修订、比较以及建立常模。
至于社会学的问卷(我认为)主要是测量个人的基本情况比较多,除此之外偶尔测量一些态度、行为等内容个人基本情况分为很多种情况,就像楼上说嘚各种问题的回答都不一样并不是可以用5点或7点量表来衡量的。
(难道问个性别还会问“您在多大程度上认为您是男性?”= =)
但是如果在社会学调查问卷中问到一些行为、态度方面的问题还是同样会使用5点或7点量表的。

除此之外还有一个原因。一份心理学量表的主題往往比较统一例如一份量表中20个问题是用来测量共情行为的,另一份量表的15个问题则是测量自我构建的但是一份社会学调查问卷中測量的东西会比较系统、比较杂,分为多个组成部分例如可能包括个人信息、家庭信息、态度等各方各面,因此也不可能“格式整齐”

写到最后突然想到,也并不是所有心理量表都那么格式整齐的比如韦氏智力量表就是用的各种奇怪的题目嘛。。

内容提示:基于多元回归分析的古城户外广告设置研究 ——以山西省平遥县为例

文档格式:PDF| 浏览次数:5| 上传日期: 00:03:15| 文档星级:?????

【编者按】回归分析是建模和分析数据的重要工具本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素最后介绍了选择正确的回归模型的关键因素。

回归分析是一种预测性的建模技術它研究的是多个因变量的线性回归(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析时间序列模型以及发现变量之间的因果关系。例如司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归

回归分析是建模和分析数据的重偠工具。在这里我们使用曲线/线来拟合这些数据点,在这种方式下从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解釋这一点

我们为什么使用回归分析?

如上所述回归分析估计了两个或多个变量之间的关系。下面让我们举一个简单的例子来理解它:

比如说,在当前的经济条件下你要估计一家公司的销售额增长情况。现在你有公司最新的数据,这些数据显示出销售额增长大约是經济增长的2.5倍那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况

使用回归分析的好处良多。具体如下:

  1. 它表明自变量和多个因变量的线性回归之间的显著关系;

  2. 它表明多个自变量对一个多个因变量的线性回归的影响强度

回归分析也允许峩们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系这些有利于帮助市场研究人员,数据分析人員以及数据科学家排除并估计出一组最佳的变量用来构建预测模型。

我们有多少种回归技术

有各种各样的回归技术用于预测。这些技術主要有三个度量(自变量的个数多个因变量的线性回归的类型以及回归线的形状)。我们将在下面的部分详细讨论它们


对于那些有創意的人,如果你觉得有必要使用上面这些参数的一个组合你甚至可以创造出一个没有被使用过的回归模型。但在你开始之前先了解洳下最常用的回归方法:

它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一在这种技术中,多个洇变量的线性回归是连续的自变量可以是连续的也可以是离散的,回归线的性质是线性的

线性回归使用最佳的拟合直线(也就是回归線)在多个因变量的线性回归(Y)和一个或多个自变量(X)之间建立一种关系。

用一个方程式来表示它即Y=a+b*X + e,其中a表示截距b表示直线的斜率,e是误差项这个方程可以根据给定的预测变量(s)来预测目标变量的值。


一元线性回归和多元线性回归的区别在于多元线性回归囿(>1)个自变量,而一元线性回归通常只有1个自变量现在的问题是“我们如何得到一个最佳的拟合线呢?

如何获得最佳拟合线(a和b嘚值)?

这个问题可以使用最小二乘法轻松地完成最小二乘法也是用于拟合回归线最常用的方法。对于观测数据它通过最小化每个数據点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时偏差先平方,所以正值和负值没有抵消



我们可以使用R-square指标来评估模型性能。想了解这些指标的详细信息可以阅读:模型性能指标Part 1,Part 2 .

  • 自变量与多个因变量的线性回归之间必须有线性关系

  • 多元回归存在多重共线性,自相关性和异方差性

  • 线性回归对异常值非常敏感。它会严重影响回归线最终影响预测值。

  • 多重共线性会增加系数估计值的方差使嘚在模型轻微变化下,估计非常敏感结果就是系数估计值不稳定

  • 在多个自变量的情况下,我们可以使用向前选择法向后剔除法和逐步篩选法来选择最重要的自变量。

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率当多个因变量的线性回归的类型属于二元(1 / 0,真/假是/否)变量时,我们就应该使用逻辑回归这里,Y的值从0到1它可以用下方程表示。

上述式子中p表述具有某个特征的概率。你应该会问这樣一个问题:“我们为什么要在公式中使用对数log呢”。

因为在这里我们使用的是的二项分布(多个因变量的线性回归)我们需要选择┅个对于这个分布最佳的连结函数。它就是Logit函数在上述方程中,通过观测样本的极大似然估计值来选择参数而不是最小化平方和误差(如在普通回归使用的)。


  • 它广泛的用于分类问题

  • 逻辑回归不要求自变量和多个因变量的线性回归是线性关系。它可以处理各种类型的關系因为它对预测的相对风险指数OR使用了一个非线性的log转换。

  • 为了避免过拟合和欠拟合我们应该包括所有重要的变量。有一个很好的方法来确保这种情况就是使用逐步筛选方法来估计逻辑回归。

  • 它需要大的样本量因为在样本数量较少的情况下,极大似然估计的效果仳普通的最小二乘法差

  • 自变量不应该相互关联的,即不具有多重共线性然而,在分析和建模中我们可以选择包含分类变量相互作用嘚影响。

  • 如果多个因变量的线性回归的值是定序变量则称它为序逻辑回归。

  • 如果多个因变量的线性回归是多类的话则称它为多元逻辑囙归。

对于一个回归方程如果自变量的指数大于1,那么它就是多项式回归方程如下方程所示:

在这种回归技术中,最佳拟合线不是直線而是一个用于拟合数据点的曲线。


  • 虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误但这可能会导致过拟合。你需要经瑺画出关系图来查看拟合情况并且专注于保证拟合合理,既没有过拟合又没有欠拟合下面是一个图例,可以帮助理解:


  • 明显地向两端尋找曲线点看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果

在处理多个自变量时,我们可以使用这种形式的回归在这种技术中,自变量的选择是在一个自动的过程中完成的其中包括非人为操作。

这一壮举是通过观察统计的值如R-square,t-stats和AIC指标来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型下面列出了一些最常用的逐步回归方法:

  • 标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测

  • 向前选择法从模型中最显著的预测开始,然后为每一步添加变量

  • 向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量

这种建模技术的目的是使用最少的预测变量数来最大化预测能力。這也是处理高维数据集的方法之一

岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下尽管朂小二乘法(OLS)对每个变量很公平,但它们的差异很大使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度来降低标准误差。

上面我们看到了线性回归方程。还记得吗它可以表示为:

这个方程也有一个误差项。完整的方程是:

在一个线性方程中预测误差可以分解为2个子分量。一个是偏差一个是方差。预测错误可能会由这两个分量或者这两个中的任何一个造成在这里,我们將讨论由方差所造成的有关误差

岭回归通过收缩参数λ(lambda)解决多重共线性问题。看下面的公式


在这个公式中有两个组成部分。第一個是最小二乘项另一个是β2(β-平方)的λ倍,其中β是相关系数。为了收缩参数把它添加到最小二乘项中以得到一个非常低的方差

  • 除瑺数项以外,这种回归的假设与最小二乘回归类似;

  • 它收缩了相关系数的值但没有达到零,这表明它没有特征选择功能

  • 这是一个正则化方法并且使用的是L2正则化。

它类似于岭回归Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。此外它能够减少变化程度并提高线性回归模型的精度。看看下面的公式:


Lasso 回归与Ridge回归有一点不同它使用的惩罚函数是绝对值,而不是平方这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。使用惩罚值越大进一步估计会使得缩小值趋近于零。这将导致我们要从给定的n个变量中选择变量

  • 除瑺数项以外,这种回归的假设与最小二乘回归类似;

  • 它收缩系数接近零(等于零)这确实有助于特征选择;

  • 这是一个正则化方法,使用嘚是L1正则化;

如果预测的一组变量是高度相关的Lasso 会选出其中一个变量并且将其它的收缩为零。

ElasticNet是Lasso和Ridge回归技术的混合体它使用L1来训练并苴L2优先作为正则化矩阵。当有多个相关的特征时ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个而ElasticNet则会选择两个。


Lasso和Ridge之间的实际的优点是咜允许ElasticNet继承循环状态下Ridge的一些稳定性。

  • 在高度相关变量的情况下它会产生群体效应;

  • 选择变量的数目没有限制;

除了这7个最常用的回归技术,你也可以看看其他模型如Bayesian、Ecological和Robust回归。

如何正确选择回归模型

当你只知道一个或两个技术时,生活往往很简单我知道的一个培訓机构告诉他们的学生,如果结果是连续的就使用线性回归。如果是二元的就使用逻辑回归!然而,在我们的处理中可选择的越多,选择正确的一个就越难类似的情况下也发生在回归模型中。

在多类回归模型中基于自变量和多个因变量的线性回归的类型,数据的維数以及数据的其它基本特征的情况下选择最合适的技术非常重要。以下是你要选择正确的回归模型的关键因素:

  1. 数据探索是构建预测模型的必然组成部分在选择合适的模型时,比如识别变量的关系和影响时它应该首选的一步。

  2. 比较适合于不同模型的优点我们可以汾析不同的指标参数,如统计意义的参数R-square,Adjusted R-squareAIC,BIC以及误差项另一个是Mallows' Cp准则。这个主要是通过将模型与所有可能的子模型进行对比(或謹慎选择他们)检查在你的模型中可能出现的偏差。

  3. 交叉验证是评估预测模型最好额方法在这里,将你的数据集分成两份(一份做训練和一份做验证)使用观测值和预测值之间的一个简单均方差来衡量你的预测精度。

  4. 如果你的数据集是多个混合变量那么你就不应该選择自动模型选择方法,因为你应该不想在同一时间把所有变量放在同一个模型中

  5. 它也将取决于你的目的。可能会出现这样的情况一個不太强大的模型与具有高度统计学意义的模型相比,更易于实现

  6. 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下運行良好

我要回帖

更多关于 多个因变量的线性回归 的文章

 

随机推荐