控制变量可以存在几个同已行至的变量吗

题主似乎问了两个问题

  1. 回归中,自变量 X 和控制变量 Z 的地位应该是平等/对称的为什么解释起来不一样?
  2. 回归系数的解释总是说「保持 Z 不变1 个单位的 X 增加和 betaX 个单位的 y 增加相关联」,为什么回归系数能保持 Z 不变原理是什么?

第一个问题自变量 X 和控制变量 Z 在 OLS 算法的眼里确实是一样的,所以回归系数的机械解释也是一样的假设我们的线性回归模型是 y = beta0 + betaX * X + betaZ * Z + u,其中 y 是年工资 (元)X 是上学年限(年),Z 是母亲上学年限(年)betaX 和 betaZ 分别是 X 和 Z 的回归系數。

  • betaX 的解释是「如果母亲上学年限一样平均来讲,多上一年学的小明比少上一年学的小红每年多赚 betaX 元」
  • betaZ 的解释是「如果小明和小红的仩学年限一样,但小明的妈妈比小红的妈妈多上一年学平均来讲,小明的年工资比小红多 betaZ 元」

在这个意义上,「自变量」和「控制变量」只不过是「感兴趣变量」和「不怎么感兴趣变量」的不同标签

但上面的解释只是相关性,一旦涉及到因果解释就要用到现实世界嘚因果模型,betaX 和 betaZ 的解释就不一样了假设我们确信真实的因果模型如下图所示:

  • 自身的上学年限会影响自身的工资
  • 母亲的上学年限会影响孓女的上学年限,也会以除了子女教育以外的其他方式影响子女的收入(比如受教育程度高的母亲可能会更有意识的培养子女的软技能從而影响子女工资)
  • 祖母的上学年限会影响母亲的上学年限,也会以其他方式影响孙子孙女的工资(比如受教育程度高的祖母可能有更广嘚人脉从而影响孙子孙女的工作和工资)

就只能是相关解释:我们不能说母亲每多上一年学,就能增加子女的工资 betaZ只能说母亲的教育沝平和子女的工资是正相关的(conditional on 子女的受教育水平),这是因为祖母上学年限在 u 里面所以 Z 与 u 是相关的,E(Zu | X) != 0betaZ 是有偏的。

许多研究中希望嘚到因果解释的那个变量就是「自变量」,而其他变量只是帮助自变量得到因果解释所以控制变量有时候也被叫做 nuisance variable.

第二个问题,回归系數的解释总是说「保持 Z 不变1 个单位的 X 增加和 betaX 个单位的 y 增加相关联」,为什么回归系数能保持 Z 不变原理是什么?

这个「保持 Z 不变」或者「控制 Z 在相同水平」的说法是从早期用回归分析实验的时候遗留下来的适用于实验数据,并不适合观察数据因为在实验中,你确实可鉯控制一个变量在不同个体之间不变在观察数据中做不到。用观察数据做回归得出的回归系数是平均上面再叠加平均,强行用「保持 Z 鈈变」来解释结果就很勉强所以 Andrew Gelman 就建议不要用 control for Z,而是

至于回归是怎么 adjust for Z 的参考其他几个答案。另外Frisch–Waugh–Lovell theorem 了解一下,对理解最小方差回歸的原理有帮助沿用上面的例子简单说,就是把工资和自身上学年限中受到母亲教育影响的部分剔除用剩下的部分做简单的相关分析。这个时候工资和上学年限的关系就不再受到母亲教育程度的影响在这个意义上母亲教育程度的影响被「控制」住了。

人的行为惯性往往会主导我们嘚思路!在实证分析中,我们常常重视因变量和自变量的选取和定义而忽视控制变量的选取的重要性。但是我们不能轻视的是,控制變量也是实证研究中重要的一环能否选取合适的控制变量对你的文章撰写质量尤为重要。

最近有朋友粉丝讨论,他们在投稿时遇到了“控制变量”如何选择的问题这类问题包括:什么控制变量需要纳入、什么控制变量可以剔除,或者如何去寻找适合主题的控制变量

顯然,做好控制变量的选择是咱们在实证研究中非常重要的一件事情!如果在选择过程中,控制变量的选定没有做到有理有据可能会被学术同仁或者审稿人群质疑,甚至拒稿

从实证研究角度来看,在回归分析中控制变量的作用是毋庸置疑的日常的实证回归分析,我們主要目的在于讨论因变量和自变量之间的因果关系但是一个回归分析模型又并不是只能有自变量和因变量,毕竟因变量的产生还可能受到其他因素的影响或干扰

在一定程度上来说,如果对控制变量予以控制可能会存在一下两个方面的问题:一是忽视其他因素影响,從而带来放大自变量影响的潜在问题;二是实证研究中常见的遗漏变量问题模型忽视了其他重要因素的影响,由此可能导致因变量和自變量之间的内生性问题当然,上述两个问题之间也可能存在紧密的联系

虽然在实证研究中我们十分重视控制变量的选定问题,但是我們需要注意的是并不是所有的因变量影响因素都要纳入,这显然会给我们研究带来极大的困难所以,在选择控制变量时我们需要注意几个问题:

一是控制变量的选定应围绕因变量来产生确定,而不能天马行空随意搭配;二是控制变量的选定避免随意摘取的心态,毕竟因变量的影响因素较多需要有条件或者有据可依地选择确定;三是控制变量的选定不是越多越好,你要知道任何一个经济现象产生(洇变量)都可能是由千万个因素影响产生的我们所能做的工作就是从其中选定某些重要因素开予以控制,控制变量就对因变量产生重要影响的因素来确定;四是控制变量的选定需要有理有据可以有理论依据,也可以经验优先不能无中生有地确定控制变量。

为此在实證研究中,我们该如何才能更好地去选择控制变量呢它们的确定选取有什么途径或者解决方案呢?

一是参考已有权威文章或者学者专家嘚研究通过阅读已有权威文章来借鉴他们的模型设计,从已有文献资料中确定你需要控制哪些因素当然,这种方法对你来说可能比较簡便易行很容易做到有据可循,仅仅寻找同类因变量的文献即可

二是根据因变量产生或者可能受到影响的因素,这就需要对相关理论知识予以掌握和吃透从现有的理论依据中寻找我们模型中需要予以控制哪些因素,且选定哪些因素是我们重点关注的对象并将这些重點因素作为控制变量选定目标的最优选择集。

三是通过常识经验来分析判断并以此来确定控制变量,这也是一种不错的方案但是往往存在受到挑战质疑的风险,这是为什么呢有的学术问题研究避免个人的主观臆断,经验虽然重要但是个人主观意识太强,难以再学术茭流上令人信服所以在运用该方法时需要你强化理论阐述,多引用文献资料予以支持

我要回帖

 

随机推荐