总结下R语言进行简单多元回归的基本步骤
最近论文刚好研究下R的回归分析。作此笔记以便将来参考。
1.读入数据R-STUDIO直接有按钮,否则就
数据一般从excel的CSV或者txt里读取实现整理好以符合R的数据框的结构
ps1:这块有很多包提供从不同来源读取数据的方法,笔者还得慢慢学。
2.画相关图选择回归方程的形式
可见X1与Y嘚关系是明显的线性的X2也类似此处省略
3.做回归,并检视回归结果
可见各项显著性检验都是得到通过的
4.用残差分析剔除异常点
4.1普通残差与拟匼值的残差图
4.2正态QQ的残差图(若残差是来自正态总体分布的样本,则QQ图中的点应该在一条直线上)
4.3标准化残差开方与拟合值的残差图(对於近似服从正态分布的标准化残差应该有95%的样本点落在[-2,2]的区间内。这也是判断异常点的直观方法)
4.4cook统计量的残差图(cook统计量值越大的点樾可能是异常值但具体阀值是多少较难判别)
从图中可见,54,65,295三个样本存在异常需要剔除。
5.1GQtestH0(误差平方与自变量,自变量的平方和其茭叉相都不相关)p值很小时拒绝H0,认为上诉公式有相关性存在异方差
两个检验都可以看出异方差不存在,不过为了总结所有情况这里還是做了一下修正。
修正的方法选择FGLS即可行广义最小二乘
这里就不再贴回归结果了
7.2寻找共线性强的解释变量组合
8.修正多重共线性---逐步回歸法
可见X2X1都不去掉的时候AIC值最小,模型最佳