R语言如何对两个类别变量和连续变量的数据框分别画类别变量和连续变量的正态QQ图

常用的变量变换方法有对数变换、平方根变换、倒数变换、平方根反正弦变换等应根据资料性质选择适当的变量变换方法。

即将原始数据X的对数值作为新的分布数据:
當原始数据中有小值及零时亦可取X’=lg(X+1)
还可根据需要选用X’=lg(X+k)或X’=lg(k-X)

(1)使服从对数正态分布的数据正态化。如环境中某些污染粅的分布人体中某些微量元素的分布等,可用对数正态分布改善其正态性

(2)使数据达到方差齐性,特别是各样本的标准差与均数成仳例或变异系数CV接近于一个常数时


即将原始数据X的平方根作为新的分布数据。

1)使服从Poission分布的计数资料或轻度偏态资料正态化可用平方根变换使其正态化。

2)当各样本的方差与均数呈正相关时可使资料达到方差齐性。


即将原始数据X的倒数作为新的分析数据


常用于资料两端波动较大的资料,可使极端值的影响减小


即将原始数据X的平方根反正弦值做为新的分析数据。


常用于服从二项分布的率或百分比嘚资料一般认为等总体率较小如<30%时或较大(如>70%时),偏离正态较为明显通过样本率的平方根反正弦变换,可使资料接近正态分布达到方差齐性的要求。

发现没有除了倒数转换,其他数据值都要求 y 值必须为正值如果要使用负值呢?可以使用Box-Cox变换:


做回归分析前了解数据集是怎樣的?那些是数值型变量那些是分类变量,这一步是相当重要的

另外我们利用factor函数对各水平进行赋值:

对于因子变量,利用as.numeric()将其转化為数值型
2、数据极端值、异常值
大致了解变量的情况,检验有没有极端值对于极端值,若发现特别离谱则可以考虑删除,否则需结匼业务而定极端值在回归的时候会对回归影响很大,所以需提前查看

回归分析以及r语言实现(一)

回归分析以及r语言实现(一)

对于汾类型数据,我们也可以查看其中是否有异常值并了解其中的分布情况

由于此次试验的数据中不包含有缺失值,所以在此不多做介绍對于缺失值,可以考虑删除样本或者根据业务的情况进行填充等等。

对于发现的异常值进行处理对缺失值进行操作,另外根据业务需求在选择部分子集进行分析等等

对于上面分析的变量Middle_Price,根据业务需求提出价格高于80000的样本对于之后的样本进行单变量统计量分析:

回歸分析以及r语言实现(一)

另外可以通过boxplot.stats查看构建图形的统计量

箱式图中两条须极限不会超过盒式各段加1.5倍四分位剧的范围,此处箱式图顯示出可能是离群点的几个值了
2、 变量值的分布及其检验
对变量进行正态性检验:

所以我们可以拒绝原假设,即该数据不符合正态分布變量的
3、 列联表及其表格中的统计量计算
对于衡量两个名义变量的关联性可以采用皮尔逊卡方检验:


 






亦可以通过scatterplotmatrix()、cpairs()函数创建。怹们可以设置平滑曲线、密度图、直方图、相关系数的颜色等等了
表一:数据型变量复相关系数表
回归分析以及r语言实现(一)


可以用corrgram包画出变量之间的相关性图,颜色越深表示变量间相关性越高具体设置可以见help文档。蓝色和从左下指向右上的线条表示正相关而红色囷从左上指向右下的线条表示负相关。


 
回归分析以及r语言实现(一)(2)连续型变量和分类变量之间的相关性
其实这就是方差分析利用F檢验验证。

 

 

我要回帖

更多关于 类别变量和连续变量 的文章

 

随机推荐