相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质其结果在於指导下一步采取何种方法,是数据挖掘之前的基础工作;
相关分析之前有必要搞清楚变量的类型,根据具体类型选择合适的相关系数Pearson相关系数适用于两变量的度量水平都是尺度数据,并且两变量的总体是正态分布或者近似正态分布的情况还有说法认为其样本量应大於30,可供参考在这些条件之外的,考虑选择spearman系数或者kendall系数
- 相关分析是回归分析的前提
- 回归分析是相关分析的拓展
相关系数是对变量之間相关关系密切程度的度量
在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)有时也简称为PMCC,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)的取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量線性相关性的强弱它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的,但是发展后原想法相似但略有不同的这种相关系数常被称为“Pearson的r”。
Pearson线性相关系数只是许多可能中的一种情况为了使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据如果这两条件不符合,一种可能就是采用Spearman秩相关系数来代替Pearson线性相关系数
对于相对Φ心性的数据(例如,一组已经通过样本均值转换为均值为0的数据)相关系数可以看做是由两随机变量样本绘出的两个向量之间夹角的餘弦值。
相关系数的显著性检验的目的是为了检验两个变量之间样本相关系数r(r≠0)与一个相关系数=0的已知总体之间的差别是否是由於抽样误差所产生的如果差别有统计学意义,则说明两个变量之间存在相关关系在已经检验两个变量存在相关关系的情况下,相关系數的绝对值越趋近于1则两个变量相关关系越密切,越趋近于0则两个变量相关关系越不密切。
H0:两样本服从正态分咘且不相关
准确服从高斯分布的数据
Person相关系数为-0.17,且显著性水平为0.837不相关的假设成立