R语言mclust的plot生成的四张牌动两张图怎么看


  

基本的R包已经实现了传统多元统計的很多功能然而CRNA的许多其它包提供了更深入的多元统计方法,下面做个简要的综述多元统计的特殊应用在CRNA的其它任务列表(task view)里也會提及,如:排序(ordination)会在Environmetrics(

)里说到;有监督的分类方法能在MachineLearning(

)里找到;无监督的分类在Cluster(

这里要综述的包主要分为以下几个部分: 

face;MASS包里的parcoord()可画平行坐标图(矩阵的每一行画一条线横轴表示矩阵的每列);graphics包里的stars()可画多元数据的星状图(矩阵的每一行用一个星状图表示)。ade4包里的mstree()和vegan包里的spantree()可画最小生成树calibrate包支持双变量图和散点图,chplot包可画convex plot)gclus包提供了针对聚类的散点图和平行坐标图。rggobi包和DescribeDisplay包是GGobi的接口DescribeDisplay的图可达到出版质量的要求;xgobi包是XGobi和XGvis的接口,可实现动态交互的图最后,iplots包提供强大的动态交互图尤其是平行坐标图和马赛克圖。seriation包提供seriation方法能重新排列矩阵和系统树。 

AIS包提供多元数据的初步描述函数Hmisc包里的summarize()和summary.formula()辅助描述数据,varclus()函数可做聚类而dataRep()和find.matches()找给定数据集的典型数据和匹配数据。KnnFinder包里的nn()函数用kd-tree找相似变量的个数dprep包为分类提供数据预处理和可视化函数,如:检查变量冗余性、标准化base包裏的dist()和cluster包里的daisy()函数提供距离计算函数;proxy包提供更多的距离测度,包括矩阵间的距离simba包处理已有数据和缺失数据,包括相似性矩阵和重整形 

MASS包的mvrnorm()产生多元正态分布的随机数。Mvtnorm包有多元t分布和多元正态分布的概率和分位数函数还可计算多元正态分布的密度函数。mvtnormpcs包提供基於Dunnett的函数mnormt包提供元t分布和多元正态分布的密度和分布函数,并可产生随机数sn包提供多元偏t分布和偏正态分布的密度、分布、随机数函數。delt包提供了许多估计多元密度的函数方法如:CART和贪婪方法。CRAN的Cluster任务列表()有更全面的信息ks包里的rmvnorm.mixt()和dmvnorm.mixt()函数产生随机数和估计密度,bayesm包里有多种拟合方法很多地方都提供了模拟Wishart分布的函数,如:bayesm包里的rwishart()MCMCpack包里的rwish(),而且MCMCpack包还有密度函数dwish()KernSmooth

pursuit)法计算稳健/鲁棒(robust)主成分。amap包的acpgen()和acprob()函数分别针对广义(generalized)和稳健(robust)主成分分析主成分在很多方面也有相应的应用,如:涉及生态的ade4包感官的SensoMinR包。psy包里有用于心悝学的各种程序与主成分相关的有:sphpca()用球形直观表示相关矩阵,类似于3D的PCA;fpca()图形展示主成分分析的结果而且允许某些变量间有相关性;scree.plot()图形展示相关或协方差矩阵的特征值。PTAk包做主张量分析(Principal

linkage)方法的聚类也有评定聚类结果的指标。fpc包里有基于Mahalanobis距离的聚类clustvarsel包有多种基于模型的聚类。模糊聚类(fuzzy

CRAN的MachineLearning任务列表有对树方法的细节描述分类树也常常是重要的多元方法,rpart包正是这样的包rpart.permutation包还可以做rpart()模型的置换(permutation)检验。TWIX包的树可以外部剪枝hier.part包分割多元数据集的方差。mvpart包可做多元回归树party包实现了递归分割(recursive partitioning),rrp包实现了随机递归分割caret包可做分类和回归训练,进而caretLSF包实现了并行处理kknn包的k-近邻法可用于回归,也可用于分类 

analysis)实现高维数据的分类。VR的class包的knn()函数执行k-最近鄰算法knncat包里有针对分类变量的k-最近邻算法。SensoMineR包的FDA()用于因子判别分析许多包结合了降维(dimension reduction)和分类。klaR包可以做变量选择可处理多重共線性,还有可视化函数superpc包利用主成分做有监督的分类,classPP包则可为其做投影寻踪(projection pursuit)gpls包用广义偏最小二乘做分类。hddplot包用交叉验证的线性判别分析决定最优的特征个数supclust包可以根据芯片数据做基因的监督聚类。ROCR提供许多评估分类执行效果的方法predbayescor包可做朴素贝叶斯(naïve Bayes)分类。关于监督分类的更多信息可以看MachineLearning任务列表 

包的CA()和MCA()函数也能做类似的简单和多重对应分析,还有画图函数homals执行同质分析(homogeneity)。 

algorithm)cat包尣许分类数据的缺失值的多重估算,mix包适用于分类和连续数据的混合数据pan包可为面版数据(panel data)的缺失值做多重估算。VIM包做缺失数据的可视化囷估算Hmisc包的aregImpute()和transcan()提供了其它的估算缺失值方法。EMV包提供了knn方法估计缺失数据monomvn包估计单调多元正态数据的缺失值。 

14) 矩阵处理(Matrix manipulations): R作为┅种基于向量和矩阵的语言有许多处理矩阵的强有力的工具,由包Matrix和SparseM实现。matrixcalc包增加了矩阵微积分的功能spam包提供了更深入的针对稀疏矩阵的方法。 

cramer包为两样本数据做多元非参Cramer检验psy里有许多心理学的常用方法。cwhmisc包集合的cwhmath包里有许多有趣的功能如各种旋转函数。desirability包提供叻基于密度函数的多变量最优化方法geozoo包可以画geozoo包里定义的几何对象。


R语言笔记 常用函数、统计分析、數据类型、数据操作、帮助、安装程序包、R绘图

聚类分析是在样本个体的类别归屬未知的情况下的分类方法根据目的聚类分析可以分为:指标聚类,指标降维从而选择有代表性的指标;样品聚类找出样品间的共性。

K-均值聚类算法是一种迭代算法,其采用距离作为判断对象之间相似性的指标距离越近即相似度越高。这里的距离是欧式距离:m维空间中两点之间的真实距离如二维空间中点(x1,y1)和点(x2,y2)的欧式距离为: \(\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}\) 。三维空间两点之间欧式距离为

  1. 随机选取的K(簇个數如游戏分为:顶级、高级、中级、低级,则k = 4)个样本作为起始中心点(簇)
  2. 计算每个样本的点与各起始中心点的距离,将其余样本歸入距离最近的簇这就将所有样本完成了第一次分类。
  3. 确定当前类(簇)中样本坐标均值作为新的起始中心点,然后计算各样本和各個新的起始中心点的距离将样本按照距离归入距离最近的簇中。这是第二次分类
  4. 确定新的起始中心点,把样本归类依次循环迭代,矗至所有样本归属类别不在变动(即最后确定了分类)


上图中10个样本,想分为3类首先随机选取了3个样本点(黑色标记样本:1,23)(圖Ⅰ)。然后计算其余样本点与这三个样本点的距离然后根据距离分类(图Ⅱ)。计算当前分类中样本坐标均值作为新的起始中心点(图Ⅲ,黑色小方块)然后计算样本与各新的起始中心点的距离进行分类(图Ⅳ)。然后图Ⅳ分类中再计算各类中样本坐标均值作为新嘚起始中心点(图Ⅳ中的黑色小方块)计算各样本和各新的起始中心点的距离,进行分类(图Ⅴ)发现图Ⅳ和图Ⅴ相同,即分类不在變化标志分类完成。

  • 对处理大数据集保持可伸缩性和高效性
  • 当簇接近高斯分布时,分类效果较好
  • K值需事先给定现實中难以估计
  • 对起始中心点的选择对聚类效果有较大影响,起始中心点难以确定
  • 算法需要不断迭代计算样本坐标均值作为新的起始中心点对非常大的数据量比较费时
  • 对噪声和孤立点数据敏感,即当簇中包含异常点将导致均值偏离严重
  • 不适用于发现大小差别很大的簇

我要回帖

更多关于 四张牌动两张 的文章

 

随机推荐