Affymetrix表达谱芯片差异分析(以下简称Affy)是小编最早接触到的基因表达数据产出平台以简单、成熟、便宜等特点,与二代测序平台形成鲜明对比我们今天以GEO数据库上的GSE15459数据為例,讲解该芯片差异分析数据的预处理过程(从原始CEL文件到基因水平表达数据)! ### GSE15459于2009年发布收录了使用Affy芯片差异分析平台检测的200个胃癌患者的基因表达数据,如下: ### 提供两种数据(原始数据和预处理后的数据)的下载: 数据预处理要从原始数据(CEL格式)开始即GSE15459_RAW.tar文件: ### 既然提供了处理好的数据,为什么还要自己做预处理 1、有时候数据集并未详细描述数据预处理过程,即你不知道他怎么得到的不敢用; 2、数据预处理方法并非更受欢迎或者自己熟悉的方法,如下MAS方法虽然常用但是也并不能直接用于后续分析: 可见,在正式的表达矩阵(红框选中)之前有大段的可以理解为注释的数据所以在使用该文件分析时要考虑进去! 4、也是最重要的一点:自己处理有成就感! ### 对於GEO数据集的讲解和数据下载,详见历史文章
### 将下载好的原始数据GSE15459_RAW.tar文件解压缩可见每个样本一个.gz压缩文件: 文件不大,不到5M与动辄几百兆,上G的测序数据相比... 注意不需要解压缩另外,其中有8个样本被排除分析: 我们在进行预处理前也把这8个样本删除掉即最终剩余192个样夲! Affy芯片差异分析成熟不仅仅在于官方提供了一系列的分析软件,而且很多R包可以进行Affy数据的处理分析而其中最基础的就是affy包: 可以通過gsub函数将样本名后的.CEL.gz去除掉 ### RMA标准化并提取探针水平表达 RMA是对于Affy基因表达谱芯片差异分析最常用的标准化方法,包含背景矫正、标准化、log转囮等过程: ### 探针-基因对应关系 对于该数据集要用到的注释R包是hgu133plus2.db: 可见,第一列为探针ID第二列为Gene Symbol,通过该对应关系即可得基因水平表达數据步骤如下: 1、删除对应多个基因的探针: 2、去除无对应基因的探针: 3、对应同一基因的多个探针,取均值作为基因水平表达值: |