非靶向代谢组学—基础知识3(测序报告解读)
非靶向代谢组学—基础知识3(测序报告解读)
最近重新看了某测序公司的非靶向代谢组学的分析报告,感觉收获很大。这次就对非靶向代谢组学的常规下游分析内容进行一个整理,并不涉及代码,主要对基础概念的解读。
1.代谢组学概述
- 代谢组学(metabolomics)诞生于上个世纪末,是一门研究生命体对外界刺激、病理生理变化以及本身基因突变而引起的分子质量小于 1500Da 以内的代谢产物(内源性代谢物)种类、数量及其变化规律的科学。
- 代谢组学是继基因组学、转录组学、蛋白质组学后出现的新兴“组学“,是转录组学和蛋白质组学的延伸,能够更直接、更准确地反映生物体的生理状态,是系统生物学的重要组成部分。
- 系统生物学中,基因组学告诉你可能发生什么,蛋白组学告诉你正在发生什么,而代谢组学是最接近表型的组学,告诉你已经发生了什么。
- 目前代谢组学广泛应用于各研究领域。 通过代谢组技术分析实验组与对照组的代谢水平差异,找出差异代谢物,有助于生物标志物的筛选,或研究差异代谢物参与的生物过程(通过代谢通路逆推找出调节酶和基因),揭示其参与的生命活动机制,完成调控通路等方面的研究。
- 从检测方式上,代谢组学主要分为非靶向分析(untargeted)和靶向分析(targeted)两类。其中,非靶向分析模式通常是建立在高分辨质谱仪上(triple TOF 或 QE 系列等),依赖其强大的高分辨率质量分析器,能够对样本中的各类代谢物进行无偏向、大规模、系统性的检测,提供的是"航拍"的视角,最大程度反映生物体内的代谢水平扰动情况,因此适合项目前期的基础研究;而靶向分析模式通常是建立在单位质量分辨率的质谱仪上(Q-Trap、QQQ 等),依赖于三重四极杆串级质谱的高选择能力及高灵敏度,使用针对性开发的样品制备及色谱分离方法,对感兴趣的目标代谢物进行选择性、特异性的检测,适用于特定关注的代谢物检分析及对非靶代谢组筛选到的差异代谢物进行验证。
2.代谢物鉴定
2.1 代谢物鉴定等级
- 不同于转录组、蛋白组学技术,代谢组学技术发展最晚,研究的代谢物种类繁多,存在大量同分异构体及分子质量接近的代谢物,导致目前代谢物的准确鉴定都是一大难点和挑战
- 最新的代谢物鉴定等级分为5级,从level 0 到5,数字越大,可靠性等级越低(之前为4)。一般代谢物鉴定等级在2以上为可靠结果
- 等级 0,具有明确的三维结构和立体化学信息
- 等级 1,可靠的二维结构鉴定,至少需要将真实化学标准品的两个或多个正交性质(如MS/MS 谱图、保留时间 RT 或碰撞截面(CCS)值)与在相同分析条件下分析的感兴趣代谢物的相同性质进行比较
- 等级 2 级或 3 级为假定的注释结果,通常仅基于一个或两个性质,依赖于与不同实验室收集的或用不同分析方法获得的数据进行比较,而不是在相同分析条件下与真实的化学标准进行直接比较。例如,匹配公共数据库, 如 HMDB, MoNA, MassBank, METLIN 以及 NIST 等数据库中的 MS/MS 谱图,代谢物的鉴定等级定义为 Level 2
- 不能被鉴定为以上等级的为等级 4 未知物
2.2 代谢物鉴定数量统计
- 代谢物代谢组学测序区分正离子模式和负离子模式,如下图正负离子模式合并后鉴定 1334 种代谢物
- 问:代谢组学里面之所以要分正负离子模式?
- 代谢组学里面之所以要分正负离子模式(Positive/Negative mode),是因为这是质谱仪(MS)在检测代谢物时的一种离子化方式。不同的代谢物在这两种模式下的表现不一样,所以需要两种模式配合使用,才能更全面、准确地检测出样本中的各种代谢物
- 代谢组学的核心方法是色谱-质谱联用(如LC-MS),它的过程主要是:色谱(LC) 先把样品里的代谢物分离开;质谱(MS) 再对这些代谢物进行检测和定性定量。在进入质谱分析前,代谢物要被“电离”成带电的离子,才能被质谱仪检测到。而不同的代谢物更容易形成正离子或负离子,所以就有了两种离子化模式:正离子模式,检测到的离子类型为M+H⁺、M+Na⁺ 等正离子,适合检测的分子类型为含有胺类、碱性基团的代谢物,如多肽、脂质;负离子模式,检测到的离子类型为M-H⁻、M+Cl⁻ 等负离子,适合检测的分子类型为含有羧酸、酚羟基、酸性基团的代谢物,如有机酸、某些糖类
- 正负离子模式是质谱对不同类型代谢物的“扫描方式”,两者互补,能更全面检测所有代谢物。
- 问:蛋白质组学也用到了质谱技术,为什么蛋白质组学中不用正负离子离子模式?
- 蛋白质或肽段在正离子模式下更容易形成多电荷正离子(multiply charged ions),这对于提高质谱分辨率和MS/MS碎片分析很重要。负离子模式对多肽来说电离效率差、不稳定、信号弱,不利于后续识别。
- 问:正负离子模式是否能检测到同一个代谢物?如果两个模式都检测到了同一个代谢物,表达量有差异怎么办?
- 同一种代谢物可能会被两个离子模式同时检测到,但因为电离效率、响应因子不同,表达量出现差异是正常的。在分析时通常会选择信号质量更好的一项作为代表,避免重复或干扰统计结论。
- 后续分析中什么时候区分正负离子模式,什么时候不区分?
- 在后续的PCA、OPLS-DA、差异分析火山图中都需要分为正负离子模式
- 后续得到的差异代谢物需要合并在一起进行富集分析
3. 组间差异分析
- 单变量统计分析是从某单一变量水平考察组内变异度和组间差异,而多维统计分析是从总体水平反映组间差异以及反映组内的变异度。
- 代谢组数据具有高维度且变量间高度相关的特点,运用传统的单变量分析无法快速准确地挖掘数据内潜在的信息, 所以需要运用多元统计的方法,如 PCA、OPLS-DA 分析等分析,在最大程度保留原始信息的基础上对采集的多维数据进行降维分析。即因为代谢物之间相互关联,所以需要多维角度去理解整体差异模式。
- 同时结合单变量统计分析和多维统计分析结果,是代谢组最常使用的一种组间显著性差异代谢物筛选方法。
- 对正、负离子模式下检测到的两套数据分开分析
3.1 单变量统计分析
- 单变量统计分析方法是最常用的统计分析方法之一。在进行两组样本间的差异分析时,常用的单变量统计分析方法包括变异倍数分析(Fold Change Analysis,FC Analysis)、T 检验/非参检验
- 即一条代谢物一条代谢物地分析,看哪些在两个组之间“显著不同”
- 基于单变量分析,对正、负离子模式下检测到的所有代谢物(含未被鉴定的代谢物)进行差异分析。如FC > 1.5 或 FC<0.67,P value < 0.05 的差异代谢物
3.2 多维统计分析
3.2.1 PCA
- 主成分分析 (Principal Component Analysis, PCA) 是一种非监督的数据分析方法, 它将原本鉴定到的所有代谢物重新线性组合, 形成一组新的综合变量, 同时根据所分析的问题从中选取几个综合变量,使它们尽可能多地反映原有变量的信息,从而达到降维的目的。同时,对代谢物进行主成分分析,还能从总体上反映样本组间和组内的变异度。 因此在数据分析中, 一般先采用 PCA 方法,观察组间样本的总体分布趋势和组间样的差异度。
- (可选)经 7-fold cross-validation(7 次循环交互验证)得到的 PCA 模型参数见表 4。R2X 越接近 1表明模型越稳定可靠
3.2.2 偏最小二乘判别分析(PLS-DA)
- 偏最小二乘判别分析(Partial Least Squares Discrimination Analysis, PLS-DA)是一种有监督的判别分析统计方法。该方法运用偏最小二乘回归建立代谢物表达量与样品类别之间的关系模型,来实现对样品类别的预测。 通过建立的判别模型,可以从数据集中筛选出与分组相关的差异脂类物质。
3.2.3 正交偏最小二乘判别分析(OPLS-DA)
- 正交偏最小二乘判别分析(OPLS-DA)是一种对 PLS-DA 进行修正的分析方法,可以滤除与分类信息无关的噪音,提高了模型的解析能力和有效性;在 OPLS-DA 得分图上,有两种主成分,即预测主成分和正交主成分。 OPLS-DA 将组间差异最大化的反映在 t1上,所以从 t1上能直接区分组间变异,而在正交主成分 to1上则反映了组内的变异。
- (可选)经 7-fold cross-validation(7 次循环交互验证)得到的模型评价参数(R2Y,Q2),一般 Q2 大于 0.5,表明模型稳定可靠,0.3<Q2≤0.5,表明模型稳定性较好,Q2<0.3,表明模型可靠性较低。
- (可选)为避免有监督模型在建模过程中发生过拟合,采用置换检验(Permutation test)对模型进行检验,以保证模型的有效性。 显示了示例对比组 OPLS-DA 模型的置换检验图,随着置换保留度逐渐降低,随机模型的 R2 和 Q2 均逐渐下降,说明原模型不存在过拟合现象,模型稳健性良好。
4. 差异代谢物筛选
- OPLS-DA 模型得到的变量权重值 (Variable Importance for the Projection, VIP) 能够用于衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力, 挖掘具有生物学意义的差异代谢物分子。通常 VIP>1 的代谢物被认为在模型解释中具有显著贡献
- 代谢组学通常以严格的 OPLS-DA VIP>1 和 P value < 0.05 为显著性差异代谢物筛选标准,差异代谢物示例表格。若以 OPLS-DA VIP>1 和 P value < 0.05 为标准,筛选到的差异代谢物数量较少,可考虑将标准降低,调整为 OPLS-DA VIP>1 和 P value < 0.1。
- 正负离子分开分析
- 筛选到差异代谢物,可再根据对应代谢物的logFC判断上调下调,用条形图、聚类热图展示等
5. 相关性分析
- 相关性分析可以帮助衡量显著性差异代谢物(VIP>1,P value < 0.05)之间的代谢密切程度(metabolic proximities),有利于进一步了解生物状态变化过程中代谢物之间的相互调节关系。具有表达相关性的代谢物,可能共同参与某一生物过程,即功能相关性
- 不同代谢物之间具有协同或互斥关系,比如某类代谢物变化趋势相同,则为正相关;与某类代谢物变化趋势,相反,则为负相关。 正相关的代谢物也可能表明其来源于同一合成途径,负相关表明可能被分解用于其他代谢物的合成,即合成转化关系
- 基于相关性分析方法,对显著性差异代谢物之间的相关性进行分析
- 为了更直观的揭示各类代谢物之间的共调节关系,相关性矩阵被转换成和弦图和网络图。和弦图和网络图均展示的是相关性系数|r|>0.8 且 p<0.05 的代谢物分子对,此标准可根据实际的情况调整。和弦图能更好的展示各类代谢物之间的相关性,网络图能更好的展示各种代谢物之间的相关性,各有优点。
6. KEGG 通路注释与分析
- KEGG通路注释与分析前,先对正负离子模式筛选到的差异代谢物合并。
- 显著性差异代谢物 (OPLS-DA VIP>1, P value < 0.05) 的KEGG通路注释结果
- KEGG通路图:进一步通过KEGG pathway mapper功能对差异代谢通路进行展示,并根据上下调信息对差异代谢物着色显示。代谢通路图中的红底小圆圈代表代谢物上调,蓝色圆圈代表代谢物下调。备注:浅绿色方框为物种专属蛋白,浅紫色底方框为不区分物种特异性蛋白(每条通路对应一张)
- 选择差异代谢物数量大于 5 的 KEGG 代谢通路,以热图的形式对 KEGG 代谢通路中的差异代谢物进行展示,每条差异代谢通路对应一张热图,图中每行代表一个差异代谢物(即纵坐标为显著性差异表达的代谢物),每列代表一组样品(即横坐标为样品信息)。红色代表显著性上调,蓝色代表显著性下调,颜色深浅表示上下调的程度,表达模式接近的代谢物聚在左侧同一 cluster 下
- KEGG通路富集图:KEGG通路富集分析是以KEGG通路为单位,以该物种或亲缘关系较接近的物种所参与的代谢通路为背景,通过Fisher精确检验(Fisher’s Exact Test),来分析计算各个通路代谢物富集度的显著性水平,从而确定受到显著影响的代谢和信号转导途径。P值越小,则该代谢通路的差异性越显著,以气泡图和柱状图两种形式进行展示
- KEGG代谢通路整体变化分析:Differential Abundance Score(差异丰度得分)是一种基于通路的代谢变化分析方法,差异丰度得分可以捕捉到某一途径中所有代谢物的平均、总体变化。以示例对比组为例,所有富集代谢通路的差异丰度得分如图20a和图20b所示。对于该分析方法的介绍,详见参考文献(Hakimi et al., 2016)。
- 所有的差异代谢通路按其上一层级Pathway_Hierarchy进行分类归属,然后重新作图展示
- 问:什么是 DA Score?
- DA score = 该通路中所有差异代谢物的“表达变化方向”的综合评分:范围:–1 到 +1
- 逻辑:如果通路中所有代谢物都 上调,则 DA score = +1如果都 下调,则 DA score = –1如果上调和下调都有,取一个加权平均值,所以结果就在 -1 到 1 之间
发布者:admin,转转请注明出处:http://www.yc00.com/web/1747531892a4648232.html
评论列表(0条)