18 种人类癌症中的基因表达深度剖析
Basic Information
- 英文标题:Deep profiling of gene expression across 18 human cancers
- 中文标题:18种人类癌症中的基因表达深度剖析
- 发表日期:17 December 2024
- 文章类型:Article
- 所属期刊:Nature Biomedical Engineering
- 文章作者:Wei Qiu | Su-In Lee
- 文章链接:
Abstract
Para_01
- 临床和生物学信息在大规模癌症基因表达数据集中可以通过无监督深度学习来挖掘。
- 然而,与生物解释性和方法学稳健性相关的困难使这种方法变得不切实际。
- 在这里,我们描述了一个用于生成来自18种人类癌症中的50,211个转录组的基因表达数据的低维潜在空间的无监督深度学习框架。
- 我们将其命名为DeepProfile的框架在生物解释性方面优于降维方法。
- 这使我们能够揭示,在定义跨癌症类型的潜在空间中普遍重要的基因控制免疫细胞激活,而癌症类型特异性基因和通路则定义分子疾病亚型。
- 通过将DeepProfile中的潜在变量与肿瘤的次级特征联系起来,我们发现突变负荷与细胞周期相关基因的表达密切相关。
- 并且,DNA错配修复和MHC II类抗原呈递的生物通路的活性与患者生存率一致相关。
- 我们还发现,肿瘤相关巨噬细胞是与生存相关的MHC II类转录物的来源。
- 无监督学习可以促进从基因表达数据中发现生物学见解。
Main
Para_01
- 基因表达谱反映了复杂的细胞和分子过程网络。
- 无监督学习是从表达谱中提取有意义的生物信息以及减少数据维度的关键步骤,以便进行下游任务,如表型预测。
- 无监督学习将高维输入变量投影到一个潜在空间,该空间由一组较少的潜在变量或因素组成,这些因素能够解释原始输入空间中的变化。
- 学习到的潜在变量代表了样本间全基因组表达变异的来源,例如定义内在疾病亚型的大规模转录程序,或者反映外部刺激如缺氧或治疗压力。
- 每个个体癌症都有不同的特征和对治疗的反应,即使是相同类型的癌症也是如此。
- 因此,从研究和临床角度来看,发现和理解具有生物学意义的表达变异来源是非常重要的。
Para_02
- 一个关键限制是,常用的潜在空间学习方法,例如主成分分析(PCA),只能提取与基因表达水平具有线性关系的潜在变量,而基因之间的相互作用可能更为复杂。
- 人工智能(AI)领域通过使用深度神经网络在无监督学习方面取得了显著的成功,这些网络能够捕捉变量之间高度复杂的相互关系。
- 已经证明,从图像数据中使用无监督深度学习方法提取的潜在变量代表了训练集中整个图像的重要高级特征,例如:从面部图像中提取肤色、年龄和性别1,从场景图像中提取光照和房间几何形状2,以及从三维(3D)图像中提取物体的旋转和大小3。
- 这些信息丰富且复杂的图像特征无法被仅限于学习线性特征交互的模型捕捉到4。
Para_03
- 无监督深度学习在计算机视觉中的成功激发了最近将深度无监督学习方法应用于基因表达谱的几个应用。
- 以前的方法使用生成模型来学习单细胞测序数据下的潜在因素,将技术性误差与生物学因素区分开来。
- 此外,以前的研究通过从共表达网络到差异表达分析,再到深度无监督学习方法的各种方法进行了泛癌分析。
- 例如,参考文献15介绍了一种深度学习架构,以实现无监督深度模型的迁移学习,从而改善生存预测,并将其应用于癌症基因组图谱(TCGA)数据。
- 参考文献14开创了将无监督深度学习应用于从TCGA表达数据中捕获生物学相关特征的应用。
Para_04
- 然而,深度无监督学习方法在应用于癌症表达数据时仍然存在三个挑战。
- 首先,如果没有大量的样本数量,深度学习面临着过拟合的高风险。
- 其次,学习过程的非确定性损害了学到的潜在空间的鲁棒性。
- 即使使用相同的架构,每次神经网络训练的运行都会产生具有不同参数的不同模型,这使得难以捕捉一致的信号。
- 模型一致性在生物学中至关重要,在那里对学到的模型的解释比获得高预测准确性更为重要。
- 第三,多隐藏层的神经网络本质上是‘黑盒子’:由于不清楚模型如何利用基因表达输入来生成潜在变量,因此对潜在变量的生物解释存在问题。
Para_05
- 在解决训练深度学习模型时固有的非确定性问题,特别是在生物数据分析中,模型集成成为一种强大的解决方案。
- 通过聚合来自多个模型运行的输出,集成增强了预测的一致性和稳定性,这对于生物应用至关重要。
- 尽管以前的技术建议在无监督学习中使用模型集成16,20,但这些方法迄今为止仅限于具有单个隐藏层的‘浅层’模型。
- 此外,在生命科学中应用可解释的人工智能(XAI)21,22,23虽然广泛存在,但通常难以应对复杂、多维的数据。
- 在此背景下,模型集成提供了显著的优势,提高了特征归因的质量和可靠性24,从而与日益增长的对用于生物数据分析的AI模型的透明度和理解力的重视相一致。
Para_06
- 为了解决这些问题,我们开发了DeepProfile,这是一种框架,通过从基因表达数据中学习统计稳健且可解释的潜在空间,实现了独特的泛癌分析(图1)。
- 为了稳健地训练神经网络,我们整合了包含来自50,211个转录组的18种人类癌症的表达数据集,这些数据集来自公共基因表达数据存储库Gene Expression Omnibus (GEO)25。
- 为了应对深度学习过程的非确定性本质,并捕捉稳健的潜在空间,我们设计了一种独特的集成方法,将从不同随机起点和潜在空间大小生成的数百个深度无监督模型的结果结合起来。
- 虽然以前的方法提出了使用模型集成的方法16,20,但这些方法迄今为止仅限于具有单个隐藏层的‘浅层’无监督模型。
- 通过结合最先进的特征归因方法,该方法可以为每个潜在变量提供基因重要性值,DeepProfile能够创建具有多个隐藏层的‘深层’无监督模型的集成。
- 最后,DeepProfile通过整合来自GEO、癌症基因组图谱(TCGA)26以及基因型-组织表达(GTEx)数据库27的扩展基因表达谱,并整合不同的数据模态如临床和突变特征,扩展了先前的研究。
- 这个丰富的资源,包括稳健的癌症特异性深度嵌入、潜在变量的值以及潜在变量的生物学特征,使我们能够从一个新的角度审视癌症转录组信号,并研究它们与各种表型之间的关联。
Fig. 1: DeepProfile pan-cancer framework.
- 图片说明
◉ 我们从常见的微阵列平台下载了18种癌症类型的基因表达数据集,进行了预处理并将其合并成特定于癌症的表达矩阵。总共,我们拥有来自超过1000个GEO数据集的50000多个样本。◉ 我们将表达矩阵传递给深度学习模型以学习特定于癌症的潜在空间。◉ 深度学习模型是VAE(变分自编码器)的集合,它将高维表达信号编码到一个具有生物学意义的‘潜在空间’。◉ 然后我们将训练样本映射到学习到的潜在空间,并定义了癌症样本的‘嵌入’,其中每个深度配置文件潜在变量编码了癌症样本中的某些变异来源。◉ 我们将学习到的嵌入传递给解释器模型,以提取每个潜在变量的‘基因层面和通路层面贡献’。◉ 基因层面贡献表示每个基因对潜在变量的贡献程度。◉ 同样地,通路层面贡献表示与每个潜在变量最重要的基因显著相关的通路。◉ 使用特定于癌症的嵌入和贡献,我们进行了详细的泛癌分析,包括(1)分析18种癌症的潜在空间以发现癌症共同和特异性模式,(2)通过对比癌症嵌入和正常组织嵌入来区分癌症特异性模式和组织特异性模式,以及(3)通过整合深度配置文件嵌入、生存率和肿瘤突变负荷谱来研究生存和突变相关信号(扩展数据图1和2)。◉ 图1的部分内容是使用Servier Medical Art中的图片绘制的。◉ Servier Medical Art由Servier提供,遵循知识共享署名3.0通用许可协议(.0/)。◉ (注:部分文字被省略以符合示例格式)
Para_07
- 使用DeepProfile框架,我们研究了跨越所有18种癌症类型的基因和通路。
- 我们发现普遍重要的基因通过调节肿瘤浸润免疫细胞的转录表型来控制炎症反应的各个方面。
- 另一方面,仅对某一特定癌症类型潜空间有重大贡献的癌症类型特异性基因定义了分子疾病亚型,并反映了组织特异性生物学。
- 我们开发了一种将DeepProfile嵌入与患者和肿瘤特征联系起来的方法,并将其应用于研究基因和通路,这些基因和通路通过DeepProfile潜空间的视角与肿瘤突变负荷和患者生存相关。
- 我们发现,大多数癌症中肿瘤突变负荷与细胞周期相关通路的表达显著相关,而生存率与DNA错配修复和MHC II类抗原呈递通路的活性相关。
- 我们使深度神经网络模型具有生物解释性的方法允许学习复杂的非线性关系,同时保持稳定的模型。
- 因此,DeepProfile的稳健性和可解释性使得在大规模基因表达数据集中发现独特的生物学模式成为可能。
Results
DeepProfile learns robust latent spaces for 18 cancer types
DeepProfile为18种癌症类型学习稳健的潜在空间
Para_01
- 因为高度表达模型如深度神经网络在样本量小的时候容易过拟合,我们从GEO25获得了18种人类癌症中最常见的微阵列平台的所有可用表达数据集(图1和补充数据集1)(方法),得到了来自1,098个数据集的50,211个样本。
- DeepProfile将表达数据通过集合方法投影到由一组潜在变量表示的低维潜在空间中,该方法用于变分自动编码器(VAE)28(扩展数据图1)。
- VAE是一种特殊的深度神经网络,它将高维数据(在这里是数万个基因)压缩成低维嵌入,同时尽可能减少信息损失。
- 更具体地说,两个神经网络:(1)编码器,用于建模输入变量与潜在空间中的潜在变量之间的关系;(2)解码器,用于建模潜在变量与重构输入变量之间的关系,被训练使得重构的输入数据接近原始的基因表达数据(方法)。
Para_02
- VAE是一个可以发现基因之间非线性关系的独特模型,以反映基因相互作用的真实性质。
- 然而,将该模型应用于表达数据并不简单。
- 由于神经网络固有的非凸特性,它们从不同的随机初始化中学习到的模型变化性是内在的。
- 这意味着传统的VAE学习算法可能会导致每次试验中得到的模型都不相同,这种结果阻碍了对稳健生物信号的推断。
- 为了提高鲁棒性,我们开发了一组VAE来结合来自不同随机运行和潜在维度大小的学习模型(扩展数据图1和方法部分)。
- 这种方法将来自数百种不同潜在空间的信号整合到一个信息丰富的空间中。
- 在学习了这些特定于癌症的潜在空间后,DeepProfile的‘解释器’通过将其映射到基因和通路来生物学地表征每个潜在变量(图1)。
- 这一过程基于名为集成梯度的方法,这是一种原则性的‘特征归因’方法,用于量化每个潜在变量的值在多大程度上归因于输入变量(图1和扩展数据图2)。
- 特别是,对于每个潜在变量,DeepProfile生成一个基因归因评分列表,这表明每个基因对该潜在变量的相关性,并使用排名靠前的基因进行通路富集测试,从而提供通路级别的归因评分(方法部分)。
- 为了提高鲁棒性,我们开发了一组VAE来结合来自不同随机运行和潜在维度大小的学习模型(扩展数据图1和方法部分)。
- 这种方法将来自数百种不同潜在空间的信号整合到一个信息丰富的空间中。
Para_03
- 输入的基因表达数据集、它们的低维嵌入、基因层面和通路层面的相关性以及我们的泛癌分析结果在 GitHub 上公开可用,网址是 (代码)30 和在 figshare 上公开可用,网址是 .6084/m9.figshare.25414765.v2 (数据)31。
Para_04
- 训练好的DeepProfile模型通过将数千个基因表达水平的高维测量数据编码为150个潜在变量来解释每个样本中基因表达变异的相关因素。
- 潜在变量的数量是使用一种算法确定的,该算法迭代地决定是否添加一个额外的潜在变量,采用高斯性统计检验(方法)。
- DeepProfile可以应用于任何新的癌症基因表达数据集以降低其维度(扩展数据图2和方法)。
- 为了证明与独立RNA测序数据的一致性,我们使用了来自TCGA26的RNA测序数据,其中包含18种癌症中的9,079个样本,这些样本未用于训练DeepProfile(扩展数据图2、方法和支持数据集1)。
- 我们的结果还表明,尽管是在微阵列数据上进行训练的,DeepProfile仍能成功应用于RNA测序表达谱。
- 这进一步得到了由微阵列和RNA测序数据生成的DeepProfile嵌入之间的高相关性的支持(扩展数据图3)。
DeepProfile can learn biologically interpretable latent variables enriched for a wide set of pathways
DeepProfile 可以学习生物可解释的潜在变量,这些变量富集了大量的途径。
错误!!! - 待补充
Fig. 2: Comparisons of pathway enrichment from DeepProfile with other dimensionality-reduction methods.
- 图片说明
◉ 平均而言,通过DeepProfile和其他降维方法的潜在嵌入变量显著捕获(FDR校正P < 0.05)的KEGG、BioCarta和Reactome通路数量(顶部),以及Oncogenic Signatures基因集(底部)显示出来。◉ 每个嵌入的每个潜在变量与每条通路关联一个P值,并且我们计算每个潜在变量显著捕获的通路数量。◉ 然后,我们将所有潜在变量的这些通路计数平均,以定义一种方法显著捕获的平均通路数量。◉ b,显示了三种癌症类型中每个潜在变量显著捕获的KEGG、BioCarta和Reactome通路数量分布图(有关所有18种癌症,请参见扩展数据图4)。◉ c,比较至少被一个超过显著性阈值的通路注释的潜在变量百分比。◉ 显示了多种显著性阈值下,DeepProfile和其他替代降维方法的注释潜在变量的百分比。◉ 提供了三种癌症类型的示例(有关所有18种癌症,请参见扩展数据图5)。
Para_02
- 一个与任何已知通路无关的隐变量在生物学上难以表征,从而降低了整体的可解释性。
- 我们发现,DeepProfile产生的此类隐变量比其他方法少(图2b、扩展数据图4和方法部分)。
- 此外,我们展示了,在不同的P值阈值下,与其它方法相比,更多的DeepProfile隐变量被生物注释。
- 为了验证DeepProfile区分随机模式的能力,我们探索了它在高斯噪声数据集上的表现,模拟了没有实际生物信号的条件。
- 结果突显了该模型在区分真实生物信号与噪声方面的精确度(补充说明2)。
- 这些结果表明,DeepProfile独特的深度学习集成方法提高了隐变量的生物可解释性。
- 利用稳健识别的隐空间和嵌入以及每个隐变量的基因层面和通路层面解释,我们接下来进行了深入分析,以揭示DeepProfile所展示的生物学。
Universally important genes modulate inflammatory pathways
普遍重要的基因调节炎症途径
错误!!! - 待补充
Fig. 3: DeepProfile cancer-commonality analysis.
- 图片说明
◉ a, DeepProfile在18种癌症类型中得分最高的基因列表。显示了所有癌症中得分最高基因的百分位分数,并突出了这18种癌症中平均百分位分数。◉ 我们通过计算嵌入所有潜在变量中的基因重要性评分的平均值来计算DeepProfile嵌入中基因的平均重要性,将平均重要性评分转换为百分位分数,并在所有18种癌症中对这些百分位分数求平均。◉ 该图是放大后的,以便清晰比较。◉ 所有基因的通用重要性评分可在补充数据集2中获得。◉ b, DeepProfile中前100个普遍重要的基因的富集通路(KEGG、BioCarta、Reactome)和相应的FDR校正P值。◉ 所有通路的富集评分可在补充数据集2中获得。◉ c, 具有通用重要性的前100个基因网络。该网络由StringDB生成,并排除了不相连的潜在变量。◉ 潜在变量的大小由hubness决定,即边的数量。◉ 参与免疫反应相关通路的基因被标记为蓝色。◉ d, DeepProfile和PCA中前100个普遍重要基因的细胞表面和细胞因子受体的富集P值。◉ 来源数据
Para_02
- 接下来,我们假设DeepProfile优先考虑那些表达与肿瘤浸润免疫细胞中的复发性转录表型相关的基因,例如与免疫细胞激活或抑制相关的特征签名。
- 为了说明这个概念,考虑具有最高平均归因度的基因,即白细胞介素10受体的alpha亚基(IL10RA)。
- IL10RA在18种癌症中的14种(78%的癌症类型)中得分位于前1%,并且在所有18种癌症类型中均位于前10%,这表明无论组织背景如何,DeepProfile始终将高解释力归因于该基因(图3a)。
- 遇到炎症刺激后,各种免疫细胞上调IL10RA,该基因介导补偿性抗炎基因表达程序的激活;因此,IL10RA被描述为调节促炎和抗肿瘤炎症之间平衡的‘主开关’34。
- 因此,IL10RA的转录水平不仅反映了IL10RA表达的免疫细胞的存在与否,还预测了由IL10RA调控的数千个基因,这可能解释了该基因在DeepProfile潜在空间中所起的重要作用。
错误!!! - 待补充
Para_04
- 除了IL10RA,DeepProfile的最重要贡献还包括许多不太知名但可能重要的基因,这些基因在大多数癌症类型的潜在空间中持续参与。
- 这些基因包括CD53,一种仅在免疫细胞中特异表达的四次跨膜蛋白;EVI2A和EVI2B,控制粒细胞分化的基因;以及TYROBP,一种适应性蛋白,在与各种受体结合时介导免疫细胞激活(图3a)。
- 如上所述,这些基因中的任何一个似乎都不表明肿瘤微环境中存在特定类型的免疫细胞,因为它们由许多不同类型的细胞广泛表达,而是可能参与调节肿瘤驻留免疫细胞的转录表型。
Universally important pathways include cell cycle, immune system and oxidative phosphorylation
普遍重要的途径包括细胞周期、免疫系统和氧化磷酸化
Para_01
- 接下来,为了研究DeepProfile捕获的通路级别信息,我们研究了嵌入与通过KEGG、BioCarta和Reactome数据库提供的注释通路基因集之间的关系(补充数据集3)。
- 如果一个通路与至少一个DeepProfile潜在变量重叠,并且错误发现率(FDR)校正的P值低于0.05,我们认为该通路在一个给定的癌症类型中显著富集(方法部分)。
- 然后,我们提取了出现在最大数量的癌症类型中的通路,根据功能类别对这些通路进行分组,并按各功能类别在其中被显著检测到的癌症类型的平均数量排序。
Para_02
- 正如预期的那样,与细胞周期相关的基因集几乎是普遍重要的,这证实了增殖指数的差异是癌症转录组变异的主要来源(图4)。
- 这一观察结果与长期的临床经验一致——某些癌症显然具有比其他癌症更高的有丝分裂率——因此细胞周期在几乎每一种形态学或分子特征的癌症中都被发现起作用。
- 四种文献(42,43,44,45,46)中的两种癌症类型对与细胞周期相关的基因集的贡献明显不那么显著:急性骨髓性白血病(AML),其潜空间主要捕获了与适应性免疫反应相关的通路;以及甲状腺癌,对于后者,最重要的通路与线粒体功能有关(补充数据集3)。
- 最常见的两种甲状腺癌(乳头状和滤泡状)是非常缓慢生长的肿瘤,这可能解释了为什么与细胞周期相关的通路相对缺乏贡献。
- 在AML中,增长速度更难以评估47,但可能是由于疾病的侵袭性和缺乏空间限制,大多数患者经历了均匀高的生长速度。
- 在这两种情况下,患者之间增殖分数的变化不足可以解释为什么DeepProfile没有检测到细胞周期作为这些癌症转录组变异的重要贡献者。
Fig. 4: List of top KEGG, BioCarta and Reactome pathways that are universally important.
- 图片说明
◉ 这些通路根据显著捕获该通路的癌症类型数量进行排序。所有通路的所有得分可以在补充数据集3中获得。◉ a, 在18种癌症中有多少种显著捕获(FDR校正后的P < 0.05)每条通路。◉ b, 所有显著捕获该通路的癌症的富集P值的-log10平均值。◉ c, 表示顶级通路和所有癌症类型的富集P值显著性的热图。星号注释对应于富集的显著性(*P < 0.05, **P < 0.01, ***P < 0.001, ****P < 0.0001)。◉ d, 通路的癌症特征评分。癌症特征评分表示每条通路与正常或癌变组织的相关性,其中较高的分数表明该通路对于癌变组织特别重要。根据功能关系手动将通路分组。各通路组的顺序由各通路组的平均癌症特征评分决定。◉ 数据来源
Para_03
- 免疫相关的通路,如上文详细讨论的,是捕获频率第三高的类别(图4),其次是与氧化磷酸化(OXPHOS)相关的基因集,表明个体肿瘤在糖酵解和需氧呼吸之间的代谢连续体上的位置解释了它们在基因表达谱方面的全球差异。
- 与RNA代谢和核糖体功能相关的基因也在大量癌症中凸显出来;这一类别的富集P值特别显著(图4)。
- 与之前的泛癌分析一致11,45,46,49,我们的研究进一步强调了免疫相关和代谢相关通路在各种癌症类型中的重要性,突显了它们在癌症生物学中的关键作用。
- 这些已确立通路的识别最初验证了我们方法的有效性,证实DeepProfile正在捕获癌症中已知至关重要的关键生物过程,并为后续分析部分揭示更深层次的见解铺平了道路。
DeepProfile latent variables capture both cancer and normal tissue-specific expression signatures
DeepProfile的潜在变量捕获了癌症和正常组织特异性表达特征
错误!!! - 待补充
Cancer-type-specific genes and pathways define molecular disease subtypes
癌症特异性基因和通路定义分子疾病亚型
Para_01
- 在研究了DeepProfile认为普遍相关的基因和通路之后,我们旨在识别仅捕获特定癌症类型变异的基因。
- 我们计算了一个基因每种癌症类型的特异性评分,定义为该癌症类型中基因百分位得分与所有其他癌症类型中最高基因百分位得分之间的差(补充数据集6)。
- 高特异性评分表明,一个基因在一个癌症类型中捕获了大量的变异,但在其他癌症类型中的作用更为次要(方法)。
- 我们发现,具有高特异性评分的基因通常定义了组织类别内的主导‘亚型’或‘分化等级’(图5a)。
- 例如,排名靠前的乳腺癌特异性转录物包括泌乳诱导蛋白(PIP),这是一种主要在雌激素受体阳性且分化良好的肿瘤中表达的基因;FOXC1,一种在基底样乳腺癌中表达的基因;以及GFRA1,这种基因特异性地存在于腔内A亚型中(图5a)。
Fig. 5: DeepProfile cancer-specificity analysis.
- 图片说明
◉ a, 展示了4种癌症类型的特异性基因图谱。每种癌症类型分别展示了前20个差异得分最高的基因中,该特定癌症类型与其余17种癌症类型中最高百分位分数之间的差异。彩色点显示了一个基因在特定癌症类型中的百分位分数,灰色点显示了该基因在所有其他癌症类型中所具有的最高百分位分数。基因根据差异值排序。所有癌症类型的基因百分位分数可在补充数据集3中获得。◉ b, 展示了4种癌症类型的特异性通路及其癌症特征评分。通路根据特定癌症类型与其余17种癌症类型中−log10(P值)的差异进行排序。每个点对代表一个通路对应于特定癌症类型的−log10(P值)以及该通路在所有其他癌症类型中所具有的最高−log10(P值)。癌症特征评分向量显示了捕获所示通路的潜在变量的癌症特征百分位分数。较高的癌症特征评分表明给定的潜在变量(因此是通路)在癌性组织中特别重要。所有癌症类型的通路富集评分可在补充数据集3中获得。◉ 源数据
错误!!! - 待补充
Para_03
- 同样地,AML特异性基因包含了先前与AML亚型相关(如HOXA7、TRH、MYL4、ANK1)的转录物55,56(图5a),并且显示出与识别AML亚型的基因显著重叠(P=4.2×10^-5)57,而PCA再次未能做到这一点(P=1.0)。
- 在大脑中,DeepProfile识别了区分少突胶质瘤和星形细胞瘤的基因(如CNP58)或在胶质母细胞瘤亚型之间变化的基因(如BCAN59)。
- 甲状腺癌特异性基因中最突出的包括甲状腺过氧化物酶(TPO)和促甲状腺激素受体(TSHR),这两种转录物在正常甲状腺生理中具有关键功能。
- 这些基因可能表明存在分化良好的甲状腺癌,这类癌症在某种程度上保留了其正常组织来源的表达谱,而高度未分化的癌症则更大程度上失去了组织特异性转录物的表达。
- 为了支持这一假设,我们将DeepProfile甲状腺癌特异性基因与与甲状腺癌亚型相关的基因进行了比较60。
- 我们观察到这两组基因显著重叠(P=4.4×10^-10),而PCA发现的甲状腺癌特异性基因的同一分析则没有显著性(P=1.0)。
- 这些案例研究证明了DeepProfile如何成功检测出区分癌症亚型的基因,而线性模型无法捕捉到这些模式。
- 每种人类癌症的癌症特异性基因见补充数据集6。
Para_04
- 接下来,我们提取了DeepProfile识别为癌症特异性的精选通路基因集(方法和补充数据集7)。
- 这种方法可能比基因层面的观点更具信息量,它可以超越对亚型‘标记基因’进行分类,揭示在来自不同组织起源的癌症中占主导地位的连贯通路。
- 因此,这种分析提供了关于驱动癌症类型内表达异质性的分子机制的具体信息。
- 事实上,DeepProfile为每种癌症类型分配了高度特征性的分子过程。
Para_05
- 顶级AML特异性通路与卟啉代谢和血红素生物合成有关(图5b)。
- 已经知道白血病细胞显示出增加的血红素生物合成超过半个世纪61,但对于卟啉生产途径在白血病发生中的机制相关性知之甚少。
- 重要的是,最近的证据表明MYC过表达的白血病前体细胞需要卟啉生物合成来实现自我更新62,这证明了该通路在驱动或促进某些癌症的白血病发生中起作用。
- 值得注意的是,DeepProfile将此途径识别为与AML相关,因为我们不知道以前有任何无监督分析突出显示卟啉生产。
- 正如我们在对普遍重要的基因和通路的分析中所做的那样,在癌症中,我们还计算了‘癌症相关性’评分(通过比较来自GTEx的匹配正常组织嵌入),以确定一个通路的重要性在多大程度上特定于恶性肿瘤。
- 与恶性肿瘤相关的最高评分的AML特异性通路是MHC II类抗原呈递途径,由HLA-DMA、HLA-DRB1、HLA-DMB、HLA-DPA1和HLA-DPB1基因表示。
- AML中下调的HLA-DPA1、HLA-DPB和HLA-DRB1在异基因骨髓移植后复发期间最近被报道,并被解释为移植物对白血病细胞施加压力的证据63。
- 然而,DeepProfile识别出MHC II类抗原呈递途径的显著性表明,MHC II类蛋白表达的异质性可能是区分AML亚型的更一般的疾病特征,据我们所知,这一概念迄今为止尚未在文献中描述。
Para_06
- 在脑癌(图5b)中,脂质运输被评为最重要的途径,具有较高的癌症相关性得分。
- 胆固醇是髓磷脂的重要组成部分,大脑中含有身体总胆固醇的大约20%。
- 星形胶质细胞通常产生大部分大脑中的胆固醇,因为胆固醇无法通过血脑屏障运输。
- 在胶质母细胞瘤中,大脑正常的脂质代谢发生了改变:胶质母细胞瘤细胞限制了胆固醇的生物合成,并依赖于外源性胆固醇的摄取以维持生存。
- 这使得DeepProfile选择这一途径成为一个显著的结果。
- Sprouty(SPRY)通路获得了最高的癌症相关性得分,主要由SPRY1和SPRY4驱动。
- 这两个基因负向调节FGFR信号通路,该通路对胶质母细胞瘤的进展至关重要,并且目前正被临床试验所针对。
- 这些以及其他例子,例如识别过氧化物酶体在肝癌中的重要作用(图5b和补充数据集7),说明了DeepProfile从大量无结构数据存储库中提取特定于癌症和生物学上有意义的表达模式的能力。
- 虽然从基础科学的角度理解表达亚型及其定义的途径是有价值的,但确定与临床变量相关的途径可能从转化角度来看更为重要。
- 因此,我们着手开发一种严格的方法来连接DeepProfile嵌入与相关的患者和肿瘤水平特征。
Detecting survival- and mutation burden-associated pathways via DeepProfile
通过DeepProfile检测与生存负担和突变负担相关的通路
Para_01
- 一个通路对DeepProfile潜在变量的贡献反映了它在主要基因表达数据中捕获变异的程度,但并不能揭示该通路是否与临床相关的变量有关。
- 我们开发了一种通用方法,通过DeepProfile潜在变量将通路与临床特征连接起来(扩展数据图6和方法部分)。
- 我们通过提取与两个重要患者层面和肿瘤层面特征相关联的通路来测试这种方法:生存率和肿瘤突变负荷(TMB)。
- 具体来说,我们将每个DeepProfile潜在变量与生存率或TMB关联,并生成P值表示每个潜在变量与表型之间的关联显著性。
- 然后,利用DeepProfile潜在变量的通路级归因,我们将潜在变量级表型关联映射到通路级关联,从而获得每个通路的生存率和TMB关联P值(扩展数据图6、方法部分和补充数据集8-10)。
- 同样的方法可以很容易地适应其他感兴趣的变量,例如肿瘤分期、肿瘤分级或治疗反应。
- 使用DeepProfile潜在变量(而不是基因或通路本身)有两个优势。
- 首先,正如我们所展示的,DeepProfile嵌入编码了癌症样本之间稳健的变异来源;因此,关联搜索空间被减少到可能更具有生物学意义的变量。
- 这些潜在变量从数据中提炼出全面且复杂的生物信息,而不依赖于预定义的特征,使得探索与任何生物学和临床特征的关系成为可能。
- 借助这些潜在变量,DeepProfile允许研究人员发现那些在基因表达数据的高维空间中可能被掩盖的模式和关联。
- 其次,由于每个DeepProfile潜在变量是基因的非线性组合,它具有独特的能力来捕捉基因与感兴趣表型之间的复杂相互作用。
- 这种非线性映射允许整合多方面的生物信息,超越简单的加法效应,以建模基因调控和细胞功能中固有的复杂且通常是非线性的关系。
- 尽管这些来自深度神经网络的潜在变量可以提供更细致的观点,但这些模型的内在复杂性常常使解释变得困难。
- 然而,通过利用XAI方法,我们可以澄清这些模型,提供可解释的见解,为发现癌症生物学的新见解铺平道路。
Para_02
- 为了测试这种方法的有效性,我们首先调查了DeepProfile识别出的经过整理的通路基因集,这些基因集被认为与最重要的患者层面特征——生存显著相关。
- 正如我们之前的分析一样,我们最初关注的是与所有癌症类型相关的生存途径(图6a、补充数据集11和方法部分)。
- 值得注意的是,在这项泛癌分析中,大多数与生存相关的途径的核心主题是适应性免疫(图6a)。
- 高分基因集包括适应性免疫系统、MHC I类抗原呈递、抗原处理交叉呈递、B细胞受体信号传导、蛋白酶体途径以及NF-κB激活(在五种癌症类型中均被显著检测到)。
- 有三条途径因其在超过五种癌症类型中的得分而脱颖而出。
- 这些途径包括DNA错配修复(六种癌症),这一过程在受损时可能导致大量新抗原的产生,以及MHC II类抗原呈递,这是总体上得分最高的途径(在七种癌症类型中被显著检测到)。
- 这两种途径将在下文中进行更详细的探讨。
Fig. 6: DeepProfile survival and mutation analysis.
- 图片说明
◉ 网络中的顶级生存相关(a)和TMB相关(b)途径。对于每个途径组,我们展示了该途径显著富集且与生存/TMB显著相关的癌症数量(P < 0.05)。我们进一步展示了跨越所有检测到该途径与生存/突变相关的癌症的平均–log10(P值)富集度和–log10(P值)生存/TMB关联度。◉ 途径之间的连接是基于基因成员Jaccard相似性确定的。◉ c, 大脑癌(左)和肉瘤(右)的顶级生存和突变相关途径图。◉ 顶部:展示的癌症中生存评分最高的前10条途径以及生存和富集的–log10(P值)。◉ 底部:展示的癌症中突变评分最高的前10条途径。◉ 所有途径和癌症类型的评分可在补充数据集9中获得。原始数据
Para_03
- 为了对比和比较这些结果,我们接下来研究了与肿瘤水平特征TMB显著相关的通路(图6b、补充数据集11和方法部分)。
- 与生存率不同,与TMB相关的通路最一致地与细胞周期相关(图6b),其中包括DNA复制、有丝分裂M-M/G1期、有丝分裂前中期、染色体维持等。
- 得分最高的TMB相关通路是有丝分裂G2-G2/M期,这在18种癌症中的11种中被显著检测到。
- 这些结果建立了肿瘤增殖活性与其突变负荷之间的联系,与DNA复制作为强大的诱变剂相一致。
- 鉴于人们对TMB作为免疫治疗反应预测指标的浓厚兴趣,这种联系具有有趣的含义。
Para_04
- 与之前的分析类似,我们还研究了每种癌症类型中生存率和TMB分数最高的通路。
- 再次发现,DeepProfile识别出了不同的通路集,这些通路对两种特征都是相关的。
- 例如,在脑癌中,与生存率相关的通路主要由I型和II型干扰素信号传导以及MHC I类介导的免疫组成,
- 而与TMB相关的通路则明显涉及细胞-细胞和细胞-基质相互作用(图6c)。
- 在肉瘤中,与生存率相关的通路几乎完全关注DNA修复过程(错配修复、核苷酸切除修复)和复制叉功能,
- 而与TMB相关的基因集则与葡萄糖代谢密切相关(图6c)。
- 所有18种癌症中与生存率和TMB相关的特定癌症通路关联可以在补充数据集8中找到。
DNA-mismatch repair and antigen presentation via MHC class II are common survival-related pathways
DNA错配修复和通过MHCII类分子的抗原呈递是常见的与生存相关的通路
Para_01
- 我们随后详细探讨了生存与DNA错配修复和MHC II类抗原呈递之间的意外泛癌关联。
- DeepProfile检测到路径和生存之间稳健的相关性;然而,它并没有揭示这些关联的方向。
- 因此,为了定义这种方向,我们在正在研究的路径中的基因上拟合了单变量Cox回归模型。
- 这为每对基因和癌症类型返回了一个生存z分数(方法和补充数据集10;负z分数意味着较低的表达量会导致更好的生存机会,而正z分数意味着较高的表达量会导致更好的生存机会)。
Para_02
- 检查所有癌症中DNA错配修复基因的z分数,我们确认了其与生存率之间存在强烈的相关性(图7a),验证了DeepProfile在主要基因表达水平上的发现。
- 关联的方向往往为负(表明DNA错配修复蛋白的低表达与改善的生存率相关),特别是在基于DeepProfile分析的六种癌症中,这些癌症具有统计学上显著的评分(图6a)。
- 我们进一步通过Kaplan-Meier分析确认了这一发现,该分析得到了一致的结果(图7b、扩展数据图7和方法部分)。
- 鉴于DeepProfile确定适应性免疫反应是与生存相关的中心通路节点,DNA错配修复基因表达在许多癌症中的预后相关性尤为值得注意。
- 抗肿瘤免疫反应被认为很大程度上依赖于新抗原的存在,而新抗原的丰度在DNA错配修复缺陷的癌症中增加。
- 同样,错配修复蛋白的减少表达可以增加突变性和微卫星不稳定性。
- 因此,在错配修复蛋白较少的肿瘤中,新抗原水平较高可能会使这些肿瘤更容易被免疫系统识别,从而有助于低DNA错配修复蛋白表达患者的生存率提高(图7c)。
Fig. 7: Mismatch-repair-pathway survival analysis.
- 图片说明
◉ a, 包含在KEGG错配修复途径中的所有基因的生存z分数热图(z分数的大小>1,z分数的大小>2,z分数的大小>3,***z分数的大小>4)。通过DeepProfile检测到的六种癌症类型用红色突出显示。◉ b, 错配修复途径平均表达量的Kaplan–Meier图。高于平均值+1个标准差的样本标记为高表达,低于−(平均值+1个标准差)的样本标记为低表达。阴影区域代表置信区间。每种癌症报告了log rank检验P值和被审查样本的百分比。展示了log rank检验P值低于0.05的五种癌症类型。◉ c, 错配修复机制示意图。数据来源
Para_03
- 接下来,我们更深入地研究了MHC II类抗原呈递途径。
- 我们重点关注HLA-D基因,因为它们在整个MHC II类抗原呈递途径中的所有18种癌症类型中具有顶级的归因评分和生存z分数。
- (MHC II类抗原呈递途径中全部91个基因的z分数见补充数据集12)。
- 与显示大多数癌症类型中表达和生存率之间呈负相关的DNA错配修复z分数不同,HLA-D表达的关联是分叉的(图8a)。
- 胰腺、肾脏、AML和脑癌在HLA-D基因表达和生存变化之间存在强烈的负相关,而大多数其他癌症(尤其是黑色素瘤和子宫癌)之间的相关性是正向的。
- 再次通过Kaplan-Meier分析确认了这些发现(图8b和扩展数据图8)。
- 这些结果表明,在某些癌症类型(如黑色素瘤、子宫癌、乳腺癌)中,肿瘤和/或其环境中的HLA-D基因表达是有益的,而在其他一些癌症类型(如脑癌、肾癌)中则是有害的。
Fig. 8: MHC-class-II-pathway survival analysis.
- 图片说明
◉ a, 包含在Reactome MHC II类抗原呈递通路中的所有HLA-D基因的生存z分数热图。通过DeepProfile检测到的七种癌症类型用红色突出显示。◉ b, 表达水平低于平均值+1个标准差的样本被标记为高表达,低于-(平均值+1个标准差)的样本被标记为低表达。Kaplan–Meier曲线展示了log rank检验P值低于0.05的癌症类型的HLA-D基因的平均表达情况。阴影区域代表置信区间。每个癌症类型的log rank检验P值和被审查样本的百分比都被报告。◉ c, 展示了18种癌症中树突状细胞、B细胞和巨噬细胞的平均百分位得分比较。◉ d, 展示了18种癌症中HLA-D基因表达与三种细胞类型的细胞类型特征之间的平均皮尔逊相关系数比较。◉ e, 展示了18种癌症中促炎和抗炎巨噬细胞的平均百分位得分比较(补充图8)。源数据
Para_04
- 由于大多数癌症不表达MHC II类基因(急性髓系白血病除外,其中HLA-D的表达与炎症表型和治疗复发相关),我们想知道肿瘤微环境中哪种细胞类型可能是HLA-D转录物的主要来源,并由此关联到不同的生存率。
- 表达MHC II类基因的肿瘤驻留免疫细胞类型包括巨噬细胞、树突状细胞和B细胞。
- 为了评估这些细胞在肿瘤微环境中的相对丰度,我们测量了每种细胞类型的特征基因的平均百分位分数,其中最高表达的基因得分为100(方法)。
- 我们发现,在所研究的所有癌症中,三种细胞类型中,巨噬细胞特异性基因的丰度远高于其他两种,这与巨噬细胞在许多癌症类型中可能高度丰富的事实一致。
- 此外,我们发现在所有癌症中,巨噬细胞特征与HLA-D表达的相关性最好,进一步支持了巨噬细胞是大量肿瘤样本中HLA-D转录物的主要贡献者的观点。
- 考虑到巨噬细胞的功能从促肿瘤作用到抗肿瘤作用各不相同,我们想知道与HLA-D表达相关的肿瘤相关巨噬细胞的表型是否可以解释HLA-D表达与生存率之间观察到的分歧。
- 为此,我们检查了可能反映巨噬细胞功能的基因转录物。
- 具体来说,我们评估了与抗肿瘤活性相关的CD40、CXCL9、CXCL10、CXCL11、SLAMF1和TNIP3的表达,以及通常指示免疫抑制和肿瘤促进的CFP、HRH1、NPL、PDCD1LG2和CFP的表达。
- 虽然这些基因不一定只由巨噬细胞表达,但巨噬细胞的丰度使它们成为这些转录物的主要来源。
- 检查上述基因转录物的相对流行程度显示,大多数肿瘤类型在相似水平上表达了这两种特征。
- 唯一显著偏向免疫抑制转录物的大差距出现在脑癌和AML中,这两种癌症类型中HLA-D表达与生存率之间的负相关性最为显著。
- 我们用一个扩展的促炎和抗炎巨噬细胞特征列表重复了同样的测试,并再次观察到脑癌中免疫抑制巨噬细胞的丰度显著更高。
- 因此,极化为免疫抑制表型的巨噬细胞的存在可能会导致脑癌和AML中HLA-D表达与生存率之间的负相关。
- 在大多数其他癌症类型中,HLA-D表达与改善的预后相关,这与巨噬细胞对患者生存的净积极影响一致。
Discussion
Para_01
- DeepProfile 代表了一种将无监督学习应用于基因表达数据分析的范式。
- 该领域常见的无监督机器学习技术可分为三类:聚类、网络推断和表示学习。
- 统计模式如何转化为具体的生物学见解是重要的。
- DeepProfile 与现有的无监督学习范式有着重大区别。
- 虽然聚类和网络推断算法所学得的模式具有自然的生物学解释,基因簇对应于表达模块,网络边对应于潜在的调控相互作用,
- 但表示学习在很大程度上缺乏此类转换的方法。
- 通过检查所学权重的大小,可以解释线性方法如PCA、ICA或‘浅层’自动编码器;
- 然而,深度神经网络(DNN)的‘黑箱’性质使得理解基因或生物过程如何与每个所学潜在变量相关以及基因表达水平如何与表型相关变得困难。
- DeepProfile 提供了一种基于严格机器学习原则的语言,用于从深层表示中‘读取’具有生物学意义的信息,
- 这使得发现现有无监督分析范式无法捕捉到的信息成为可能。
- 尽管DNN主要在存在监督标签的任务中取得了成功,17,76,77,78
- DeepProfile 为基于DNN的方法应用于无监督、全面、探索性的累积已发表基因表达数据分析打开了大门。
Para_02
- DeepProfile 引入了一系列严格的分析方法来‘审问’深度神经网络(DNNs),以生成生物学假设。
- 首先,我们的一项关键创新在于每个潜在变量的生物学注释方式。
- 我们采用了公理特征归因方法,集成梯度(Integrated Gradients)29,这是一种估算每个输入基因变量对每个潜在变量贡献的系统化方法。
- 这使得能够计算每个潜在变量的基因重要性得分,这些得分可以进一步通过顶级基因的通路基因集富集分析来进行。
- 对这些潜在变量进行生物表征很重要,例如,在癌症研究中,为了理解临床结果、治疗反应的个体差异以及癌症进展背后的协调转录程序。
- 在整个模型的所有潜在变量上计算的整体基因重要性得分,导致了那些表达变异可以解释大量基因表达变异的顶级基因。
- 这些基因可以被解读为主调节因子,类似于在传统基因网络学习方法中被认为是重要的‘枢纽’。
- 此外,DeepProfile 引入了各种可推广的方法来基于潜在变量检查样本水平表型(如临床结果和肿瘤突变负荷)的生物学表征、具有不同标签的样本之间的差异(即,癌组织与正常组织)以及不同模型之间的差异(即,不同类型的癌症)。
- 我们展示了通过使用下面详细说明的这些方法,DeepProfile 在泛癌分析中的能力,可以揭示出生物学洞见。
Para_03
- DeepProfile 还介绍了一种方法,可以将来自许多变分自动编码器模型的潜在变量进行集成,这些模型使用了不同数量的潜在维度和随机初始化进行了训练。
- 使用综合梯度29允许我们深层模型的潜在变量(扩展数据图1)直接集成,从而增加了模型的稳定性和一致性,同时保持可解释性。
- 我们的实验结果表明,DeepProfile 集成的潜在变量编码了关于癌症转录组的一般和可转移的信息(图2和扩展数据图3)。
- 我们也证明了,与使用特定维度训练的单个变分自动编码器相比,DeepProfile 的集成方法能够学习到更好的嵌入(补充图2),这与结论一致,即具有不同潜在维度的模型可能会学到不同的信息20。
- DeepProfile 在各种任务上表现出的性能提升表明,对无监督基因表达分析的集成方法进行进一步研究可能是有价值的。
- 此外,虽然 DeepProfile 能够比其他无监督方法提取更多的潜在生物信号(图2),但基因表达数据的高度维度和高度相关性意味着可能还有更多的生物信号无法被发现。
- 特征归因方法往往会将信用分散给相关的特征,这可能会‘冲淡’来自大型相关群体的信号79。
- 未来的工作将有必要将用于从观测数据中分离因果效应的方法扩展到高维癌症表达数据层面,无论是针对模型还是特征归因79,80。
Para_04
- DeepProfile应用于泛癌基因表达综合分析时揭示了几种有趣的生物学模式。
- 这些分析得益于DeepProfile将学习到的模型与独立的生物学数据库相结合,包括正常组织表达数据、患者水平表型数据和蛋白质-蛋白质相互作用数据库。
- 首先,我们观察到DeepProfile将非常特定类别的免疫相关基因标记为普遍重要。
- 我们的分析表明,这些基因不仅仅是反映了肿瘤微环境中不同免疫细胞类型的混合。
- 相反,它们富集了能够传导外部信号的细胞表面受体,从而影响各种免疫细胞中的下游基因表达。
- 为什么这些基因能如此高效地捕获变异?
- 最简单的解释是它们代表了常见免疫细胞的反复出现的转录表型。
- 根据免疫细胞混合的程度,以及因此免疫细胞对整体表达谱的贡献程度,这可能足以使这些基因占据如此突出的位置。
- 然而,一个更有力的解释是恶性细胞和浸润性免疫细胞的转录状态在某种程度上是相关的。
- 例如,高表达上皮间质转化指示基因的癌症表现出一种独特的、被抑制的免疫景观。
- 单细胞测序研究表明,免疫细胞和癌细胞的转录谱可以共变,并暗示存在反复出现的‘枢纽’交互细胞。
- 那些特征为这些枢纽的基因预计将捕获特别高的变异水平,因为它们可以预测免疫和肿瘤细胞的转录组。
- 从治疗角度来看,识别这些基因可能特别有趣。
- 在未来,仔细研究不同癌症中的单细胞基因表达数据中的顶级通用DeepProfile基因无疑将更加明确这一问题。
Para_05
- 在我们的癌症特异性分析中,DeepProfile 在无需监督的情况下出色地从数据中提取了疾病亚型特异性特征。
- 我们认为这令人印象深刻,因为输入的数据集没有经过精心整理和标准化,例如最初发现这些特征时所使用的数据集,而是由数百个不同的研究小组存放在公共数据库中的非结构化且变化多端的数据。
- 在这种情况下,DeepProfile 的出色表现表明它能够在其他方法(如PCA)无法充分发挥作用的具有挑战性的情境下稳健地识别相关的生物信号。
- 对癌症特异性 DeepProfile 通路的分析确定了疾病特异性过程,例如AML中的卟啉代谢或脑癌中的脂质运输。
- 通过进一步根据其对恶性肿瘤的特异性注释这些通路,并突出那些在正常组织基因表达中起到相对较小作用的过程(通过GTEx谱系嵌入)。
- DeepProfile 已经生成了一份主要候选通路列表,可以探索这些通路以寻找治疗干预的机会。
Para_06
- 我们分析中最有趣的一个方面是建立了DeepProfile嵌入与患者生存特征之间量化的严格联系。
- 结果出乎意料且令人惊讶。
- DNA错配修复转录物表达低与这种大型队列中的多种癌症类型的生存改善显著相关,而其中大多数预计具有错配修复能力。
- 这些结果表明,DNA错配修复的能力可能存在于一个转录驱动的光谱上,并且肿瘤在这个连续体上的确切位置可能具有治疗意义。
- 所有组织中的微卫星不稳定肿瘤对免疫检查点疗法反应良好,因此普遍批准使用派姆单抗治疗。
- 我们的结果提出了一个问题:是否低DNA错配修复基因表达的癌症也可能从免疫检查点抑制中受益。
Para_07
- 最后,基于DeepProfile潜在空间的分析表明,在1,077个测试的功能基因组集中,适应性免疫途径,特别是与MHC II类抗原呈递相关的那些途径,在生存方面最为一致,后者甚至超过了DNA错配修复。
- 这一令人惊讶的结果高度特异于患者生存,这通过TMB的比较分析得到了证明,在该分析中,适应性免疫系统没有发挥重要作用。
- 专注于从MHC II类抗原呈递基因组集中得分最高的基因,我们发现HLA-D转录物主要负责强烈的预后关联。
- 鉴于只有有限数量的免疫细胞表达HLA-D基因,我们能够提名巨噬细胞为肿瘤微环境中这些与生存相关的转录物的主要来源。
- 然而,HLA-D表达的效果在不同类型的肿瘤中是二分的。
- 如果HLA-D表达水平较高,脑癌和AML患者的预后较差,而黑色素瘤和子宫癌患者则受益。
- 我们推测肿瘤驻留巨噬细胞的转录表型(促炎或抗炎)决定了这些细胞的存在是否总体上具有净有益或有害的影响。
- 我们发现,在胶质母细胞瘤中,抗炎巨噬细胞特征转录物的表达占主导地位,这些巨噬细胞被认为驱动肿瘤进展84,这可能解释了HLA-D表达与预后之间存在的负相关。
- 在其他肿瘤类型中,包括黑色素瘤和子宫癌,促炎和抗炎巨噬细胞转录物更为平衡。
- 在这种情况下,整个巨噬细胞群体的净效应似乎是积极的。
- 重要的是,这些结果与最近的一项荟萃分析一致,该分析表明,抗炎巨噬细胞标记物的表达与多种癌症类型的不良预后相关,而促炎标记物的表达与改善的生存率相关84。
- 同样,一旦单细胞数据集的规模足够大,可以进行稳健的生存分析,或者在更大规模的患者队列中进行更广泛的巨噬细胞极化免疫组织化学研究,跟进这些观察结果将非常重要。
Para_08
- 总的来说,我们设计并实现了一个深度学习框架,用于从大规模癌症基因表达数据中提取稳健的生物信号。
- DeepProfile 被设计为癌症研究社区的一个资源。
- 利用我们的框架,研究人员可以创建新的表达数据的稳健且可解释的嵌入(扩展数据图 2),从而提高下游任务的表现,并增加对其样本中相关转录程序的理解。
- 微阵列数据和批量RNA测序数据之间表现出的兼容性(扩展数据图 3)表明,所学模型也可以用于批量RNA测序数据。
- 除了这种计算上的进步,DeepProfile 还提供了从现有综合数据集中挖掘出的数百个生物学见解,这些见解可以帮助研究人员推进我们对不同人类恶性肿瘤的理解。
Methods
Data processing
数据处理
Para_01
- 我们下载了通过两种微阵列平台生成的公开可用的基因表达数据集:Affymetrix GeneChip 人类基因组 U133 Plus 2.0(Affy HG-U133 Plus 2.0)和 Affymetrix GeneChip 人类基因组 U133A 2.0(Affy HG-U133A 2.0)。
- 这些数据集来自国家生物技术信息中心(NCBI)基因表达综合数据库(GEO)25,涵盖18种癌症类型,我们使用了‘GEOparse’Python库()来下载数据集。
- 每种癌症类型的GEO搜索关键词、下载系列以及样本数量和基因数量的列表可在补充数据集1中找到。
Para_02
- 虽然GEO搜索根据提供的关键词过滤结果,但返回的结果可能仍然包括来自健康组织或患有查询癌症类型以外的癌症类型的基因表达样本。
- 为了消除这些不相关的样本,我们移除了在其"标题"、"特征"或"描述"中不包含搜索关键词的样本。
- 为了进一步清理数据而不无故排除相关样本,我们手动进行了筛选。
- 通过这些步骤,我们旨在将错误包含和错误排除的样本数量降到最低。
- 我们还排除了细胞系表达样本,仅使用患者样本,因为相同细胞系在不同数据集中低表达方差可能会阻碍深度神经网络学习到可靠的模型。
- 尽管我们进行了自动化和人工筛选以排除细胞系、其他癌症类型和健康组织的样本,但仍有可能我们的GEO数据集中包含一些异常样本。
Para_03
- 为了整合来自不同平台的数据,我们使用GEO中提供的每个平台特有的探针ID到基因符号转换列表,将平台特有的探针ID转换为基因符号。
- 对于每种癌症,我们选取了所有可用数据系列中存在的基因。
- 一项研究可能包含提交日期不同的不同样本批次,这些日期记录在‘submission_date’字段中。
- 我们使用Python ComBat85库的‘ComBat’函数(参数为默认设置,.py)在每个研究内部对这些潜在的批次效应进行了校正,其中不同的批次对应于在不同日期提交的数据子集。
- 我们将表达测量值进行对数变换,标准化每个数据集中每个基因(即零均值和单位方差),以确保不同的输入特征(即基因表达水平)处于相同尺度,并应用平均值填补法填补缺失的基因级测量值。
- 此外,我们排除了具有相同GEO ID的重复样本。
- 我们将所有数据集连接起来,并再次使用ComBat进行批次效应校正,采用相同的参数设置,将每个研究视为一个单独的批次,以尽量减少潜在的研究特异性干扰因子的影响。
Training variational autoencoder models
训练变分自编码器模型
错误!!! - 待补充 错误!!! - 待补充
Para_03
- 我们定义编码网络为 (f_{\varnothing },:X\longrightarrow {\rm{\mu }}{x"},{\sigma }{x"}),它将输入空间 (X\in {\mathbb{R"}}^{M"}) 映射到潜在空间分布均值 ({\rm{\mu }}{x"}\in {\mathbb{R"}}^{D"}) 和分布方差 ({\rm{\sigma }}{x"}\in {\mathbb{R"}}^{D"})。
- 然后我们从该分布中采样来定义低维嵌入 (Z \in {\mathbb{R"}}^{D"}):
Para_04
- 解码器的定义与标准自动编码器中的定义相同。
- 为了正则化潜在空间上的分布,变分自编码器向模型的损失函数中添加了一个正则化项,即学习到的分布与正态分布之间的Kullback-Leibler散度。
- 网络被训练以优化如下:
Para_05
- 其中 ({\mathrm{KL"}}[({{\upmu"}}{x"},{\sigma"}{x"}),N(0, 1)]) 表示分布之间的 Kullback-Leibler 散度。
- 这一正则化组件迫使编码器和解码器网络学习一个具有泛化能力和平滑性的潜在空间,使得相似样本在该空间中彼此接近。
Para_06
- 在为癌症类型训练不同的VAE模型之前,我们提取了表达矩阵的主成分。
- 我们使用这些成分作为输入来训练VAEs,这是一种常用的防止过拟合的方法,用于训练深度神经网络。
- 我们根据样本数量以及它们解释数据中显著部分方差的能力来选择主成分的数量(补充数据集1列出了每种癌症类型的成分数量)。
- 具体来说,对于样本数超过1000的癌症类型,我们选择了1000个成分;对于样本数在500到1000之间的,选择了500个成分;对于样本数少于500的,则选择了250个成分。
- 我们的标准确保所选成分几乎涵盖了所有癌症类型中约80%的方差,并且大多数癌症类型中涵盖了90%的方差(补充表2)。
Para_07
- 我们使用癌症特异性基因表达矩阵的主成分作为输入训练了VAE模型;编码器和解码器网络都包括3个全连接层,并且这两个网络在结构上互相对称。
- 小批量大小设置为50,我们使用Adam优化器90以0.0005的学习率训练了模型。
- 我们使用‘Glorot_uniform’权重初始化方法用不同的随机权重初始化每个VAE模型。
- 我们使用Python中的‘Keras’库和‘Tensorflow’后端构建了整个模型()。
Para_08
- 在确定我们的VAE模型的潜在空间大小时,我们特意选择了一组尺寸:5、10、25、50、75和100。
- 这种有目的的选择是为了让我们的模型有一个广泛的范围来捕捉数据中的全面信息。
- 我们设定这些尺寸是为了提供一种结构化的方法来涵盖我们正在分析的数据模式的多样性和复杂性。
- 所有层使用修正线性单元激活函数,除了两个网络的最后一层,在这些层上我们应用了线性激活和批量归一化。
- 此外,我们通过5折交叉验证微调了VAE模型的超参数,包括每层的丢弃率和神经元数量,并通过验证重构误差指标衡量微调效果。
- 我们的丢弃率选项包括0、0.2、0.4和0.6。
- 关于中间层的潜在变量数量,我们考虑了配置如(50,5)、(100,25)、(250,50)、(250,100)和(300,150)。
Para_09
- 最初,我们通过平均所有具有不同中间层配置模型的验证重构误差来校准dropout比率,特别强调了乳腺癌(样本量最大)、肉瘤(样本量代表平均水平)和膀胱癌(样本量最小)的发现,如补充图4a-c所示。
- 设置dropout比率为0的模型显示出最低的平均重构误差。
- 将dropout比率固定为零后,我们优化了中间层中的潜在变量数量。
- 结果显示在补充图4d-f中,表明增加神经元数量的模型表现出更好的性能。
- 然而,为了确保模型训练效率和特征重要性评估精度之间的平衡,对于潜在空间大小为25、50、75和100的第一和第二层,我们选择了250和100个潜在变量。
- 对于潜在空间大小为10的情况,数量为250和50个潜在变量;对于大小为5的情况,选择的数量是100和25个潜在变量。
- 我们在补充图5中展示了不同潜在维度下的训练和验证损失情况。
- DeepProfile的VAE模型的GPU内存使用情况在补充表3中有详细说明。
- 在18种不同的癌症中记录的最大GPU内存使用量为475 MB,这展示了DeepProfile框架在处理大规模基因组数据方面的效率。
Learning DeepProfile latent variables
学习DeepProfile潜在变量
错误!!! - 待补充
Para_02
- 在所有 |D||R| 模型中,我们共有 |D||R| 嵌入和 (\sum \nolimits_d\in D"},{d"}{R|) 个潜在变量(对于我们的设定,共有 600 个嵌入和 26,500 个潜在变量)。
- 为了将相似的数据编码分组,我们应用了 k-means 聚类来对来自所有模型的所有潜在变量进行聚类。
- 我们使用了 Python 的 'sklearn' 库中的 'KMeans' 模型,采用 k-means++ 初始化方法,并且使用了 10 个不同的起始点91。
- k-means 将 (\sum\nolimits_d\in D"},{d"}{R|) 个潜在变量分配到 L 个簇之一,其中 L 是 DeepProfile 潜在变量的数量。
- 请注意,我们忽略了哪个潜在变量来自哪个模型的信息:我们只是将它们视为独立同分布(i.i.d.)的潜在变量,然后应用聚类。
- 因此,相同的 VAE 模型的不同潜在变量可能属于不同的簇,也可能属于同一个簇。
- 此外,一个簇可能包含具有相同潜在空间大小的不同模型的潜在变量(也就是说,不同的运行),或者它也可以包含具有不同潜在空间大小的模型的潜在变量。
- 在 k-means 对跨运行和维度的相似潜在变量进行了分组之后,我们通过计算该簇中所有潜在变量的平均值得到了一个最终嵌入,(Z\in {{\mathbb{R"}}}^{L"}) (扩展数据图 1 和 2a)。
Para_03
- 为了选择DeepProfile的潜在嵌入大小,我们应用了‘G-means聚类’,这是k-means聚类的一个扩展,用于确定最优的聚类数量k(参见文献92)。
- 我们使用了Python的‘g-means’包,并通过严格性标准3、最大深度10和最小观察次数1进行训练()。
- 对于每种癌症类型,我们在训练k-means模型之前拟合了G-means聚类以选择最优的k值。
- 我们将18种癌症的最优聚类数量平均,最终将L设置为150作为潜在嵌入大小,在向下取整精确平均值157之后。
- 我们为每种癌症类型选择了相同的潜在大小,以便在癌症特异性嵌入之间进行直接比较。
- 为了应对k-means聚类固有的变异性,特别是在初始质心选择方面,我们进行了稳定性分析,详见补充说明5。
- 这些分析包括标准化互信息(NMI)得分以及跨运行的基因/通路比较,一致地证实了我们的模型在识别关键遗传元素方面的稳定性。
Para_04
- 我们的 DeepProfile 框架可以编码用户癌症表达样本。
- 当用户表达样本传递给 DeepProfile 模型时,我们首先应用与训练样本相同的预处理步骤,排除那些在训练样本中不可用的基因。
- 我们将预处理后的表达矩阵传递给已训练的 VAE 模型以生成嵌入。
- 换句话说,我们使用 VAE 模型的学习权重来编码用户样本,并从每个 VAE 模型生成一个嵌入。
- 然后,我们使用学习到的集成分配来聚类 VAE 潜变量,并取每个聚类中的平均值来定义用户样本的最终 DeepProfile 嵌入(扩展数据图 2b)。
- 用户可以选择潜在维度的数量,在这种情况下,将重新计算集成标签分配,以定义用户选择的潜在维度大小的新集成潜变量。
Para_05
- 我们提供了所有癌症类型在补充表4中的估计训练和测试时间。
- 平均而言,每种癌症类型的平均训练时间为约1.36小时,而平均测试时间非常高效,仅为0.10小时。
- 这表明虽然DeepProfile模型的训练阶段需要合理的时间,但测试阶段异常高效,这对实际应用是有利的。
Gene- and pathway-level attributions of DeepProfile latent variables
DeepProfile潜在变量的基因和通路层面归因
Para_01
- 为了计算DeepProfile潜在变量的基因级归因,这表示每个基因对所学潜在变量的贡献程度,我们使用了Python的Keras实现的综合梯度(),这是一种用于神经网络的基于梯度的特征归因方法29(扩展数据图2c)。当应用于神经网络模型时,综合梯度学习每个输入特征对于每个输出变量的样本级重要性值。
- When applied to a neural network model, Integrated Gradients learns the sample-level importance values of each input feature for each output variable.
Para_02
- 为了计算我们最终确定的DeepProfile模型中每个潜在变量的基因重要性值,我们采用了两步方法。
- 首先,我们计算了与每个变分自编码器(VAE)潜在变量相关的每个主成分的积分梯度(IG)值。
- 随后,将这些IG值乘以相应的主成分权重,也称为特征向量。
- 将IG值乘以特征向量的过程提供了一种机制,根据每个主成分对原始基因的影响来缩放重要性值。
- 因此,我们能够获得与每个VAE潜在变量相关的基因重要性值。
- 为了确定每个基因对于潜在变量的全局重要性,我们计算了每种癌症类型的所有训练样本中归因分数的绝对平均值。
- 由于DeepProfile是由多个VAE模型组成的集成模型,其中每个DeepProfile潜在变量结合了多个VAE潜在变量,因此每个DeepProfile潜在变量的特征归因是通过计算定义该集成潜在变量的VAE潜在变量的归因平均值得到的。
Para_03
- 为了计算途径层面的归因,我们使用了基因层面的归因,并通过Reactome93、BioCarta94和KEGG95中的总计1,077条功能性途径运行了途径富集测试,这些途径来自MSigDB96,97的C2集合v.6.2。
- 对于富集测试,我们使用了Python的'scipy.stats'模块中的Fisher精确检验(FET)的'method'方法。
- 从每条途径的基因列表中,我们去除了不在我们的输入表达矩阵中的基因,并将具有最高重要性值的前G个基因传递给FET,其中G是所有1,077条来自Reactome、BioCarta和KEGG的功能性途径的平均途径长度。
- 对于多重假设校正,我们对所有的潜在变量应用了Benjamini–Hochberg FDR校正,使用了Python的'statsmodels'库中的'multipletests'函数。
Comparing DeepProfile to alternative dimensionality-reduction methods
将DeepProfile与替代的降维方法进行比较
Para_01
- 我们比较了DeepProfile与替代的降维算法,包括常用的线性方法以及其他深度学习方法。
- 我们使用与DeepProfile VAE模型输入相同的预处理基因表达水平来训练这些算法。
Para_02
- 高斯随机投影将原始输入映射到一个更低维度的空间,在这个空间中每个分量都是从正态分布中随机抽取的。
- 从 Python 的 sklearn 库中,我们使用了 'GaussianRandomProjection',并用不同的随机种子重复训练了 10 次,以输出 10 个不同的嵌入。
Para_03
- 主成分分析(PCA)是一种生成正交组件以在原始输入空间中编码变化的线性降维方法。
- 我们使用了Python的sklearn库中的‘PCA’模块,并在将其与DeepProfile嵌入进行比较时,使用了前150个主成分,而DeepProfile嵌入有150个潜在变量。
Para_04
- 独立成分分析(ICA)也是一种从原始空间中学习独立成分的线性降维方法。
- 我们使用Python的‘sklearn FastICA’对ICA进行了训练,迭代了100,000次;我们用不同的随机种子重复训练了10次,输出了10组不同的嵌入。
- 注:文中提到的‘100,000 iterations’和‘10 times’未做翻译处理。
Para_05
- 自动编码器(AE)是一种深度无监督神经网络,由编码器和解码器网络组成,旨在学习一个潜在空间,该空间能够尽可能成功地重构原始空间。
- 对于自动编码器训练,我们使用了与训练DeepProfile相同的预处理基因表达水平的主要成分,以便在模型之间进行公平比较。
- 我们使用5折交叉验证调整了AE模型的超参数,包括层数、潜在变量数量、dropout率和批量大小,以重构误差作为指标。
- 在最终的AE模型中,编码器和解码器网络各有一个隐藏层,潜在变量数量为750,dropout率为0.1,批量大小为100。
- 该模型使用Adam优化器和0.0005的学习率进行训练。
- 由于每次不同的随机初始化可能导致不同的表示,我们用不同的随机权重初始化重复了10次自动编码器训练。
- 这些模型是使用Keras和Tensorflow后端实现的。
Para_06
- 去噪自编码器(DAE)是一种加入了噪声的输入数据以生成更健壮嵌入的正则化自编码模型。
- 我们对去噪自编码模型采用了与自编码器相同的处理方法:我们将相同的预处理基因表达水平作为输入传递给DAE模型,并使用5折交叉验证选择超参数。
- 最终调整后的模型在编码器和解码器网络中各有1个隐藏层,750个潜在变量和0.1的dropout率。
- 我们使用学习率为0.0005和批量大小为100的Adam优化器优化了该模型。
- 我们再次用不同的随机权重初始化重复训练DAE模型10次。
- 这些模型是使用Keras和TensorFlow后端实现的。
Para_07
- 变分自编码器(VAE)。我们包含了单一的VAE模型,具有100个潜在变量,这是我们的DeepProfile集成模型中最强大的配置,作为比较的基准。
- VAE模型有两个隐藏层,分别包含250和100个潜在变量。dropout率设置为0。
- 优化是通过Adam优化器,在学习率为0.0005和小批量大小为50的情况下实现的。
Creating TCGA RNA-seq embeddings
创建TCGA RNA-seq嵌入
Para_01
- 我们从博德研究所的数据版本2016_01_28(/)下载了由肿瘤基因组图谱研究网络(/)生成的所有癌症类型的TCGA RSEM标准化对数转换RNA测序表达矩阵。
- DeepProfile和TCGA癌症类型的映射以及样本数量列在补充数据集1中。
- 我们使用与预处理GEO表达数据集相同的流程来预处理TCGA的表达数据:我们选择了仅在训练数据中存在的基因,对TCGA数据集中缺失的基因进行了零填充,并将每个基因标准化为零均值单变量。
Para_02
- 由于我们使用训练数据的主成分来训练DeepProfile,我们在生成TCGA嵌入时应用了相同的处理步骤。
- 我们使用在训练数据上训练的PCA模型对TCGA样本进行编码。
- 为了生成DeepProfile嵌入,我们加载了所有已训练的VAE模型,用每个模型对TCGA PCA转换后的输入特征进行编码,并使用预学习的集成标签来聚类我们的VAE嵌入的潜在变量,并定义一个150维的DeepProfile嵌入用于TCGA RNA-seq样本。
- 我们对每种癌症类型重复了这一过程。
- 为了评估DeepProfile模型对TCGA数据的泛化能力,我们在不同潜在维度上对GEO和TCGA数据集进行了均方误差(MSE)测量。
- 如补充图6所示,TCGA数据上的低MSE值突显了DeepProfile在有效重构和适应未见过的数据方面的优势,证明了其强大的泛化能力。
Para_03
- 同样地,对于所有替代的降维方法,我们使用训练好的模型对TCGA的RNA-seq样本进行编码。
Comparison of DeepProfile microarray and RNA-seq embeddings
深度剖析微阵列和RNA测序嵌入的比较
Para_01
- 为了证明DeepProfile可以从微阵列和RNA-seq测试数据中学习到信息丰富的潜在空间,我们使用了TCGA癌症样本,我们拥有这两种技术的表达数据。
- 我们从Broad Institute数据v.2016_01_28(/)下载了TCGA对所有可用癌症类型的log2 LOWESS归一化微阵列表达矩阵,这些数据由TCGA研究网络(/)生成(有关癌症类型映射和我们具有匹配表达测量的样本数量的详细信息,请参见补充数据集1)。
- 我们选择了在微阵列和RNA-seq数据集中都存在的基因,以便进行公平比较,并按照应用于GEO样本的相同预处理步骤预处理微阵列表达谱。
- 然后,我们使用Python scipy.stats库中的pearsonr方法测量了两种技术生成的基因表达矩阵之间的皮尔逊相关系数。
- 因此,我们为每个TCGA样本获得了相关系数,这表示两种表达谱之间的相似性。
Para_02
- 遵循相同的程序来创建DeepProfile TCGA RNA测序嵌入,我们从TCGA微阵列谱系中创建了DeepProfile嵌入。
- 通过这种方式,使用DeepProfile框架,我们为癌症类型获得了两个独立的嵌入:(1)由微阵列表达生成的嵌入和(2)由RNA测序表达生成的嵌入。
- 然后,我们使用Python scipy.stats库的pearsonr方法测量每个TCGA样本的DeepProfile RNA测序和微阵列嵌入之间的皮尔逊相关性。
- 同样地,我们为每个TCGA样本获得了相关系数,这表示两种表达嵌入之间的相似性。
Comparing DeepProfile pathway coverage to alternative dimensionality-reduction methods
将 DeepProfile 通路覆盖率与替代的降维方法进行比较
Para_01
- 当比较DeepProfile与其他降维方法在通路覆盖率方面时,我们将其作为评估所学潜在空间生物学相关性的指标,我们遵循了与DeepProfile相同的程序。
- 我们应用了Python的scipy.stats模块中的FET的fisher_exact方法,并为每个潜在变量-通路对获得了P值,表示富集的显著性。
Para_02
- 为了运行通路富集测试,我们首先获得了每种降维方法的基因级归因。
- 对于PCA,我们获得了成分矩阵,该矩阵表示每个基因对每个主成分的贡献,并且我们取了成分矩阵的绝对值用于富集测试。
- 类似地,对于ICA和RP,我们也获得了绝对值成分矩阵。
- 由于我们用不同的随机初始化训练了每个模型10次,我们对每个模型重复了FET测试10次,并将10次运行的通路富集结果平均。
- 对于自动编码器和去噪自动编码器模型,我们使用集成梯度29来获得嵌入潜在变量的基因级归因,遵循我们对VAE模型应用的相同程序。
- 同样地,我们为每次随机训练获得了基因级归因,对每次运行进行了FET富集测试,并报告了10个模型的平均通路富集结果。
Para_03
- 我们使用了3种不同的指标,将DeepProfile的通路覆盖率与其他降维方法进行了比较。
- ,
[ol]- 1. We compared the ‘average pathway coverages’. The enrichment tests we conducted provided us with an enrichment P value for each latent variable–pathway pair. After FDR correction, we marked the latent variable–pathway pairs with a P < 0.05 as significant and calculated the total number of significant enrichments for each latent variable. We defined the number of pathways significantly captured by each latent variable as the pathway coverage of that latent variable. Then, we averaged these latent variable-level pathway coverages across all latent variables to calculate the average final coverage of an embedding. This metric allowed us to define an average pathway coverage score per model and per cancer type. - 2. We compared the ‘distributions of latent variable-level pathway coverages’ across models. Again, using the same pathway-level attribution P values, we counted the number of pathways significantly captured (FDR P < 0.05) by each latent variable of each embedding. We compared distributions for each method and each cancer type. - 3. We compared the ‘percent of latent variables annotated by at least one pathway’. For various significance threshold values that range from a P value of 1 × 10−1 to 1 × 10−10, we counted the number of pathways with a P value below the threshold for each latent variable. This again returned a pathway coverage value for each latent variable of the embedding. We then calculated the percent of latent variables with a pathway coverage above one, which is effectively the percent of latent variables annotated by at least one pathway with a P value below the threshold. We again repeated the calculations for each method and cancer type.
Comparing DeepProfile pathway coverage to VAE models
比较 DeepProfile 通路覆盖率与 VAE 模型
Para_01
- 当比较DeepProfile的通路富集与VAE模型时,我们对每个不同维度的VAE模型使用了基因层面的归因,并应用FET为每个600种不同模型的每个潜在变量获得一个P值。
- 如果FDR校正后的P值低于0.05,我们就再次认为该潜在变量显著地捕获了一个通路。
- DeepProfile是一个集成模型,它结合了600个VAE模型来定义一个集成嵌入,我们的目标是展示DeepProfile模型能够保留由各个VAE模型捕获的通路。
- 因此,我们使用了两种不同的度量标准来比较VAE模型与DeepProfile的通路覆盖率:
[ol]- 1. We compared DeepProfile pathway coverages to the ‘average pathway coverages’ of all 600 different VAE models. For each pathway, we calculated the percent of VAE models that captured this pathway significantly (that is, with at least one latent variable of the embedding with an FDR-corrected P < 0.05). We then compared the pathways captured by the threshold percent of the VAE models, where the threshold ranges from 50 to 90, to those captured by DeepProfile to investigate whether the pathways captured by VAE models could also be captured by DeepProfile. - 2. We compared the DeepProfile model to VAE models with ‘different dimension sizes’. For each different dimensional VAE model, for example, a 5-dimensional VAE model, we marked a pathway to be captured if the majority of the VAE models (at least 51 of 100 models) significantly captured the pathway (FDR-corrected P < 0.05). We repeated the same procedure for each of the 6 different dimensional VAE models to mark the pathways captured by different dimensional VAE models. We then compared the pathways captured by a threshold number of different dimensional models, where the threshold ranges from 1 to 6, to those captured by the DeepProfile model to investigate whether the pathways captured by these different VAE models could be detected by DeepProfile as well.
Detecting universally important genes
检测普遍重要的基因
Para_01
- 为了检测所有癌症类型中得分最高的基因,我们使用了DeepProfile潜在变量的基因级归因。
- 我们计算了所有潜在变量的平均归因分数,以定义每个基因的整体重要性评分,并将这些评分转换为百分位评分,其中最高得分的基因为100分,最低得分的基因为0分。
- 一旦我们分别获得了每种癌症类型中每个基因的这些百分位评分,我们计算了18种癌症类型的平均百分位评分作为基因的通用百分位评分。
- 然后,我们可以根据基因的通用百分位评分对它们进行排序,以检测普遍重要的前100个基因。
- 我们使用STRING102生成了这100个普遍重要基因的网络,置信度水平为0.4,使用了所有交互源并去除了未连接的潜在变量。
- 我们使用Cytoscape103可视化了该网络。
Para_02
- 为了检测富集了最重要的前100个基因的通路,我们使用了Python的scipy.stats模块中的FET的fisher_exact方法对Reactome、BioCarta、KEGG和MSigDB(v.6.2)中的GO生物过程(BP)基因集中的最重要的前100个基因进行了分析。
- 我们对所有通路进行了FDR校正。
Para_03
- 此外,为了检测DeepProfile的普遍重要基因是否富集了各种免疫细胞类型的特征,我们收集了T细胞、B细胞、中性粒细胞和巨噬细胞的基因特征,并获得了总共108个基因,这些基因在我们的训练表达数据集中可用。
- 我们再次使用FET对这100个普遍重要的基因进行分析,利用这些标记来计算富集分数。
- 另外,我们将PanCan Immunity论文中的预先计算的免疫细胞比例纳入分析。
- 我们将这些免疫细胞比例映射到我们研究中使用的TCGA基因表达数据上。
- 为了评估前100个DeepProfile基因是否可以由PanCan研究中识别出的免疫细胞相关基因很好地解释,我们计算了四种主要免疫细胞类型(T细胞、B细胞、中性粒细胞和巨噬细胞)及其亚型的比例与所有TCGA样本中所有基因之间的皮尔逊相关系数。
- 在这项分析中,相关性最高的基因很可能是由这些免疫细胞特异性表达的。
- 然后,对于每种免疫细胞类型,我们进行了FET检验,以评估其前100个相关基因与我们通过DeepProfile分析识别出的前100个基因之间的重叠情况,并应用Bonferroni校正来调整多重比较的影响。
Para_04
- 为了确定DeepProfile的普遍重要基因是否富集于细胞表面和细胞因子受体,我们首先从CSPA104、UniProt数据库37和Gene Ontology(GO)收集了基因集。
- 从CSPA,我们下载了人类表面蛋白质及其注释列表,选择了‘高置信度’CSPA类别和蛋白概率为1.0的蛋白质,得到了一个包含555个人类表面蛋白质的列表。
- 从UniProt数据库,我们使用关键词‘细胞表面受体’下载了人类细胞表面受体,选择了经过评审的蛋白质,并得到了一个包含1,307个基因的列表。
- 类似地,我们使用关键词‘细胞因子受体’下载了人类细胞因子受体,选择了经过评审的蛋白质,并得到了一个包含773个基因的列表。
- 从GO,我们使用了基因集‘免疫反应调节细胞表面受体信号通路’,该基因集包含346个基因。
- 请注意,对于每个基因集,我们只使用了在DeepProfile训练表达矩阵中存在的基因,并报告了交集基因的数量。
- 我们再次使用这4个不同的基因列表对前100个普遍重要基因运行FET,以计算富集评分。
Para_05
- 为了比较DeepProfile检测到的顶级普遍重要基因与PCA的顶级普遍重要基因,我们对PCA进行了相同的分析。
- 使用PCA模型中每个基因的归因分数(绝对值成分矩阵),我们计算了所有前150个主成分的平均归因分数,将分数转换为百分位数,并计算了18种癌症的平均值,以定义PCA中每个基因的普遍重要性得分。
- 同样地,我们使用KEGG、BioCarta、Reactome通路和GO BP基因集对前100个普遍重要的PCA基因进行了FET分析。
- 我们也重复了针对DeepProfile的相同4个受体基因列表的FET富集测试,再次使用了前100个普遍重要的PCA基因。
Detecting universally important pathways
检测普遍重要的途径
Para_01
- 为了检测所有癌症类型中得分最高的途径,我们使用了每个DeepProfile潜在变量的途径级归因,其中包含每个潜在变量-途径对的富集P值。
- 为了定义一个嵌入的整体途径富集评分,我们选择了每个途径在所有潜在变量中最大化的-log10(P值),并为每种癌症类型/途径对获得了富集评分。
- 如果FDR校正后的P值低于0.05,我们将该途径标记为被一种癌症类型显著捕获。
- 为了确定普遍重要的途径,我们统计了每种途径被多少种癌症类型显著捕获。
- 我们也记录了每种途径的平均-log10(P值)富集评分,通过取所有显著捕获该途径的癌症类型的平均值。
- 在获得每种途径的癌症数量和平均富集评分后,我们首先按癌症数量对途径进行排序,然后按富集评分进行排序,得到普遍重要途径的列表。
Calculating cancer character scores for pathways
计算途径的癌症特征评分
Para_01
- 为了计算每条通路的癌症特征分数,我们进行了所谓的‘正常组织分析’。
- 首先,我们从GTEx门户()下载了RNA测序表达数据(每百万转录本(TPMs)),访问号为phs000424.v7.p2(参考文献27),并选择了与我们拥有的18种癌症类型相对应的组织(补充数据集1中提供了DeepProfile和GTEx组织类型的映射以及样本数量)。
- 我们使用与TCGA RNA测序表达相同的预处理流程对GTEx表达谱进行预处理和编码,并将表达值传递给已经训练好的DeepProfile模型,以生成正常组织嵌入。
Para_02
- 为了检测每个潜在变量区分癌症与正常组织的成功程度,我们通过传递癌症和正常组织的DeepProfile嵌入作为输入训练了逻辑回归分类器,并预测了癌症与正常组织的标签。
- 我们使用了Python sklearn库的‘LogisticRegression’,采用‘liblinear’求解器和‘l2’正则化,在不同随机采样下重复训练了500次,并记录了所有模型分类器权重绝对值的平均值。
- 我们将每个潜在变量的癌症特征评分定义为其分类器权重的绝对值,表示每个DeepProfile潜在变量在区分癌症与正常组织中的重要性,其中高癌症特征评分表明该潜在变量对于区分组织类型非常重要。
Para_03
- 我们随后将这些潜变量水平的癌症特征评分映射到通路上,以确定每种癌症类型中每个通路的癌症-组织特异性。
- 对于每个通路,我们使用该通路富集评分的-log10(P值)作为权重计算了癌症特征评分的加权平均值,并为每个通路-癌症类型对获得了一个平均癌症特征评分。
- 请注意,如果一个通路对于任何潜变量都没有富集,则我们为其分配一个癌症特征评分为0。
- 为了定义每个通路的通用癌症特征评分,我们计算了18种癌症中癌症特征评分的平均值,排除了得分为0的癌症。
Detecting cancer-specific genes and pathways
检测癌症特异性基因和通路
Para_01
- 为了识别仅对某种癌症类型评分较高的基因,我们使用了为每个基因-癌症类型组合计算的重要性得分。
- 对于每个基因,我们计算了某一癌症的百分位得分与所有其他17种癌症的最大百分位得分之间的差异。
- 这些针对特定癌症的差异得分使我们能够检测出每种癌症的顶级癌症特异性基因。
Para_02
- 为了计算PAM50基因的富集评分,我们对乳腺癌的前N个得分最高的基因运行了FET,其中N的范围从1到1000。然后,我们在所有阈值上应用了Bonferroni校正,以报告最终的富集P值。
- 我们对乳腺癌的前N个得分最高的基因运行了FET,其中N的范围从1到1000。
Para_03
- 为了检测癌症特异性通路,我们使用了每个通路/癌症类型对的富集评分的−log10(P值),并计算了一种癌症类型的富集评分与其余17种癌症中的最大富集评分之间的差异。因此,我们为每种癌症类型和每个通路获得了一个癌症特异性差异评分,使我们能够检测出那些特定于癌症类型的通路。
- 我们还通过将正常组织分析中得到的分类器权重转换为百分位分数,为这些癌症特异性通路分配了一个癌症特征评分。
Pan-cancer survival and mutation analysis
泛癌生存和突变分析
Para_01
- 为了将每条通路与患者生存率关联起来,我们使用了为18种癌症学习到的TCGA RNA-seq DeepProfile嵌入以及生存状态。
- 我们分别对每个DeepProfile潜在变量拟合了单变量Cox回归模型。
- 我们使用了R的'survival'库中的'coxph'方法,记录了每个潜在变量的模型系数的P值,并对每个通路的所有潜在变量进行了FDR校正。
- 我们对每种癌症类型重复了模型训练过程。
Para_02
- 为了检测决定患者生存的通路,我们将这些潜在变量级别的生存评分映射到通路上。
- 对于每个通路,我们使用富集P值的-log10作为权重,计算了所有潜在变量上的生存P值的加权平均值(扩展数据图6)。
- 当没有一个潜在变量能够显著捕获一个通路(FDR校正P值<0.05)时,我们将该通路的生存评分为0。
- 我们还通过z分数低于0.25来屏蔽通路富集P值,以防止低排名通路参与平均评分计算。
- 我们计算了每对通路/癌症类型的平均生存-log10(P值)。
- 由于使用FET的富集评分进行的生存分析未能提供丰富的生存富集,我们使用更广泛的顶级基因集合(4倍于平均通路大小)重复了FET,以便进行有意义的生存分析。
- 这一流程使我们能够为每个通路和每种癌症类型定义一个生存P值。
- 然后,如果FDR校正的富集P值和生存P值均小于0.05,则将该通路标记为与生存相关。
Para_03
- 为了检测普遍与生存相关的通路,对于每个通路,我们统计了在18种癌症中有显著生存分数的癌症数量。
- 我们还计算了所有被检测到与生存显著相关的癌症类型的平均富集−log10(P值)和平均生存−log10(P值)。
- 通过按癌症类型数量排序,然后按平均生存分数排序,我们找到了最普遍的与生存相关的通路。
- 我们使用Cytoscape的103号工具EnrichmentMap 107可视化了前20个普遍的与生存相关的通路,潜变量截断值为1.0,边截断相似性值为0.5,在这里通路之间的连接由通路基因成员的Jaccard相似性决定。
Para_04
- 为了进行突变分析,我们从Broad研究所的数据v.2016_01_28(/)下载了所有癌症类型的TCGA突变谱,这些数据由TCGA研究网络(/)生成(有关癌症类型和每种癌症样本数量的映射,请参见补充数据集1)。
- 我们选择了既有表达测量数据又有肿瘤突变负荷(TMB)数据的样本,并通过将每个基因的突变次数相加计算了每个癌症样本的总突变次数。
- 如果一个基因发生了k种不同的突变,我们将总的突变计数增加了k。
Para_05
- 为了给每个DeepProfile潜在变量分配突变关联评分,我们使用Python scipy.stats库中的pearsonr方法计算了DeepProfile嵌入的每个潜在变量与排除超出95%置信水平(z分数> 1.96)的异常突变分数后的总突变数对数之间的皮尔逊相关性。
- 我们对18种癌症类型中的每一种重复了这些实验,并获得了潜在变量级别的TMB相关性P值。
Para_06
- 为了将潜在变量级别的P值映射到通路上,我们重复了与生存分析相同的步骤:我们计算了每个通路中所有潜在变量的加权平均−log10(TMB P值),权重定义为潜在变量的−log10(富集P值)。
- 我们再次计算了所有癌症类型中具有显著得分(FDR校正后的P值<0.05)的平均富集和TMB的−log10(P值),并检测了每个通路中与TMB显著相关的癌症数量。
- 我们使用Cytoscape的103号工具EnrichmentMap 107可视化了与突变相关的前20条通路,采用了与生存相关通路网络相同的设置。
Downstream survival analysis
下游生存分析
Para_01
- 对于与患者预后相关的通路,我们进行了独立于DeepProfile模型的下游生存分析。
- 我们首先使用TCGA的RNA测序谱对KEGG错配修复通路中的23个基因和Reactome MHC II类抗原呈递通路中的91个基因分别拟合了单变量Cox回归模型。
- 我们使用R的survival库中的coxph方法来预测生存率,并分别针对每种癌症类型训练了模型,记录了z分数以确定关联的方向。
- 在从Cox模型获得生存z分数后,我们通过层次聚类对这18种癌症的基因水平生存评分创建了热图。
Para_02
- 为了调查所选通路的平均表达与生存之间的关联,我们首先计算了来自KEGG错配修复通路的基因和来自Reactome MHC II类抗原呈递通路的HLA-D基因(HLA-DMA、HLA-DMB、HLA-DOA、HLA-DOB、HLA-DPA1、HLA-DPB1、HLA-DQA1、HLA-DQA2、HLA-DRB1、HLA-DRB5)的平均表达,在所有具有生存记录的TCGA样本中。
- 然后,我们使用计算出的平均表达值为每个通路创建了Kaplan–Meier图108。
- 我们使用Python的‘lifelines’库中的‘KaplanMeierFitter’类来生成Kaplan–Meier生存曲线图。
- 在生成这些图表时,我们将患者根据其平均表达量分为两组:一组是表达量高于平均值加标准差的,另一组是表达量低于负的平均值加标准差的。
- 随后,我们对这两组分别拟合了Kaplan–Meier模型。
- 我们还使用了‘lifelines logrank_test’记录了P值,该测试用于检验两条曲线彼此分离的程度是否显著。
Para_03
- 为了检测负责表达HLA-D基因的免疫细胞类型,我们首先计算了每种癌症的所有TCGA样本中每个基因的平均表达。
- 请注意,我们在预处理表达矩阵之前进行了平均运算。
- 我们将基因按其平均表达排序,并将排名转换为百分位分数。
- 为了确定不同免疫细胞类型的相对重要性,我们计算了每种免疫细胞类型的基因特征的平均基因百分位分数,我们将其定义为树突状细胞的XCR1和CLEC9A;B细胞的MS4A1、CD79A和PAX5;巨噬细胞的CD163、CD68和CSF1R。
- 为了衡量免疫细胞与HLA-D表达之间的关联,我们使用Python scipy.stats库的pearsonr方法测量了上述细胞类型特征的平均表达与HLA-D基因的平均表达之间的皮尔逊相关系数。
Data availability
Para_01
- 支持本研究结果的主要数据在论文及其补充信息中提供。
- 输入的基因表达数据集、它们的降维嵌入、基因层面和通路层面的相关性以及我们的泛癌分析结果可在figshare网站获取,网址为.6084/m9.figshare.25414765.v2(参考文献31)。
- 原始数据随论文一起提供。
Code availability
Para_01
- 用于重现我们研究结果的代码可在GitHub上获取,网址为。
发布者:admin,转转请注明出处:http://www.yc00.com/web/1747736331a4688157.html
评论列表(0条)