生信程序|江阴雨辰互联

生信程序

Basic Information

英文标题：Quantitative characterization of cell niches in spatially resolved omics data
中文标题：空间解析组学数据中细胞微环境的定量表征
发表日期：18 March 2025
文章类型：Article
所属期刊：Nature Genetics
文章作者：Sebastian Birk | Mohammad Lotfollahi
文章链接：

Abstract

Para_01

空间组学能够表征在组织内协调特定功能的共定位细胞群。
这些群落或生态位是由相邻细胞之间的相互作用形成的，然而现有的计算方法很少利用这些相互作用来识别和表征它们。
为了解决这一差距，我们在此引入了NicheCompass，这是一种图深度学习方法，它模拟细胞间的通信，以学习可解释的细胞嵌入，编码信号事件，从而实现对生态位及其潜在过程的识别。
与现有方法不同，NicheCompass基于通信路径定量表征生态位，并且始终优于替代方法。
我们展示了它的多功能性，通过绘制小鼠胚胎发育过程中的组织结构和描绘人类癌症中的肿瘤微环境，包括一个空间参考映射应用程序。
最后，我们将它的能力扩展到空间多组学，演示了不同测序平台数据集之间的跨技术集成，并构建了一个包含840万个细胞的小鼠全脑空间图谱，突显了NicheCompass的可扩展性。
总体而言，NicheCompass提供了一个可扩展的框架，通过信号事件来识别和分析生态位。

Main

Para_01

细胞相互作用对于组织形成至关重要，形成了称为生态位的小而多样的构建块——空间共定位且功能协调的细胞群落1,2。
这些相互作用反映在空间基因表达模式中3,4,5，为识别生态位及其在健康、发育和疾病中的作用提供了基础，从而为了解组织结构和生物标志物提供了见解，以促进诊断、药物发现和靶向治疗6,7。

Para_02

近期的空间基因组学发展通过基于成像的和基于测序的空间转录组学及多组学技术，促进了整个器官空间图谱的构建，涵盖了数百万细胞。
尽管这些图谱为研究生态位和细胞通讯提供了基础，但缺乏基于细胞相互作用的计算方法来识别和表征生态位。
现有方法通过组织学或空间基因表达对细胞进行分组来识别生态位，但通常忽略了关键的细胞过程，限制了生物学见解。
基于信号的生态位特征化可以加深我们对组织层次结构、空间定位的细胞过程以及生态位对稳态变化的适应的理解。

Para_03

这里我们介绍了NicheCompass（基于跨空间样本对齐的细胞图嵌入通信程序的生态位识别），这是一种基于图深度学习的方法，通过学习编码信号事件的空间基因程序活动的细胞嵌入来识别和定量表征生态位。
NicheCompass明确地通过预测细胞及其邻居在特定信号事件中的分子特征来建模细胞间的通信，从而使得在微环境中的通路使用评分成为可能，并促进生态位的识别和表征。
尽管现有方法解决了诸如整合和细胞间通信推断等任务，但它们与NicheCompass至少在两个方面不同，除了其独特的基于信号的方法之外：（1）它们依赖于单细胞数据整合方法，导致生态位恢复不理想；（2）它们缺乏可扩展性；
（3）它们无法建模空间多组学；或者（4）它们无法将查询数据映射到现有的参考图谱上。

Para_04

我们展示了NicheCompass在模拟数据和真实数据中的实用性，这些数据涵盖了不同的物种、条件、技术和模态。
在小鼠器官发生过程中，NicheCompass揭示了一种功能明确的生态位层次结构，这些生态位具有特定的基因程序，并且在胚胎中具有一致性。
基准测试表明，NicheCompass能够准确地恢复生态位、推断基因程序并去除批量效应。
在人类乳腺癌和肺癌中，NicheCompass解码了肿瘤微环境，捕捉了供体特有的空间组织和细胞过程，并能进行空间参照映射，通过参考来识别新的生态位并对比细胞过程。
在一个多模态的小鼠大脑数据集中，它基于多模态程序全面表征了生态位。
最后，我们展示了其可扩展性和跨技术适用性，通过构建跨越数百万个细胞的空间图谱来证明这一点。

Results

NicheCompass enables signaling-based niche characterization

NicheCompass 支持基于信号的利基特征表征

Para_01

NicheCompass通过构建空间邻域图来处理细胞水平或斑点水平的空间组学数据，其中节点代表细胞或斑点，边表示空间接近性（图1a）。
每个节点包含一个组学特征向量（单模态数据中的基因表达或双模态数据中的配对基因表达和染色质可及性）以及协变量（例如，样本）以考虑混杂因素。
一个图形神经网络编码器通过联合编码节点及其邻居的特征生成细胞嵌入，捕捉细胞微环境（图1b）。
一个单独的模块通过协变量嵌入去除批次效应36。
为了使嵌入具有可解释性，NicheCompass结合了细胞间和细胞内相互作用通路的领域知识37,38,39,40,41,42，定义空间基因程序，激励每个嵌入维度代表特定程序的活动43（图1c）。
为了克服领域知识的局限性（例如，质量问题、不完整性或缺失与生态位相关的特征，如形态发生素的空间梯度44），NicheCompass学习空间从头程序，捕捉先前知识中不存在的空间共表达基因（图1c）。

Fig. 1: Overview of NicheCompass.

- 图片说明

◉ NicheCompass 接受单样本或多样本空间组学数据作为输入，这些数据带有细胞水平或斑点水平的观察。◉ 利用二维坐标，它构建了一个空间邻域图（表示为二进制邻接矩阵），每个细胞或斑点代表一个节点。◉ 每个观察包括组学特征（基因表达和可选的配对染色质可及性）以及协变量以考虑混杂因素（例如，样本）。◉ b，一个图神经网络（GNN）编码器生成细胞嵌入，协变量嵌入用于去除混杂效应。◉ c，该模型被激励学习一种嵌入方式，在其中每个特征代表从领域知识中检索到的空间局部化交互路径的活动，并表示为先验程序。◉ 除了先验程序外，该模型还可以发现新的程序，这些程序学习一组空间共存的基因和峰值。◉ GP（基因程序）。◉ d，GP 来自数据库或专家，分为三类，包含邻居组件和自身组件以反映细胞间和细胞内相互作用。◉ 邻居组件包含与细胞间相互作用来源相关的基因，而自身组件包含与细胞间相互作用目标相关的基因和与细胞内相互作用相关的基因。◉ 峰值如果在地理位置上接近，则与基因相关联。◉ TF（转录因子）。◉ e，解码器重建空间和分子信息，同时约束嵌入特征以表示特定程序的活动：图解码器重建样本特定的输入邻接关系，组学解码器重建节点的组学计数及其邻居的汇总计数。◉ 组学解码器基于程序是线性的并且是掩码的，从而实现可解释性（通过一个组合交互程序举例说明）。◉ f，NicheCompass 促进了空间组学数据分析中的关键下游应用。◉ 细胞插图使用 BioRender 制作。

Para_02

为了模拟细胞间的相互作用，程序被划分为自我组件和邻域组件（图1d）。
邻域组件包括与细胞间相互作用来源相关的通路基因，将微环境建模为信号源。
自我组件包括与细胞间或细胞内相互作用目标相关的通路基因，将一个细胞或斑点建模为信号接收器和响应者。
先前的程序被分类为细胞-细胞通讯、转录调控或组合交互程序（图1d、补充图1和补充注释1）。
在多模态场景下，如果峰位于基因体或启动子区域内，则将其与基因关联起来45。
NicheCompass通过数据库应用程序编程接口（APIs）为每个类别提供默认程序37,38,39,40，同时允许自定义。

Para_03

嵌入被解码以共同重构空间和分子信息（图1e）。
一个图形解码器计算样本特定的嵌入相似性，使用边缘重构损失来重构邻域图，鼓励相邻节点具有相似的嵌入。
两个掩码线性组学解码器重建每个程序特有的特征，分离变异并促进可解释性：一个解码器重建通过邻居聚合获得的邻域组学特征；另一个解码器重建节点自身的组学特征。
例如，配体编码基因在邻域中被重构，而相应的受体编码基因和目标基因则在节点中被重构。
通过优先考虑具有信息量的程序并应用选择性正则化以促进程序内的基因稀疏性来解决程序中的冗余问题（方法）。
43,46：

Para_04

NicheCompass 的完整架构是一个多模态条件变分图自动编码器。
这种设计能够实现基于定量信号的生态位表征，并提供了一个端到端的空间组学分析框架（图1f和补充说明2）。
,

NicheCompass elucidates tissue architecture across embryos

NicheCompass阐明了胚胎中的组织结构

Para_01

我们应用NicheCompass对一个顺序荧光原位杂交（seqFISH）小鼠器官发生数据集进行了分析，该数据集包含三个空间上不同的胚胎组织（补充图2a）。
在嵌入整合和聚类之后，我们根据两个特征程序（方法），解剖位置和细胞类型组成对聚类进行了注释（图2a和补充图2b）。
生态位在空间上是连续的，并表现出不同的细胞类型组成模式（图2a、b），包括器官发生特有的同质群体49和异质群体（补充图3），突显了空间信息的价值。
NicheCompass揭示了以前被集体标记的中枢神经系统（CNS）生态位的明显分离，并识别出一个额外的富含Shh组合交互程序的腹板生态位，这与Shh分泌和标记表达一致50（图2a和补充图4a）。
跨胚胎的整合是成功的（图2c），大多数生态位存在于所有胚胎中，缺失则由样本特异性组织结构解释（补充图5）。

Fig. 2: NicheCompass reveals cellular interactions shaping tissue organization in mouse development.

- 图片说明

◉ 均匀流形逼近和投影（UMAP）整合的NicheCompass嵌入和三个胚胎组织，用通过特征程序注释的生态位着色（生态位注释中的基因名称指的是在该生态位中相对于所有其他生态位上调的特征程序），图中标出了并标注了脊板生态位。◉ 与a相同UMAP，但用原始细胞类型或区域注释着色。ExE内胚层，额外胚胎内胚层；NMP，神经节中胚层祖细胞。◉ 每个部分中各个生态位的细胞比例。◉ 平均程序活动的树状图，显示功能上的高层级层次结构。◉ 每个生态位的两个特征程序归一化活性热图，显示沿着层级的梯度。◉ 每个生态位的细胞类型比例（颜色来自b）。◉ 区分腹侧和背侧肠道生态位（g）和中枢神经系统生态位（h）的特征程序的活性，以及配体编码基因和受体编码基因的相关表达。◉ 对一个腹侧肠道程序（i）和一个脊板程序（j）的细胞间通讯分析，显示生态位之间推断的通讯强度和一致的成员基因表达。节点代表生态位，边表示相互作用的强度（宽度）和方向（箭头）。通迅强度，通信强度。

Para_02

为了评估全局空间组织，我们应用了分层聚类，将生态位分组成更高级的功能组件（图2d）。
中枢神经系统生态位（中脑、前脑、腹板、后脑、脊髓）形成一个集群，而背肠和腹肠生态位构成了另一个集群，这与解剖学一致。
表征程序活动支持了这一层级结构，并区分了各个生态位（图2e）。
同一集群内的生态位表现出相似的细胞类型组成，反映了有意义的分子整合（图2f）。

Para_03

我们分析了肠道和大脑生态位中的程序活动，以研究驱动生态位身份的相互作用。
每个生态位都显示出了特定程序的富集活性（图2g，h，扩展数据图1和补充说明3）。
在腹侧肠道生态位中，Spint1组合相互作用程序表现出最高的活性（图2g）。
根据基因重要性（方法），该程序由Spint1和St14驱动，分别编码配体HAI-1和受体matriptase，它们的相互作用调节肠道上皮屏障的完整性51,52。
在背侧肠道生态位中，Cthrc1组合相互作用程序上调（图2g），由配体编码基因和受体编码基因Cthrc1和Fzd3驱动，并定位到脊索53，通过Nog标记表达验证54（补充图4b）。
Cthrc1-Fzd3结合在小鼠胚胎发育期间参与Wnt平面细胞极性途径53。
在后脑生态位中，Fgf3组合相互作用程序上调（图2h），由配体编码基因和受体编码基因Fgf3和Fgfr1驱动55。
Fgf3信号对于神经元的发育以及后脑区域边界的建立至关重要56,57。
地板区生态位由Calca组合相互作用程序界定（图2h），由Calca驱动，它在中脑-后脑交界处的谷氨酸能神经元中很重要58。
在中脑生态位中，我们鉴定了Fgf17组合相互作用程序的富集活性（图2h），由配体编码基因和受体编码基因Fgf17和Fgfr2驱动。
该通路对于脊椎动物中脑模式形成至关重要59,60。
最后，在前脑生态位中，Dkk1配体-受体程序显示出独特的活性（图2h），Dkk1促进前脑神经元前体的形成61,62。

Para_04

为了验证学习到的程序活动的完整性，我们将配体编码基因和受体编码基因的表达与重建的表达进行了比较，发现高度一致（扩展数据图1）。
为了评估识别生态位和推断程序的可重复性和稳健性，我们使用不同的种子和邻域图训练了额外的模型，观察到了高度的一致性（扩展数据图2）。
我们进一步通过排除胚胎2和胚胎3分别进行留一法场景下的训练来评估泛化能力。
将胚胎2作为查询映射显示了识别生态位和推断程序活动之间存在强烈的对应关系（扩展数据图2d）。
最后，为了测试对先前程序选择的鲁棒性，我们在有限的程序集上训练了模型。生态位仍然保持稳健，但在不同程序集中揭示了不同的生物学。
补充图6

Para_05

使用推断的程序活动，我们通过计算每个细胞的特定来源和特定目标的通信潜力分数来分析相互作用，这使我们能够量化细胞对之间的通信强度，并在生态位和细胞类型层面进行汇总（方法和补充说明4）。
我们将这一策略应用于Vtn联合交互程序，该程序在腹侧肠道生态位中富集（图2i和补充图7a，b）。
该程序包括已知的Vtn与Kdr受体以及由Itga5和Itga2b编码的整合素受体的相互作用，这些都是调控肠道发育期间细胞反应的关键调节因子63。
除了这些之外，重要的目标基因（Pxdn、Mecom、Crem）显示了空间上相关的表达（图2i）。
通信强度分析表明，该程序介导了腹侧肠道内的生态位内相互作用以及与血管（血管生成）和肠系膜间充质生态位之间的生态位间相互作用，这与vitronectin-整合素信号传导是小鼠血管生成的关键贡献者一致64。
我们同样检查了Shh联合交互程序，该程序在脊索生态位中富集（图2j和补充图7c，d）。
除了编码配体和受体的基因Shh和Ptch1之外，NicheCompass还识别了Shh信号通路的下游靶标，包括Nkx2-9（与多巴胺能神经元的规范有关65,66,67）、Slit2（支持腹侧神经管轴突迁移68）和Foxd1（视网膜模式化中的已知Shh靶标69）。
尽管Shh程序活性主要出现在脊索生态位中，但它扩展到了其他脑部生态位，这与更广泛的Shh大脑信号传导一致70。

Para_06

这些结果展示了如何根据项目活动，NicheCompass 可以推断出不同组织中的细粒度生态位及其潜在交互机制的层次结构。

NicheCompass accurately identifies niches in diverse data

NicheCompass 准确识别多样化数据中的利基市场

Para_01

我们使用来自各种技术、物种和组织的模拟数据和真实数据对NicheCompass与其他方法进行了基准测试，包括20,22,26,28,35。
在SlideSeqV2小鼠海马体数据集上，NicheCompass识别的生态位与Allen脑图谱中的解剖亚组分紧密对应（图3a）。
层次聚类显示，岛叶皮质和海马体聚类与已知分类学一致，而丘脑聚类中的偏差可以通过生态位组成相似性来解释（图3b和补充图8a）。
与BANKSY28、GraphST20和CellCharter22相比，NicheCompass唯一地识别了空间连续的生态位，并在空间一致性指标和生态位一致性指标上优于所有方法（图3c、d和补充说明5和6）。
由于STACI26无法在40GB的GPU上进行训练，因此在25%的子样本上进行了额外的基准测试，NicheCompass保持了优越的性能（补充图9和补充说明5）。

Fig. 3: Benchmarking NicheCompass across diverse scenarios.

- 图片说明

◉ 冠状小鼠大脑图像来自艾伦脑图谱（左），以及 SlideSeqV2 海马组织（右），显示由 NicheCompass 识别的相应生态位。CA1sp，CA1 锥体层；CA2sp，CA2 锥体层；CA3sp，CA3 锥体层。◉ b, 平均程序活动的聚类图揭示了解剖学和分子上相似的生态位层次结构及其细胞类型组成。◉ c, 上：使用四种方法识别的生态位对小鼠海马组织进行染色。聚类颜色与 a 相匹配。◉ c, 下：基于每种方法嵌入计算的相应聚类树。◉ d, 在六个指标上进行的空间一致性及生态位一致性性能比较，汇总为一个总体分数（方法）。◉ e, NicheCompass、CellCharter22、BANKSY28、GraphST20 和 STACI26 在 NanoString CosMx NSCLC 数据集子样本上的集成性能。◉ e, 上：按数据源着色的 UMAP 图，突出仅由 NicheCompass 集成的内皮和基质生态位。◉ e, 下：肺组织复制显示批量效应消除和生态位分辨率方面的差异。突出显示所有三个复制中的第一个视野（FoV），其他方法显示 FoV 效应阻碍了整合。◉ e, 组织切片下的生态位注释指的是由相应方法识别的生态位。对于除 NicheCompass 以外的方法，仅显示与 NicheCompass 的差异。◉ f, g, NicheCompass 和类似方法在四个单样本（f）和三个多样本（g）数据集上的性能总结指标。◉ f, g, 指标为每个数据集和方法进行了 n=8 次训练运行的计算，同时变化 k 最近邻图的大小（每个 k 进行两次运行，k=4, 8, 12, 16）。缺失的方框表示由于内存限制导致的训练失败。◉ f, g, 右侧的数字表示每个数据集中 NicheCompass 与第二佳表现方法之间的平均分数差异（绿色，NicheCompass 表现更好；黄色，NicheCompass 与之相当）。

Para_02

我们在使用SRTsim72生成的模拟数据上验证了NicheCompass，该数据包括地面真实生态位标签，包括生态位特定的信号事件（扩展数据图3a–c和方法）。
在所有测试的方法中，只有NicheCompass和BANKSY准确地恢复了地面真实生态位。
此外，NicheCompass在检索地面真实程序方面优于替代工作流程（扩展数据图3d–f和补充说明7）。
我们还进行了消融研究，以评估设计选择并告知超参数选择（方法，补充图10–13和补充说明8）。
对数据集的一个分箱版本的进一步分析证明了NicheCompass在不同分辨率下的鲁棒性（补充图14和补充说明9）。

Para_03

我们随后在一个NanoString CosMx人类非小细胞肺癌（NSCLC）数据集上评估了整合能力。
由于GraphST和STACI无法处理整个数据集，我们使用了一个包含强烈批次效应的10%子样本（扩展数据图4a）。
只有NicheCompass能够成功整合所有重复样本（图3e，扩展数据图4b，c和补充说明10）。
它识别出不同的生态位，包括淋巴结构生态位和肿瘤间质边界生态位，并区分了内皮细胞富集和浆母细胞富集的间质，每种都有明确的组成特征。
相比之下，CellCharter未能分离生态位，STACI错过了肿瘤间质边界生态位，BANKSY在整合上存在问题，GraphST则将不相关的生态位归为一组。
定量评估证实了NicheCompass在批次校正方面的优越性以及在空间一致性和生态位一致性方面的竞争力（扩展数据图4d）。

Para_04

最后，我们评估了不同大小的数据集和基因面板的可扩展性和适用性。
在测试的方法中，只有NicheCompass、BANKSY和CellCharter能够处理较大的数据集（>70,000个细胞）。
NicheCompass表现远超其他方法，展示了对子采样的鲁棒性，并在多样本的多样化场景中表现出有效性（图3f、g以及补充图15-23）。

Para_05

NicheCompass 在基准测试中展示了卓越的可扩展性和效率，这得益于其内存高效的设计（补充图 24 和补充说明 11）。
Across benchmarks" 翻译为 "在基准测试中
exhibited exceptional scalability and efficiency" 翻译为 "展示了卓越的可扩展性和效率
through its memory-efficient design" 翻译为 "这得益于其内存高效的设计
Supplementary Fig. 24 and Supplementary Note 11" 翻译为 "补充图 24 和补充说明 11

NicheCompass discerns cancer niches through de novo programs

NicheCompass 通过全新程序识别癌症生态位

Para_01

我们应用NicheCompass对一个人类乳腺癌Xenium数据集进行了分析，该数据集包含有限的313个探针基因（仅占我们先前知识程序中基因的23%）。
它整合了多个组织重复样本（图4a-d），包含了11种细胞类型和27种细胞状态（图4b和补充图25a）。
嵌入聚类揭示了14个具有特定解剖定位的生态位，突出了组织结构（图4a，e）。
由于探针的限制，生态位通过最丰富的细胞类型进行注释（补充图25b），显示出免疫、上皮细胞以及上皮间质转化（EMT）状态的富集，其中Epi-FB、CD4+T和EMT-免疫生态位占据了最大的比例（分别为细胞总数的26.9%、24.9%和18.6%）。

Fig. 4: NicheCompass identifies meaningful niches and de novo programs in human breast cancer.

- 图片说明

◉ 顶部：整合两个313探针Xenium数据集后的NicheCompass嵌入空间的UMAP。◉ 底部：按识别出的生态位着色的组织复制。◉ 生态位包括FB-Epi（成纤维细胞-上皮）、CD4+T（CD4+T细胞）、EMT-Immune、Epi-Immune（上皮-免疫）、FB-EMT（成纤维细胞-EMT）、FB-Lymphoid（成纤维细胞-淋巴样）、FB-Myeloid（成纤维细胞-髓样）、FB-Endo（成纤维细胞-内皮）、Mast-Stromal（肥大细胞-基质）、EMT-Mɸ（EMT-巨噬细胞）、EMT-Endo（EMT-内皮）、Epi-Bcells（上皮-B细胞）、Stromal和Endo-Lymphoid（内皮-淋巴样）。◉ 与a相同，但按细胞类型着色。◉ DC，树突状细胞；Mɸ，巨噬细胞；NK，自然杀伤细胞。◉ 按数据源着色的UMAP，显示了成功整合及每个数据源在各个生态位中的细胞比例。◉ 乳腺癌肿瘤切除的注释苏木精和伊红染色切片。◉ 标准化活动热图，用于表征与癌症进展和病理组织学相关的程序。◉ 对于从头定义的37个（f）和86个（g）程序，程序活动和关键基因表达的展示，显示活动与基因表达之间的相关性。◉ 对于从头定义的37个（h）和86个（i）程序的基因权重的旭日图。◉ 从头定义的37个程序突出显示角蛋白基因和一个未表征的基因（C5orf46）。◉ 从头定义的86个程序揭示了一个由KRT8驱动的程序，并且与脂肪酸代谢（FASN，ABCC1）有关，ELF3作为潜在调节因子。◉ 该比例代表推断的基因权重。

Para_02

尽管探针有限，NicheCompass识别了对于理解肿瘤微环境至关重要的特定生态位程序。例如，Ptprc联合相互作用程序在CD4+T生态位中富集（图4e），与癌症预后相关74。
此外，新发现的程序揭示了高度相关的基因（图4f、g和补充图26），包括在免疫和EMT相关生态位中活性增加的两种基因（补充图25c、d），突显了它们作为病理学生物标志物和药物靶点的潜力。

Para_03

NicheCompass 识别了一个新程序（37 个基因程序；图 4f、h 和补充图 26c），包含基底标记物 KRT16、KRT14、KRT5、KRT6B 和 KRT15，所有这些都在肿瘤学研究中被提及。
KRT16 与转移有关，促进上皮间质转化和运动性，而 KRT6B 和 KRT15 分别与基底样乳腺癌和肿瘤转移相关。
另一个程序（86 个基因程序；图 4g、i 和补充图 26c）包括 MLPH、EPCAM、FOXA1、ELF3 和 KRT8，这些基因在乳腺癌病理学中起核心作用。
ELF3 激活 KRT8，驱动上皮分化和肿瘤发生，并在内分泌抵抗型雌激素受体阳性乳腺癌中与 FOXA1 相互作用。
这些发现展示了 NicheCompass 揭示新程序及其与细胞过程和已有知识联系的能力（图 4h、i）。

Para_04

NicheCompass 解剖了生态位，识别了与组织结构相关的从头程序（图 4f、g）。
例如，从头程序 37 强调了 KRT14+ 增殖性上皮肿瘤细胞与髓系细胞共存的转录特征（图 77）。
而从头程序 86 识别了一个由 EPCAM 和 KRT8 驱动的上皮-血管生态位，与癌前病变和腔内肿瘤进展相关。
这些生物标志物与基底（KRT14）和腔内（KRT8）乳腺癌细胞相关（文献 78），在 EMT-Mɸ 和 EMT-Endo 生态位中表现出高活性（补充图 25c、d）。

Para_05

总之，NicheCompass识别了与癌症相关的项目和细分领域，即使使用有限的基因面板也证明是有效的。

NicheCompass constructs a spatial lung cancer atlas

NicheCompass构建了一个空间肺癌图谱

Para_01

为了评估其识别供体特异性肿瘤微环境特征和相互作用以及其空间参照映射能力，我们将 NicheCompass 应用于完整的 NSCLC 数据集10，该数据集包括来自五名供体的八个组织切片。

Para_02

我们训练了NicheCompass来使用四个供体和两个重复项构建一个参考图谱。
嵌入聚类揭示了12个具有不同细胞组成、空间组织和基因表达的生态位（图5a、b和扩展数据图5c、e、f以及6a）。
由于它们的空间隔离（扩展数据图5g和补充图27），大多数癌细胞（92％）形成了肿瘤专属生态位（>75％的肿瘤细胞），而只有高度浸润的基质生态位如生态位6（肿瘤浸润性中性粒细胞）包含肿瘤细胞（扩展数据图5c）。
肿瘤生态位是供体特异性的，但在技术重复之间共享，证实了结果不是由技术效应驱动的（图5c和扩展数据图5d）。
虽然基质生态位依赖于供体，但当存在相似模式时，它们显示出共同的结构（图5c和扩展数据图5d），这与NSCLC患者可以根据肿瘤微环境浸润模式进行分层的研究结果一致。
从全局来看，尽管样本间存在异质性，层次聚类仍然稳健地分离了肿瘤和基质亚生态位（扩展数据图5a）。

Fig. 5: NicheCompass spatial reference mapping contextualizes new donors and reveals emergent niches.

- 图片说明

◉ UMAP嵌入的可视化，用于六个NSCLC肺癌样本（编号10），按识别出的生态位（a）、预注释的细胞类型（b）和供体或供体重复实验（c）进行着色。◉ 来自供体9和12的组织切片的空间可视化，显示了生态位、细胞类型以及CXCL1配体-受体（LR）程序活动，区分与基质组织（生态位1）或中性粒细胞（生态位3）相互作用的肿瘤生态位。◉ 按生态位和细胞类型着色的组织切片空间可视化，突出显示了供体之间的共享和供体特有的基质结构。◉ 通过微调映射查询细胞的NicheCompass空间参考的UMAP。◉ 映射查询细胞的UMAP，按预注释的细胞类型着色（g）和k-NN分类器预测的生态位标签（包括预测概率）（h）。◉ 参考和查询嵌入的联合UMAP，按重新聚类识别出的生态位着色。◉ 此外，条形图表示查询样本映射到的生态位的供体分布。◉ 查询组织（供体13）及其最相似的参考样本的空间可视化，按细胞类型（底部键）和生态位（如i所示）着色，比较新识别的生态位与参考对照。◉ 肿瘤生态位中的邻域组成（生态位1：89,814个细胞；生态位2：60,131个细胞；生态位3：39,500个细胞；生态位4：41,864个细胞；生态位5：14,516个细胞；生态位15：25,271个细胞）。◉ 每个肿瘤生态位和相邻细胞类型的箱线图代表给定细胞类型在物理上最近的25个细胞中的生态位特异性分布。◉ 仅显示平均构成超过5%且低于60%的细胞类型。◉ 查询肿瘤生态位被高亮。◉ 参考和查询嵌入的联合UMAP，按SPP1 LR和组合交互程序活性以及配体编码基因和受体编码基因的表达着色。◉ 查询样本（供体13）和参考样本（供体6）之间SPP1 LR通信强度的热图，这两个供体具有最高的巨噬细胞浸润。◉ 注：m中的参考文献编号已被移除。

Para_03

在供体9中，肿瘤细胞被划分为两个生态位：生态位1（肿瘤-基质边界）和生态位3（中性粒细胞浸润的肿瘤细胞），根据组织学图像和邻域组成进行标记（图5d、k）。
生态位3显示了CXCL1配体-受体程序的富集，这与CXCL1作为中性粒细胞趋化因子的作用一致（图5d和补充图28a）。
这突显了NicheCompass区分具有不同相互作用细胞但空间组织相似的不同生态位的能力。
值得注意的是，在供体12中，有11%的肿瘤细胞被中性粒细胞包围（补充图28b、c），这些细胞也聚集到生态位3，展示了在患者之间识别保守生态位的能力。

Para_04

基质簇通过主要免疫细胞类型和空间排列区分，例如肿瘤浸润或免疫扩张（图5b和扩展数据图5c、e以及6）。
例如，两个以中性粒细胞为主的生态位具有相似的组成，但它们结构上有所不同：生态位7（供体5）形成了一个位于肿瘤外部的大规模扩张，而生态位6（供体9和12）由较小的肿瘤浸润扩张组成（图5e）。
这证明了NicheCompass能够识别跨样本的浸润免疫细胞的能力。
当组成和空间排列一致时，共享结构，如淋巴样聚集（生态位11）被富含浆母细胞的基质（生态位9）包围，在供体5和12中得到了正确识别（图5e和扩展数据图6b）。

Para_05

总的来说，我们构建了一个空间NSCLC参考图谱，展示了NicheCompass整合异质样本、识别共享和供体特异性生态位以及揭示潜在程序的能力。

NicheCompass discovers niches by spatial reference mapping

NicheCompass 通过空间参照映射发现利基市场

Para_01

我们评估了空间参考映射，通过将一个预留的生物学重复样本（补充图29a、b）和一个新的供体样本（图5f）映射到整合的参考上来整合匹配的生态位，同时保留供体特有的变异。

Para_02

我们首先在一个参考上训练了一个k近邻（k-NN）分类器，通过该分类器将专属标签转移到查询细胞上（图5h和补充图29c）。
来自生物学重复实验（供体5）的查询细胞被正确地整合到参考中，具有高分配概率，同时保留了生物特征并去除了批次效应（批次ASW 0.97；补充图29和30a）。
在映射新供体时，标签转移区分了肿瘤微环境与富含巨噬细胞和淋巴细胞的微环境（图5g，h），
一些低概率分配表明存在新的查询微环境（补充图30a）。
联合重新聚类嵌入揭示了两个共享的富含淋巴细胞的微环境（微环境10和14）以及两个包含肿瘤细胞（微环境15）和巨噬细胞（微环境13）的新微环境（图5g，i）。

Para_03

细胞组成和共享生态位的空间分布（图5j）揭示了肿瘤浸润基质生态位之间的供体相似性，这些生态位主要由基质细胞（生态位14）或淋巴细胞（生态位10；补充图30b）主导。
相比之下，没有查询细胞映射到供体9的非浸润性基质生态位8，因为所有查询细胞都是肿瘤浸润性的（图5i，j）。

Para_04

巨噬细胞生态位13，由肿瘤浸润的巨噬细胞组成，与参考巨噬细胞丰富的生态位12紧密映射但有所不同，该参考生态位12位于肿瘤附近，主要来自供体6（鳞状细胞癌；图5i,j），反映了组织结构的不同81。
肿瘤生态位15在嵌入空间上接近巨噬细胞生态位13（图5i），基于邻域组成分析是唯一一个具有显著巨噬细胞相互作用的肿瘤生态位（图5k）。

Para_05

差异分析揭示了生态位15肿瘤细胞和生态位13巨噬细胞中SPP1配体-受体和联合相互作用程序的上调（图5l）。
SPP1特征化了一个已经确立的促纤维化巨噬细胞亚型82,83,84,85，在肿瘤微环境中驱动巨噬细胞极性86，并且是与肺癌预后不良相关的促肿瘤浸润巨噬细胞标记物87,88。
更近一步的基因表达分析确认了相对于其他巨噬细胞生态位，生态位13中SPP1及相关标记物（IFI27、CD9）83的过表达，并表现出促纤维化表型，伴有升高的细胞外基质蛋白基因表达（FN1、COL3A1、COL1A1、MMP2、MMP12、TIMP1；补充图31）84。
肿瘤生态位15也过表达了SPP1及其受体编码基因（ITGAV、ITGB1、EGFR）。
细胞间通讯分析显示查询巨噬细胞生态位中的SPP1驱动信号比参照更强，并且在巨噬细胞生态位内部以及与其他生态位之间的通讯强度更高（图5m）。

Para_06

我们的分析展示了NicheCompass检测新型生态位和特定生态位交互作用的能力，包括在空间参照映射场景中。

NicheCompass enables multimodal niche characterization

NicheCompass 支持多模态利基特征描述

Para_01

整合空间解析的表观遗传因素如染色质可及性有助于理解组织结构。
利用多模态程序，我们在一项使用空间转座酶可及染色质和RNA测序（空间ATAC-RNA测序）技术生成的小鼠脑部空间多组学数据集上训练了NicheCompass。
尽管标记检测稀疏（补充图32a），但识别出的生态位与艾伦脑图谱很好地对应（补充图32b）。
通过我们的分析流程，我们研究了主要的Calleja岛和胼胝体生态位，揭示了具有多模态足迹的有趣的转录调控程序（补充图32c-f、33和34以及补充说明12）。

Para_02

这些发现强调了染色质可及性如何有助于阐明塑造生态位身份的转录调控机制。

NicheCompass aligns millions of cells across technologies

NicheCompass 跨技术对齐数百万个细胞

Para_01

为了展示可扩展性和跨技术适用性，我们构建了全器官空间图谱。
首先，我们将NicheCompass应用于STARmap PLUS小鼠中枢神经系统数据集（约一百万个细胞）19，识别出15个在整个连续切片中对齐的生态位，并与艾伦脑图谱中的解剖区域相对应（扩展数据图7）。
然后，我们将来自239个切片的MERFISH整个小鼠大脑数据集的840万个细胞整合在一起，将匹配的大脑区域对齐到供体间空间一致的生态位中（扩展数据图8）。
最后，两种数据集的跨技术整合揭示了解剖学上一致的共享生态位（扩展数据图9）。

Para_02

这些结果突显了NicheCompass在跨个体和跨技术组装空间图谱的能力。

Discussion

Para_01

我们介绍了NicheCompass，这是一种基于图深度学习的方法，它利用细胞通讯原则来识别和定量表征组织微环境。
基准测试突显了其在微环境识别和基因程序推断方面的优越性（图3和扩展数据图3）。
其可扩展的设计支持包含数百万个细胞的数据集，并能够实现跨技术整合，用于空间图谱项目和数字病理分析（扩展数据图7–9）。
NicheCompass还通过空间参考映射促进了迭代整合（图5f–i）以及多模态微环境特征化（补充图32）。
将其应用于小鼠器官发生、成年小鼠大脑及人类癌症研究中，揭示了组织结构和特定微环境的程序，使其成为空间组学分析的一种创新工具。

Para_02

几个方面可以增强NicheCompass的工作流程。
（1）数据质量：数据集通常具有有限或不均匀的基因覆盖率。实验进展提供更高分辨率的读数可能提高性能。
（2）先验知识限制：NicheCompass依赖于不完整和嘈杂的数据库。程序修剪、稀疏性和从头程序（方法）缓解了这一限制，但数据库改进和新发现的通路可以增强其能力。
（3）基因程序限制：虽然我们的选择性基因正则化排除了编码配体和转录因子的因果效应基因，从而允许模型优先考虑它们（方法），但不能保证先前程序活动与这些基因相关，因为它们可能被目标基因表达所主导。此外，尽管程序通常由空间效应驱动，但一些程序也可以由细胞类型标记驱动，而这些标记在非空间分析中也表现出差异表达（补充图35）。同样地，从头程序可能无法识别编码结构上相互作用的蛋白质的基因（例如，配体和受体）。结合结构蛋白数据（例如，AlphaFold 2（参考文献93、94））可以提高生物相关性。最后，对于给定的程序，我们目前的方法对所有细胞使用相同的基因权重；未来扩展可能会受益于能够根据特定细胞的上下文特征调整基因对程序贡献的动态模型。
（4）点级数据：NicheCompass在点级数据上的表现较低（补充图14）。点解卷积可以增强其在广泛采用的技术如Visium中的实用性。
（5）空间参考映射：有效的映射需要全面的大规模图谱和一致的基因面板。查询中不存在于参考中的生态位可以被识别，但它们的表征取决于共享程序（扩展数据图10）。
（6）架构增强：先进的基于图的编码器（例如，图形变换器96）和其他模态（例如，组蛋白修饰和蛋白质表达）可以进一步提高生态位识别和表征的能力。

Para_03

随着空间组学数据的日益可用，我们预计NicheCompass将成为表征组织微环境的关键工具，增强我们对组织结构和对损伤及疾病反应的理解。

Methods

Para_01

本研究依赖于对先前发表的数据进行分析，并遵循了人类和小鼠样本的伦理指南。

NicheCompass model

NicheCompass 模型

Dataset

数据集

Para_01

我们定义一个空间组学数据集为 ({\mathcal{D"}}={{{\bf{x"}}{i"}},{{\bf{s"}}{i"}},{{\bf{c"}}{i"}},{{\bf{y"}}{i"}}}{i=1}^{{N"}{\text{obs"}}})，其中 ({N"}{\text{obs"}}) 是观察总数（细胞或斑点），({\bf{x"}}{i"}\in {\mathbb{R"}}^{{N"}{\text{fts"}}}) 是组学特征向量，({\bf{s"}}{i"}\in {\mathbb{R"}}^{2}) 是二维空间坐标向量，({\bf{c"}}{i"}\in {\mathbb{N"}}^{{N"}{\mathrm{cov"}}}) 是编码后的协变量向量（例如，样本或视野），({\bf{y"}}{i"}\in {\mathbb{R"}}^{{N"}{\text{lbl"}}}) 是标签向量（所有向量都是行向量）。
对于单模态数据，({\bf{x"}}{i"}) 包含原始基因表达计数，使得 ({\bf{x"}}{i"}={\bf{x"}}{i"}^{(\text{rna"})}\in {\mathbb{R"}}^{{N"}{\text{rna"}}})，其中 ({N"}_{\text{rna"}}) 是基因的数量。
对于多模态数据，(\bf{x"}}{i"}) 结合了原始基因表达计数和染色质可及性峰计数，使得 ({\bf{x"}}{i"}={\bf{x"}}_{i"}^{(\text{rna"})}{|{\bf{x"}}{i"}^{(\text{atac"})})（拼接）且 ({\bf{x"}}{i"}^{(\text{atac"})}\in {\mathbb{R"}}^{{N"}{\text{atac"}}})，其中 ({N"}{\text{atac"}}) 是峰的数量。
我们用斜体大写字母定义跨观察值的相应矩阵，例如，({X"}=[{\bf{x"}}{1})，…，({{\bf{x"}}}{{N"}{\text{obs"}}]}^{T"}\in {\mathbb{R"}}^{{N"}{\text{obs"}}\times {N"}_{\text{fts"}}})。

Neighborhood graph

邻域图

Para_01

我们使用邻域图 (\mathcal{G"}=\left(\mathcal{V"},\mathcal{E"},X,Y\right)) 来建模 (\mathcal{D"}) 的空间结构，其中每个节点 (\mathcal{v"}_i \in \mathcal{V"}) 表示一个观测值，每条边 (\left(\mathcal{v"}_i,\mathcal{v"}_j\right) \in \mathcal{E"}) 表示空间邻居，(x_i) 是节点 (\mathcal{v"}_i) 的属性向量，(y_i) 是节点 (\mathcal{v"}_i) 的标签向量。
(\mathcal{G"}) 是由样本特定的、对称的 k 近邻子图 (\mathcal{G"}1)，…，(\mathcal{G"}{N_{\text{spl"}}}) 组成的不连通图，这些子图是根据欧几里得距离确定的，其中 (N_{\text{spl"}}) 是样本的数量。
通过这种方法，我们可以适应组织中的可变观测密度，而替代方法，如固定半径邻域图，则可以用来考虑局部观测密度。
我们从 (\mathcal{G"}) 导出一个空间邻接矩阵 (A \in {0,1}^{N_{\text{obs"}} \times N_{\text{obs"}}})，其中 (A_{i,j"}=1) 如果 (\left(\mathcal{v"}_i,\mathcal{v"}j\right) \in \mathcal{E"})，否则 (A{i,j"}=0)。

Node labels

节点标签

Para_01

对于每个观察值 i，我们定义一个邻域组学特征向量 ({{{\bf{x"}}}^{{\boldsymbol{{\prime"} }}}}_{i"})：

Para_02

其中 (d"}{i"}) 表示节点度，包括自环 (({d"}{i"}={\sum }{j{\mathcal{∈}}{\mathcal{N"}}\left(i\right)∪\left{i\right}}1))。这种聚合将节点 i 的组学特征向量与其邻居 (j∈N\left(i\right)) 的特征向量结合在一起，并由图卷积归一化算子加权97。自环模型自分泌信号传导，而相邻节点捕捉旁分泌和旁分泌信号传导。节点标签定义为 ({{\bf{y"}}}{i"}={{\bf{x"}}}_{i"}{|{{{\bf{x"}}}^{{\boldsymbol{{′}}}}}_{i"})。
This aggregation combines node i’s omics feature vector with those of its neighbors (j∈N\left(i\right)), weighted by a graph convolution norm operator97.

Covariates

协变量

Para_01

协变量向量(\bf{c"}_{i"})用于建模混淆效应。
对于多样本数据集，样本ID(k_{i"})用作第一个协变量(C_{i,1}=k_{i"})。
如果可用，还会包括其他协变量（如视野和供体）来解释分层效应。
我们进一步引入了协变量向量的一次性编码表示，每个协变量(l=1)，…，(N_{\mathrm{cov"}})由一个单独的向量(\bf{c"}{i"}^{(l)} \in {0,1}^{N{\text{cat"}^{(l)}}})表示，其中(N_{\text{cat"}^{(l)}})是协变量(l)的独特类别的数量。
鉴于(\mathcal{G"})是由样本特定子图组成的，一些协变量（例如样本、供体）与连通分量相关联。
我们将此类协变量标记为纯的（(L_{\rm{p"}})），而那些在分量内部变化的协变量（例如视野）则标记为混合的（(L_{\rm{m"}})）。
我们进一步引入了一个协变量向量的一次性编码表示，每个协变量(l=1)，…，(N_{\mathrm{cov"}})由一个单独的向量(\bf{c"}{i"}^{(l)} \in {0,1}^{N{\text{cat"}^{(l)}}})表示，其中(N_{\text{cat"}^{(l)}})是协变量(l)的独特类别的数量。
鉴于(\mathcal{G"})是由样本特定子图组成的，一些协变量（例如样本、供体）与连通分量相关联。
我们将此类协变量标记为纯的（(L_{\rm{p"}})），而那些在分量内部变化的协变量（例如视野）则标记为混合的（(L_{\rm{m"}})）。

Gene programs

基因程序

Para_01

先前的程序由两个二进制程序基因矩阵 (P^{(\text{pr"},\text{rna"})})，(P^{\prime (\text{pr"},\text{rna"})}\in {0,1}^{N_{\text{pr"}}\times N_{\text{rna"}}}) 表示，其中 (N_{\text{pr"}}) 是先前程序的数量。
(P^{(\text{pr"},\text{rna"})}) 表示自组件中的基因，而 (P^{\prime (\text{pr"},\text{rna"})}) 表示邻域组件中的基因。
对于多模态数据，另外两个二进制程序峰值矩阵，(P^{(\text{pr"},\text{atac"})}) 和 (P^{\prime (\text{pr"},\text{atac"})}\in {0,1}^{N_{\text{pr"}}\times N_{\text{atac"}}})，分别捕获与自组件和邻域组件中的基因相关的峰值。
(P^{(\text{pr"},\text{rna"})}) 和 (P^{\prime (\text{pr"},\text{rna"})}) 必须通过内置数据库 API 或自定义用户输入提供给 NicheCompass。
默认情况下，(P^{(\text{pr"},\text{atac"})}) 和 (P^{\prime (\text{pr"},\text{atac"})}) 通过将重叠基因体或启动子区域（转录起始位点上游最多 2000 bp）的峰值关联起来从程序基因矩阵派生；然而，用户可以自定义这些来表示特定的调控网络。
新发现的程序由二进制矩阵 (P^{(\text{nv"},\text{rna"})})，(P^{\prime (\text{nv"},\text{rna"})}\in {0,1}^{N_{\text{nv"}}\times N_{\text{rna"}}}) 类似地定义，并且对于多模态数据，(P^{(\text{nv"},\text{atac"})}) 和 (P^{\prime (\text{nv"},\text{atac"})}\in {0,1}^{N_{\text{nv"}}\times N_{\text{atac"}}})，其中 (N_{\text{nv"}}) 是新发现程序的数量（默认为 (N_{\text{nv"}}=100)）。
在 (P^{(\text{nv"},\text{rna"})}) 和 (P^{\prime (\text{nv"},\text{rna"})}) 中，元素被设置为 1，表示未包含在先前程序的相应自组件或邻域组件中的基因。
在峰值矩阵中，元素被设置为 1，表示与基因相关的峰值。
程序的总数为 (N_{\text{gp"}}=N_{\text{pr"}}+N_{\text{nv"}})。

Default prior programs

默认优先程序

Para_01

NicheCompass 通过 API 提供带有交互数据库的默认先验程序。
对于细胞间通讯程序，配体受体相互作用从 OmniPath37 获取，代谢物传感器相互作用从 MEBOCOST38 获取。
对于转录调控程序，转录因子及其下游基因从 CollecTRI42 通过 decoupler40 获取。
对于组合相互作用程序，NicheNet 的调控潜力矩阵（V2）39 被使用，该矩阵包含配体、受体和下游靶基因。
根据 MultiNicheNet41 的建议，程序被过滤以最多包括 250 个靶基因，并按调控评分排序。
在我们的实验中，我们过滤了先验程序中的子集，如果它们共享至少 90% 的源基因和靶基因，则合并程序。
这导致了 2,925（2,904）个小鼠（人类）先验程序，包括 548（490）个配体受体程序，114（116）个代谢物传感器程序，1,286（1,225）个组合相互作用程序和 977（1,073）个转录调控程序（后者仅在多模态场景中使用）。

Model overview

模型概述

错误！！！ - 待补充

Encoder

编码器

Para_01

图编码器的第一层与隐藏大小 (N_{\text{hid"}}=N_{\text{gp"}}) 完全连接，有两个作用：在邻域聚合前从完整的组学特征向量 (\bf{x"}{i"}) 学习内部细胞或点表示，并在 (N{\text{fts"}} > N_{\text{gp"}}) 时降低 (\bf{x"}_{i"}) 的维度。
该层之后是两个并行的消息传递层，计算变分后验的均值（(\bf{\mu"}{i"})）和对数标准差（(\log (\bf{\sigma"}{i"}))）向量，其中 (\bf{\mu"}{i"}) 被提取为细胞嵌入向量 (\bf{z"}{i"})。
默认模型使用具有动态注意的图注意力层（(N_{\text{head"}}=4)）；在 NicheCompass Light 中，图卷积层取代了图注意力层（补充方法部分）。
此外，该模型为每个协变量 (l) 学习一个嵌入矩阵 (\bf{W"}^{(\text{emb"}{e"}^{(l)})} \in \mathbb{R"}^{N{\text{emb"}} \times N_{\text{cat"}}^{(l)}})，其中 (N_{\text{emb"}}) 是嵌入大小，用于从独热编码向量表示 (\bf{c"}{i"}^{(l)}) 获取嵌入向量 (\bf{e"}{i"}^{(l)})。
最终的协变量嵌入是 (\bfe"}{i"}=\bf{e"}{i"}^{(1)}|\cdots||\bf{e"{i"}^{(N{\mathrm{cov"}})} \in \mathbb{R"}^{N_{\text{emb"}}})。

Decoder

解码器

Para_01

图解码器使用节点嵌入之间的余弦相似度重建(A)，仅限于具有相同纯分类协变量的节点（例如，相同的样本）：

Para_02

公式 (\widetilde\rm{A"}}{i,,j"}=\text{余弦相似度"}\left({\bf{z"}}{i"},{\bf{z"}}{j"}\right)=\frac{{\bf{z"}}{i"}\cdot {\bf{z"}}_{j"}}{\left{\bf{z"}i"}\right\left|{\bf{z"}j"}\right) 的含义是
(\widetilde{\rm{A"}}_{i,,j"})

Para_03

Omics解码器通过估计负二项分布的均值参数({\varPhi }{i,,f"})，({\varPhi }{i,,f"}^{\prime"})来重建节点标签({{Y"}})，这些负二项分布生成omics特征(({\mathcal{N"}}{\mathcal{B"}}({\varPhi }{i,f"},{\theta }{f"})和{\mathcal{N"}}{\mathcal{B"}}({\varPhi }{i,,f"}^{\prime"}{\theta }{f"}^{\prime"})))，其中(f)是omics特征，({{X"}}^{(i)})和({{X"}}^{\prime (i)})是随机变量，({\theta }{f"})，({\theta }{f"}^{\prime"})表示逆离散参数。
它们由特定模态的单层线性解码器组成，使得每个嵌入特征(u)在({{Z"}}_{:,u"}^{(\text{pr"})})中有动力学习特定先验程序的活动。这是通过先验程序矩阵（({{{P"}}}^{(\text{pr"},{\text{rna"}})})，({{{P"}}}^{\prime (\text{pr"},{\text{rna"}})})，({{{P"}}}^{(\text{pr"},{\text{atac"}})})，({{{P"}}}^{\prime (\text{pr"},{\text{atac"}})}\）约束解码器对特定基因或峰的贡献实现的。
例如，如果({{{P"}}}{u,q"}^{(\text{pr"},{\text{rna"}})}=1)，嵌入特征({{Z"}}{:,u"})有助于重建自我成分中的基因(q)。类似逻辑适用于邻域成分和多模态特征。
({{{Z"}}}{i,u"})可以解释为观察(i)对程序(u)的表示，其中(u)的自我成分由所有满足({{{P"}}}{u,q"}^{(\text{pr"},{\text{rna"}})}=1)和({{{P"}}}{u,s"}^{(\text{pr"},{\text{atac"}})}=1)的基因(q)和峰(s)组成，而其邻域成分则由所有满足({{{P"}}}{u,r"}^{\prime (\text{pr"},{\text{rna"}})}=1)和({{{P"}}}_{u,t"}^{\prime (\text{pr"},{\text{atac"}})}=1)的基因(r)和峰(t)组成。
新程序也使用({{{P"}}}^{(\text{nv"},{\text{rna"}})})，({{{P"}}}^{(\text{nv"},{\text{atac"}})})，({{{P"}}}^{\prime (\text{nv"},{\text{rna"}})})和({{{P"}}}^{\prime (\text{nv"},{\text{atac"}})})进行掩码，使它们能够重建未包含在先前知识中的omics特征。
混淆效应通过将协变量嵌入({{\bf{e"}}}_{i"})注入到omics解码器中去除。对于观察(i)，重建的均值参数为：错误！！！ - 待补充

Neighbor sampling data loaders

邻域采样数据加载器

错误！！！ - 待补充

Program pruning

程序修剪

错误！！！ - 待补充

Program regularization

程序规范化

Para_01

为了在考虑不同功能重要性（例如，配体对通路至关重要）的情况下优先考虑计划中的关键基因，NicheCompass 使用选择性正则化。
处于先前程序中的基因被分类（配体、受体、转录因子、传感器、目标基因），并对特定类别的解码器权重应用 L1 正则化损失。
在我们的分析中，对目标基因应用了正则化。
新发现的程序可能包括数百到数千个基因，并且同样通过 L1 损失进行正则化以鼓励特异性。
如果基因表达的解码器权重被正则化为零，则相应的染色质可及性的权重也被设置为零，有效地使该程序内的那些峰值失效。

Loss function

损失函数

Para_01

损失函数由四个部分组成：（1）用于重构({{A"}})中的边的二元交叉熵损失；（2）用于重构自我成分({{{X"}}}^{(\text{rna"})})的负二项分布损失；即节点的基因表达计数；（3）用于重构邻域成分({{{X"}}}^{{\prime"}(\text{rna"})})的负二项分布损失；即节点邻域的聚合基因表达计数；以及（4）潜在变量的变分后验与标准正态先验之间的Kullback-Leibler散度。
在多模态场景中，为了重构自我（({{{X"}}}^{(\text{atac"})})）和邻域峰值计数（({{{X"}}}^{{\prime"}(\text{atac"})})），还包括了额外的负二项分布损失。
边缘重构损失的小批量公式化是：

Para_02

其中 (\widetilde{A}) 表示由余弦相似性图解码器计算出的边重构对数。
为了平衡正负边对的贡献，应用权重 (\omega {{pos}}=\frac{|{\mathcal{E}}{rec}^-||}{|{\mathcal{E}}{rec}^+||})，由于过滤了纯协变量不同的负样本对，因此 (|{\mathcal{E}}{rec}^+||\ge |{\mathcal{E}}_{rec}^-||

Para_03

模态特定组学重建损失的按小批量公式化为：

Para_04

观察层面的损失包括自我成分和邻域成分负二项损失（补充方法）：错误！！！ - 待补充

Para_06

L1 正则化损失定义为：

Para_07

让我们一步一步地思考。
and 错误！！！ - 待补充

Para_09

mini-batch 方式的 KL 散度公式包含节点级和边级组件：
使用观测级别的损失：
让我们一步一步地思考。
其中 ({{\mathbf{\upmu }}{i"}}) 和 ({{\mathbf{\upsigma }}{i"}}) 是变分后验正态分布的估计均值和标准差。
最终的小批量损失结合了所有组成部分：
λ 值表示加权因子。

Spatial reference mapping

空间参照映射

Para_01

为了将未见过的查询数据集映射到空间参考图谱上，我们使用了受建筑手术启发的权重限制微调方法95。
首先训练一个NicheCompass模型来构建参考。
在查询训练期间，除了协变量嵌入矩阵（(W^{(\text{emb"}_e^{(l)})})）外，所有权重都被冻结，从而使我们能够捕捉查询特定的变化而不会发生灾难性遗忘。
由于嵌入的指数移动平均值在查询训练期间被更新，程序可以有不同的修剪方式。

Program feature importances

程序特征重要性

Para_01

基因和峰值的重要性是通过omics解码器的学习权重来确定的。
基因表达或染色质可及性解码器权重的绝对值在自我和邻域组件中的基因或峰值上进行归一化，确保每个程序的重要性总和为1。

Program activities

项目活动

Para_01

NicheCompass 嵌入量化了细胞或斑点中的路径活性，但对符号不敏感。
为了确保正的嵌入值表示上调，嵌入根据组学解码器权重符号进行调整。
对于先前的程序，如果源基因（如果没有源基因则为目标基因）的累积权重为负，则反转嵌入。
对于从头开始的程序，如果所有基因的累积权重为负，则反转符号。
这些经过符号校正的嵌入称为程序活性。

Differential testing of program activities

程序活动的差分测试

Para_01

我们使用贝叶斯因子的对数（(\log K)）来测试感兴趣组之间的差异程序活动，这是一种P值的贝叶斯扩展。
假设({H"}{0}:{\mathbb{E"}}{a"}\left[{Z"}{u"}^{\left(a\right)}\right] > {\mathbb{E"}}{b"}\left[{Z"}{u"}^{\left(b\right)}\right])，与假设({H"}{1}:{\mathbb{E"}}{a"}\left[{Z"}{u"}^{\left(a\right)}\right]\le {\mathbb{E"}}{b"}\left[{Z"}{u"}^{\left(b\right)}\right])相对立，其中(u)是程序索引，({Z"}^{\left(a\right)})和({Z"}^{\left(b\right)})表示组(a)和比较组(b)的程序活动的随机变量。
检验统计量(\log K=\log \frac{p\left({H"}{0}\right)}{p\left({H"}{1}\right)}=\log \frac{p\left({H"}{0}\right)}{1-p\left({H"}{0}\right)})量化了对({H"}_{0})的支持证据（补充方法）。
程序(\left|\log K\right|\ge 2.3)被认为是有差异的表达，相当于强证据，相当于概率比约为(\exp \left(2.3\right)\approx 10)。

Selection of characterizing niche programs

特色节目的选择

Para_01

为了识别特征程序，我们首先进行一对一的差异对数贝叶斯因子检验，以确定富集的程序。
从中，我们根据程序活动与该程序的重要目标基因、配体编码基因和受体编码基因或酶编码基因和传感器编码基因表达之间的相关性，每种生态位选择两个程序。

Program communication potential scores

程序通信潜力得分

Para_01

为了计算源和目标通信潜力得分，我们首先将基因表达量缩放到0到1之间，以避免对高表达基因的偏差。
对于每个程序，每个成员基因的缩放表达量乘以其对应的组学解码器权重，得到每个基因在自我和邻居组件中的程序特定得分。
这些得分在每个组件内平均，然后乘以程序活动。
目标得分来源于自我组件的平均值，而源得分基于邻居组件的平均值。
负分被设置为0。

Program communication strengths

程序通信优势

错误！！！ - 待补充

Statistics and reproducibility

统计和可重复性

Datasets

数据集

Para_01

所有在此研究中使用的数据集除了模拟数据外都是之前发布的（数据可用性部分）。
没有使用统计方法来预先确定样本大小，除非明确说明，否则分析中未排除任何数据。
细胞类型标签和元数据来自原始出版物，除非另有说明。

Simulated data

模拟数据

Para_01

我们定制了SRTsim72以实现基于参考和自由模拟基因的混合，并使用加性基因表达模型将真实的空间程序活动注入生态位。
我们的版本可在。
使用STARmap小鼠大脑参考数据72，我们模拟了分布在八个具有不同细胞类型组成的生态位中的10,000个细胞和1,105个基因（补充表1和补充方法）。
为了创建spot级别版本，我们将组织分割成直径为55微米的圆形区域，从而得到1,587个spot，每个spot平均包含6.44个细胞。
基因表达计数在区域内汇总以生成spot级别的数据。

seqFISH mouse organogenesis

seqFISH小鼠器官发生

Para_01

该数据集包括来自三个8-12个脊椎阶段小鼠胚胎的六个矢状组织切片中的57,536个细胞：胚胎1中有19,451个细胞，胚胎2中有14,891个细胞，胚胎3中有23,194个细胞。
该数据集包含351个基因，原始作者通过插值生成了完整的转录组（29,452个特征）。
被原始作者标记为低质量的细胞被排除在外，最终得到52,568个细胞。
鉴于插值是在对数计数上进行的，我们计算了逆向对数归一化并将结果四舍五入以获得估计计数。
我们根据每个细胞的最大插值计数筛选基因：计数大于141（原始数据中的最大值）的基因被移除，剩下29,239个特征；从中，我们使用Moran’s I得分选择了5,000个空间变异最大的基因，该得分由squidpy.gr.spatial_autocorr()计算。
对于多样本模型，我们将样本定义为唯一的协变量，组织切片被视为单独的样本。

SlideSeqV2 mouse hippocampus dataset

SlideSeqV2小鼠海马体数据集

Para_01

该数据集包含一个冰球，其中有41,786个观测点，接近细胞分辨率，并且有4,000个基因。
鉴于数据集中包含了对数计数，我们计算了逆对数归一化并将结果四舍五入以获得原始计数。

MERFISH mouse liver dataset

MERFISH小鼠肝脏数据集

Para_01

该数据集包括 395,215 个细胞和 347 个基因。
根据 squidpy 的教程（.html），我们过滤了少于 50 个计数的细胞，剩下 367,235 个细胞。
细胞类型通过典型的 scanpy103 工作流程进行了注释，包括主成分分析（20 个成分）、k-最近邻图计算（十个邻居）、Leiden 聚类以及基于标记基因的注释，使用的标记基因来自 .1038%2Fs41421-021-00266-1/MediaObjects/41421_2021_266_MOESM1_ESM.xlsx。

NanoString CosMx human NSCLC dataset

NanoString CosMx 人类非小细胞肺癌数据集

Para_01

这个数据集包括来自五名捐赠者的八个组织切片中的 800,559 个细胞（捐赠者 6，鳞状细胞癌；其余：腺癌）。
每个切片中的细胞数量分别是：捐赠者 1，重复 1：93,206 个细胞；捐赠者 1，重复 2：93,206 个细胞；捐赠者 1，重复 3：91,691 个细胞；捐赠者 2：91,691 个细胞；捐赠者 3，重复 1：77,391 个细胞；捐赠者 3，重复 2：115,676 个细胞；捐赠者 4：66,489 个细胞；捐赠者 5：76,536 个细胞。
在每个切片中测量了 20 到 45 个视野中的 960 个基因的表达水平。
过滤掉少于 50 个计数的细胞、没有空间坐标的细胞和没有细胞类型注释的细胞后，剩余 702,199 个细胞。
对于多样本模型，定义样本、视野和捐赠者作为协变量。

Xenium human breast cancer dataset

Xenium人乳腺癌数据集

Para_01

该数据集包括两个重复中的 286,523 个细胞（重复 1，167,780；重复 2，118,752），包含 313 个基因。
过滤掉了少于十个计数或少于三个基因非零计数的细胞，剩下 282,363 个细胞。
使用典型的 scanpy103 工作流程对细胞类型和状态进行了注释，涵盖了主成分分析（50 个成分）、k-最近邻图计算（50 个邻居）、Leiden 聚类以及基于标记基因的注释。

STARmap PLUS mouse CNS dataset

STARmap PLUS小鼠中枢神经系统数据集

Para_01

该数据集包括 1,091,527 个细胞和 1,022 个基因。
保留了至少在所有样本的 10% 细胞中表达的基因。
冠状组织切片使用 STAlign104 对齐到 Allen 脑图谱71。
在模型训练中，样本被定义为一个协变量。
在消融研究中，仅使用了第一个矢状组织切片（91,246 个细胞）。

MERFISH whole mouse brain dataset

MERFISH整个小鼠大脑数据集

Para_01

这个数据集包括来自四只动物（动物1，4,167,869个细胞；动物2，1,915,592个细胞；动物3，2,081,549个细胞；动物4，215,278个细胞）的总共840万个细胞和1,122个基因。
为了进行模型训练，样本和供体被定义为协变量。
为了将此数据集与STARmap PLUS小鼠CNS数据集整合，进行了过滤处理，仅保留了432个重叠基因。

Spatial ATAC–RNA-seq mouse brain dataset

空间ATAC-RNA测序小鼠大脑数据集

Para_01

该数据集包含 9,215 个点级观察，22,914 个基因和 121,068 个峰。
少于 46 个细胞中存在的基因和峰被过滤掉了。
使用莫兰 I 空间自相关选择了前 3,000 个空间可变基因和 15,000 个峰。
使用 GENCODE 25 排除了未注释的基因，剩下 2,785 个基因。
去除了不重叠任何基因体或启动子区域的峰，剩下 3,337 个峰。

Stereo-seq mouse embryo dataset

Stereo-seq小鼠胚胎数据集

Para_01

该数据集包括 5,913 个具有确切生态位标签的空间点观察数据和 25,568 个基因。
根据莫兰 I 分数，选择了前 3,000 个空间变异基因。
使用标准的预处理工作流程计算了每个空间点的生态位一致性得分，该工作流程包括读取深度归一化、基因表达计数的对数转换、Leiden 聚类以及将聚类标签作为细胞类型的代理。

Experiments

实验

Para_01

所有实验都在 NVIDIA A100-PCIE-40 GB GPU 上进行。
由于没有进行样本组分配，本研究中无法应用盲法。
除非另有说明，聚类是使用 scanpy.tl.leiden() 计算的。

SlideSeqV2 mouse hippocampus

SlideSeqV2小鼠海马

Para_01

因此，它无法扩展数据集以包含这些缺失的人群或条件。

这一局限性凸显了加强医疗机构和研究人员之间数据共享与合作的重要性，以推动通用人工智能模型的发展。
总的来说，我们描述了一种数据高效的策略，利用生成式人工智能扩大视网膜基础模型RETFound-DE的预训练数据集，从有限的真实视网膜图像（15万张）开始。
当应用于各种眼部疾病检测任务时，RETFound-DE在眼科疾病的检测、标注和微调效率方面表现出色。
变量控制实验表明，在预训练数据集有限的情况下，生成的数据对构建RETFound-DE有积极影响。
我们的工作展示了在基础模型开发中大幅节省数据集获取成本的潜力，从而为那些因数据有限而一度不被鼓励建立基础模型的其他疾病提供了一个有效的解决方案。
Methods Datasets 数据集 Para_01 Synthetic retinal images dataset 合成视网膜图像数据集 Para_01 Datasets for downstream tasks 用于下游任务的数据集 Para_01 Image generation process 图像生成过程错误！！！ - 待补充错误！！！ - 待补充 Para_03 Model architecture and implementation 模型架构和实现 Para_01 Adaptation to downstream tasks 适应下游任务 Para_01 Explanations for fine-tuned models 微调模型的解释 Para_01 Computational resources 计算资源 Para_01 Evaluation and statistical analysis 评估与统计分析 Para_01 Reporting summary 报告摘要 Data availability Para_01 Code availability Para_01
1. RETFound-DE的代码可以在（参考文献64），一个在线交互平台可以在:12001获取。我们使用了由diffusers实现的稳定扩散（）作为骨干网络和图像生成。
2. 热图是使用GradCam（）生成的，t-SNE可视化是使用tsne-pytorch（）生成的。
3. 支持本研究结果的主要数据在论文及其补充信息中提供。
4. 预训练的数据可以通过以下链接访问：AIROGS（），Kaggle EyePACS（），DDR（），ODIR-2019（）。
5. 微调的数据可以通过以下链接访问：IDRID（），MESSIDOR-2（），APOTOS-2019（），PAPILA（），Glaucoma Fundus（.xhtml?persistentId=doi:10.7910/DVN/1YRRAC），ORIGA（），AREDS（.cgi?study_id=phs000001.v3.p1），JSIEC（），Retina（），REFUGE（），RIM-ONE-DL（），CheXpert（/），深圳医院CXR集（.html），TB胸部X射线数据库（）。
6. ,
7. 这项研究的任务表现评估依赖于成熟的分类指标，包括AUROC和AUPR、准确率、敏感性和特异性。
8. AUROC衡量了在各种概率阈值下真正例率（也称为敏感性）与假正例率之间的权衡，而AUPR衡量了精确度与召回率之间的权衡。
9. 准确率代表分类器正确预测的样本比例。
10. 高敏感性表明模型在检测真阳性病例方面的有效性，高特异性表明模型在有效排除健康样本方面的能力。
11. 对于多类分类，我们为每种疾病类别计算了AUROC和AUPR，然后取平均值得到总体AUROC和AUPR。
12. 为了确保鲁棒性和可靠性，我们使用了五个不同的随机种子训练模型，并计算了性能的均值和标准差来通过(标准差 / √5)计算标准误差。
13. 此外，我们使用1.96×标准误差建立了95%的置信区间。
14. 我们采用了双侧t检验来评估RETFound-DE和RETFound之间性能差异的统计显著性。
15. 我们也采用了置换检验来评估统计结果，如补充表9所示。
16. P值低于0.05表示存在显著差异，而P值高于0.05则表明性能相当。
17. 我们使用了8块NVIDIA Tesla A100（80 GB）GPU来对生成的和真实的视网膜图像进行预训练。
18. RETFound-DE在100万张生成的图像上训练用了5天，在15万张真实的视网膜图像上训练则用了1天。
19. 为了将RETFound微调到下游任务，我们使用了一块NVIDIA GTX 3090（24 GB）GPU。
20. 在包含1000张图像的数据集上对RETFound-DE进行50轮次的微调大约需要1小时。
21. 我们实验中的所有预训练和微调过程具有相同的计算成本。
22. 我们在实验中使用了GradCam63来生成微调后的RETFound-DE对某种眼部疾病的热图。
23. 它通过计算预测类别相对于网络中特征图的梯度，并利用这些梯度来识别对模型决策最重要的图像区域。
24. 选择了ViT-large编码器中最后一个Transformer块归一化层的特征图来生成热图。
25. 我们还使用了相同的方法将RETFound-DE适应到下游任务中。丢弃了解码器，并将输入图像发送到编码器以提取高级特征，然后通过一个多层感知机来预测疾病类别的概率。
26. 最终分类结果由具有最高概率的类别确定。计算预测标签和实际标签之间的标签平滑交叉熵损失，以调节输出分布。
27. 批量大小为32，训练周期为50。微调过程中涉及了几种数据增强技术，包括图像缩放、随机翻转（水平/垂直）、灰度处理、旋转、颜色抖动和图像归一化。
28. 在验证集上具有最高AUROC的模型权重被保存为模型检查点以供评估。
29. 我们使用了与RETFound相同的模型架构和训练过程，以便进行公平比较。该模型架构是基于视觉变换器（vision transformer）的一个特定配置，称为掩码自编码器，它由一个编码器和一个解码器组成（补充图9）。
30. 编码器是由一个大型视觉变换器（ViT-large）实现的，具有24个变换器块，而解码器则是由一个小的视觉变换器（ViT-small）实现的，具有8个变换器块。
31. 在训练过程中，输入图像被随机遮罩，遮罩比率为0.75，然后未被遮罩的补丁（补丁大小为16×16）被送入编码器以提取一个大小为1,024的高维特征向量。
32. 解码器将该特征向量作为输入来重构完整的图像，包括被遮罩的补丁。模型的训练损失仅计算于被遮罩的像素上，通过均方误差比较预测的像素值与原始图像中对应的实际像素值。
33. 模型参数初始化使用了在ImageNet-1k上预训练的权重。与RETFound在900k真实视网膜图像上预训练800个周期不同，RETFound-DE首先在约1百万个生成的视网膜图像上预训练600个周期，然后在150k个真实视网膜图像上再预训练200个周期。
34. 批量大小为1,792（8个GPU，每个GPU224），前20个周期用于学习率预热（从0到学习率1×10−4）。所有图像都被调整为256×256大小，并采用立方插值。
35. 我们在模型训练中的数据增强与掩码自编码器中的相同，包括随机裁剪并将裁剪后的补丁调整为224×224大小、随机水平翻转以及图像归一化。
36. 我们使用了稳定扩散模型作为我们的骨干来构建视网膜图像扩散模型（补充图8）。
37. 稳定扩散模型通过使用CLIP33将文本嵌入引入扩散模型作为条件来支持从文本到图像的生成。
38. 为了整合这一点，我们为每张15万张真实的视网膜图像创建了一个相应的文本标签。
39. 对于带有明确标签如青光眼的图像，文本设置为‘一张青光眼的彩色眼底摄影视网膜图像’。
40. 对于没有标签的图像，文本设置为‘一张彩色眼底摄影视网膜图像’。
41. 我们在15万对视网膜文本到图像的数据上微调了Stable Diffusion v.1.4。
42. 学习率为1 × 10−5，批量大小为4。
43. 微调迭代次数为60,000，在一块NVIDIA Tesla A100（80 GB）GPU上耗时2天。
44. 微调后，我们使用视网膜图像扩散模型进行文本到图像生成来生成视网膜图像。
45. 生成步骤如下： [ol]- (1) Text embedding. We controlled the generation of specific categories of retinal images through a text-to-image approach. The text conditions were crafted from the disease category labels of the retinal images. In the data generation process, we first converted the input text prompt ({\rm{{str}}{{prompt}}}) into tokens using a tokenizer, and then adopted the pretrained CLIP text encoder to extract text embedding (y) with a fixed dimension (77 × 768 in Stable Diffusion v.1.4). In addition, a blank prompt ({\rm{{str}}{{blank}}}) was introduced as an unconditional embedding ({y}{{\rm{uncond}}}) to generate a latent without specific condition. - (2) Sampling latent vector. In the inference phase, the input latent for U-Net should be a noise vector from a standard Gaussian distribution. Therefore, we directly sampled a vector (\bf{z}) from the standard Gaussian distribution as input, with dimensions of (B\times c\times h\times w). Here, (B) is the batch size, (c) is the number of channels, and (h) and (w) represent the height and width, respectively. In Stable Diffusion v.1.4, (c=4,,h=w=64). To simultaneously generate conditioned and unconditioned results, we duplicated the latent and input them both into U-Net. - (3) Diffusion process. Before performing the diffusion process, it is necessary to specify the diffusion steps (T) and text guidance scale ({s}{{\rm{text}}}). The diffusion process aims to gradually transform the initial random noise latent ({\bf {z}}{0}) into the target image’s latent ({\bf{z}}{T}) through (T) iterative steps. For each step (t), we sent the latent from (t-1) step and text embeddings into U-Net to estimate the denoised latent. Specifically, we obtained a text-condition latent prediction ({\bf{z}}{t}^{{\rm{text}}}) and an unconditional latent prediction ({\bf{z}}{t}^{{\rm{uncond}}}) on the basis of the input text embedding (y) and unconditional embedding ({y}{{\rm{uncond}}}), respectively. The final latent variable ({\bf{z}}{t}) in the (t) step was obtained by weighted summation of two latents with text guidance scale:
{\bf{z}}{t}={\bf{z}}{t}^{{\rm{uncond}}}+{s}{{\rm{text}}}\left({\bf{z}}{t}^{{\rm{text}}}-{\bf{z}}{t}^{{\rm{uncond}}}\right)
( 2) This process was repeated for (T) steps to produce the final latent ({\bf{z}}{T}). - (4) Image generation. The final latent ({\bf{z}}_{T}) was passed through the VAE decoder to generate a retinal image with dimensions of (B\times C\times H\times W). In Stable Diffusion v.1.4, (,C=4,,H=W=64).
1. 我们评估了模型在四个眼疾检测任务中的表现，涉及九个公共数据集。
2. Kaggle APTOS-2019（印度）、IDRID（印度）和MESSIDOR-2（法国）用于糖尿病视网膜病变分级。
3. 这些数据集中的每张图像都基于5级国际临床糖尿病视网膜病变严重程度量表进行标记，从没有糖尿病视网膜病变到增殖性糖尿病视网膜病变。
4. 对于青光眼，包括PAPILA（西班牙）、Glaucoma Fundus（韩国）和ORIGA（新加坡）。
5. ORIGA将每张图像标记为青光眼和非青光眼，而PAPILA和Glaucoma Fundus则有三个类别标签：非青光眼、早期青光眼（疑似青光眼）和晚期青光眼。
6. 对于年龄相关性黄斑变性，本研究使用了AREDS数据集。
7. AREDS包含来自4,757名参与者超过134,500张CFP，并且每张图像有4个AMD类别：非AMD、轻度、中度和晚期AMD。
8. 为了评估RETFound-DE在有限标注数据上的表现，我们随机选择了800名患者中的5,768张图像。
9. 对于多疾病分类，我们使用了JSIEC（中国）和Retina（印度）。
10. JSIEC包含1,000张图像，涵盖39种常见可转诊的眼部疾病和状况。
11. Retina的数据标签包括正常、青光眼、白内障和其他视网膜疾病。
12. 数据集的详细信息，如成像设备、国家和标签类别，在补充表4中列出。
13. 我们在使用数据时遵守了所有相关的指导原则和伦理规定。
14. 合成视网膜图像数据集主要包含912,088张图像（72%）分布在23个单一疾病类别和352,907张图像（28%）分布在17个多疾病类别，总计1,264,995张图像。
15. 单一疾病类别包括了真实视网膜图像数据集中最常见的23种疾病，包括可治疗的青光眼、糖尿病性视网膜病变、年龄相关性黄斑变性、分支视网膜静脉阻塞等。
16. 此外，一些真实数据集中的图像具有多个疾病标签。我们通过创建单一疾病类别的文本组合来合成多疾病的图像，例如‘可治疗的青光眼，轻度非增殖性糖尿病性视网膜病变’。
17. 我们在补充表2和表3中列出了每种类别的疾病类别和图像数量。
18. 我们从多个公开的数据集中收集了150,786份CFP，包括AIROGS60、Kaggle EyePACS、DDR和ODIR-2019。
19. 在这几个数据集中，有101,442张图像是来自AIROGS，这是一个包含54,274名患者用于青光眼筛查的大数据集。
20. AIROGS的年龄分布平均值为56.7，标准差为10.2。
21. 分别从Kaggle EyePACS和DDR获得了35,126张和7,218张图像用于糖尿病视网膜病变分级。
22. 来自ODIR-2019的共有7,000张图像，这是一个包含白内障、近视、糖尿病视网膜病变、AMD和青光眼的多疾病分类数据集。
23. AIROGS和Kaggle EyePACS数据集中的图像是来自美国的，而DDR和ODIR-2019则是来自中国的。
24. 这四个数据集涉及了多种成像设备，包括佳能CR1/DGi/CR2（佳能）、Optovue iCam（Optovue）、拓普康NW（拓普康）、DRS（Centervue）、蔡司和小瓦。
25. 我们在补充表1中列出了真实数据集的详细信息。
26. 在使用数据的过程中，我们遵守所有相关的指导方针和伦理规定。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-24，如有侵权请联系 cloudcommunity@tencent 删除编码程序模型数据变量

发布者：admin，转转请注明出处：http://www.yc00.com/web/1747514857a4647219.html