三维基因组: Hi
合集说明
本系列主要讲解 3D-Genome (Hi-C)
系列的分析,主要涉及三维基因组分析中的数据处理,重复性评估,Compartment/TAD/Loop 检测,差异分析等,欢迎关注!
摘要
细胞核中染色质的三维结构布局,让基因组能够实现动态调控以及根据细胞类型进行特异性转录。这种特性在不同层次上都有体现:从宏观角度看,染色体各自占据着特定的空间区域(染色体区域);在单个染色质纤维层面,它们被划分成不同的功能区域(比如拓扑关联域,TADs);还有在基因组的功能元件之间,存在着短距离的染色质相互作用(例如增强子与启动子之间的环状结构)。
基于染色体构象捕获(3 C)技术的高通量方法被广泛应用,极大地推动了我们对染色质在细胞核内组织方式的了解。尤其是 Hi-C 技术,它有望对染色质的三维相互作用进行全面的分析,因为它理论上可以检测到任何一对因靠近而连接在一起的限制性片段。
本文将介绍如何从预先计算好的 Hi-C 接触矩阵出发,在不同实验条件下对比染色质互作组的情况,如何将结果可视化,以及如何将染色质相互作用强度的变化与基因表达水平的改变联系起来。
简介
基因组的拓扑结构是表观遗传调控的最高层次,它是由基因组内部多层调控因素共同作用的结果。架构蛋白、转录因子(TFs)、转录机制的组成部分,以及组蛋白尾部的翻译后修饰和长非编码 RNA(lncRNAs)都在其中发挥协调作用。
一方面要获取基因组中储存的信息,另一方面又要保持染色质适度的压缩状态,这种矛盾导致了在 Hi-C 图谱上以拓扑关联域(TADs;)形式呈现的区域划分。当在低分辨率下观察时,这些结构在不同细胞类型中具有高度保守性。
在分辨率更高时,可以看到它们是由一些更小、更活跃的亚单位构成的,这些亚单位的形成主要受到组蛋白修饰组合以及染色质上蛋白质相互作用的影响,有时甚至会引发相分离。在 TADs 内部,基因组位点之间的相互作用强度会因细胞类型不同而有所差异,即便在同一种细胞中,也会因为外界刺激不同而改变,这样就能让调控元素更靠近它们的目标基因。所以,研究染色质结构在不同情况下的变化,是找出基因表达核心调控因素的关键。
染色质结构变化的影响越来越受到学术界的关注,相关研究覆盖了发育时的形状改变、细胞跨分化、重编程以及疾病状态等多个领域。与此同时,技术上的进步提高了数据分辨率,大大推动了人们对这类实验的兴趣。因此,当前一个迫切的任务是,把数据分析的基本原理传递给越来越多使用这项技术的人。
数据分析
Hi-C 数据分析包含一系列步骤,可以分成两大类:(1) 数据预处理,包括将数据比对到限制性片段上、剔除不需要的信息(比如相邻片段间的接触)或未被消化的片段对、分箱(也就是把相邻片段的读数对归纳到固定大小的基因组窗口里,这些窗口叫 bins)、生成接触矩阵,再通过归一化来修正技术和实验中产生的偏差;(2) 下游分析,涵盖的内容很广,从利用 Hi-C 数据辅助基因组组装,到分析染色质分区、识别 TADs 和染色质相互作用(比如启动子和增强子之间的接触),再到比较不同条件下的相互作用差异。目前大多数方法要么专注于预处理步骤,要么专门处理某些特定的下游分析。
本文主要讨论已发表的差异 Hi-C 数据分析方法,这些方法的目标是检测单个染色质接触的相互作用强度变化。因此,会简单概述 Hi-C 数据的预处理步骤,然后把重点放在分析预先计算好的 Hi-C 矩阵上。
Juicer 是一款命令行工具,功能上与 HiC-Pro 一致,但它采用了 BWA作为对齐方法,因此更适合处理读长较长(比如超过 75 bp)的数据集,这些数据更容易出现嵌合情况。它的输出是 .hic 文件,这种文件是高度压缩的二进制格式,可以保存不同分辨率的数据分段,访问起来很方便,还支持多种数据标准化方式。
未完待续,详细分析教程下期见!
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-24,如有侵权请联系 cloudcommunity@tencent 删除压缩命令行工具数据分析编码数据发布者:admin,转转请注明出处:http://www.yc00.com/web/1747515725a4647269.html
评论列表(0条)