2024年4月26日发(作者:戴尔所有笔记本型号)
基因组测序技术及其应用研究进展
李国治;邓卫东
【摘 要】基因组测序技术从第1代Sanger测序经第2代高通量测序已发展到第
3代单分子测序,第2代高通量测序技术是当前基因组测序中最主要的分析技术.对
高通量测序技术在全基因组de novo测序、全基因组重测序、简化基因组测序、
宏基因组测序分析和表观基因组学研究等领域的应用原理、步骤及现状进行综述,
以为基因组测序技术的应用提参考.
【期刊名称】《安徽农业科学》
【年(卷),期】2018(046)022
【总页数】4页(P20-22,25)
【关键词】高通量测序;全基因组重测序;宏基因组测序;表观基因组学
【作 者】李国治;邓卫东
【作者单位】云南农业大学,云南昆明650201;云南农业大学,云南昆明650201
【正文语种】中 文
【中图分类】Q75
以Sanger测序为代表的第1代测序技术读长达1 000 bp,准确率高达99.99%,
可靠性高。但由于其依赖于酶和电泳分离技术,导致测序成本高,分析速度慢。
Roche/454焦磷酸测序、Illumina/Solexa聚合酶合成测序、ABI/SOLiD连接酶
测序和Ion PGM半导体芯片测序是第2代测序技术的4种主流测序方法,其突出
特点是单次运行(run)产出序列数据量大,故这4种测序方法被统称为高通量测序
技术。因测序原理各异,4种测序方法的数据产量、数据质量和运行成本也不相同。
Roche/454测序读长(600~1 000 bp)最长,通量(0.5~1.0 Gb/run)最低;
Illumina/Solexa测序读长(100 bp)较短,通量(600Gb/run)较大;ABI/SOLiD测
序读长(50 bp)最短,创新应用双碱基编码,降低测序错误率,其原理与重测序相
似,对于具有高质量参考基因组序列物种的重测序特别适用;Ion PGM测序基于
半导体芯片技术,无需激光、照相机或标记等技术,成本不到普通测序的10%[1]。
并行单分子合成测序、单分子实时合成测序、纳米孔单分子测序、基于荧光共振能
量传递测序、半导体测序等单分子测序方法属于第3代测序技术,以边合成边测
序(SBS)技术为基本原理,无需PCR扩增,简化文库构建,与第2代测序技术相比,
读长更长,后续拼接工作更为简单,可对未知基因组测序,但错误率仍较高,因采
用水解法,不能重复测序[2-4]。上述3代测序技术各有优缺点,已被广泛应用于
全基因组de novo测序、全基因组重测序、简化基因组测序、宏基因组测序分析
和表观基因组学研究等方面。该研究重点对这3种测序技术在基因组DNA水平研
究中的具体应用进行综述。
1 全基因组de novo测序
全基因组de novo测序不参考任何已有的DNA序列信息,直接测序某物种的基
因组,因此被称为从头测序。从头测序技术首先获取某物种基因组DNA样品,检
测样品质量,评估基因组特征,构建梯度插入片段文库上机测序,采用生物信息学
分析手段将测序产生的海量DNA序列片段(reads)进行排序、拼接,从而组装出
该物种完整的基因组DNA序列图谱。
全基因组de novo测序生物信息学分析可获得基因组拼装信息:原始数据、测序
覆盖率、Contig N50、Scaffold N50、GC含量等;基因组注释:基因预测、功
能注释(与Interpro、Swiss-Prot、NR等同源比对)、重复序列分析及Non-
coding RNA注释等;基因功能分类:GO分类、KEGG通路等;比较基因组学研
究:对相近物种基因组数据进行比较,从功能、结构、进化等方面分析目标基因组;
构建数据库:按照国际标准建立具有良好兼容性的基因组数据库,实现基因数据查
询与共享。
从头测序组装物种基因组图谱是通过识别不同reads间的重叠区域(overlap),确
定其相对位置顺序,把多条较短的reads序列片段拼接成较长的contigs,进一步
构建mate-pair或paired-end文库,选择大片段测序获取两端reads序列,通
过两端reads序列确定contigs间的相对位置,按照contigs间的位置关系拼接
成scaffolds,最后填补空缺序列(gaps)获得物种全基因组DNA序列。基因组从
头拼接组装常用软件有:Velvet、SOAPdenovo、ABySS和CLC Genomic
Workbench等[5]。Velvet是EMBL-EBI开发的一款在linux系统下运行的拼接
软件,是目前广泛使用的拼接短reads(25-500bp)的首选工具,不足之处是无法
同时利用多个CPU进行拼接[6]。SOAPdenovo由华大基因开发,在linux系统
下采用一种新型短read拼接方法对大型动植物、细菌和真菌基因组进行从头拼接。
ABySS用于大型基因组从头拼接,在C++环境中运行,优点在于可以同时执行多
项拼接任务。CLC Genomic Workbench由丹麦Aarhus公司研发的一种综合性
跨平台拼接软件,在windows/macosx/linux操作系统下可分析来自Illumina、
SOLiD、454、HeliScope等多个平台的基因组数据。
ICGSC完成一只雌性近交系红色原鸡全基因组de novo测序拼接组装,构建了其
完整基因组序列图谱,含有1.05 Gb碱基对,contigs N50为36 kb,覆盖率为
98%,碱基替代率为0.02%[7]。Li等[8]运用Solexa聚合酶合成测序技术完成熊
猫全基因组de novo测序,获得其2.4 Gb基因组序列图谱,研究结果表明熊猫
与狗的遗传关系最近,熊猫TIR1基因失活导致感受不到肉的鲜美,所以熊猫不吃
肉。Wang等[9]对一只雌性藏鸡de novo测序,绘制出藏鸡基因组序列图谱,采
用比较基因组学和群体基因组学分析方法揭示了藏鸡高原适应性的分子机制,钙离
子通路在藏鸡高原适应中扮演着重要作用。Li等[10]运用de novo组装策略获得
中国和欧洲10个代表性猪种高质量基因组序列,共鉴定出8.86~15.95 Mb单核
苷酸多态(SNP)、15.99~23.07 Mb插入变异和3.61~5.63 Mb缺失变异,中国
猪种遗传多样性明显高于欧洲猪种;还鉴定出参考基因组中缺失的137.02 Mb序
列,包含1 737个蛋白编码基因,其中有74个基因与肌肉生长和脂肪沉积相关,
76个基因与免疫调控相关,研究结果为猪肉产量和抗病性等生产性能分子遗传学
研究奠定了重要基础。
2 全基因组重测序
对已有参考基因组序列的物种进行个体或群体全基因组测序称为全基因组重测序。
全基因组重测序结果与已有参考基因组序列进行比对,检测出全基因组范围的单核
苷酸多态(SNP)、插入缺失突变(InDel)、拷贝数变异(CNV)和机构变异(SV)等变异
信息,获得个体或群体分子遗传特征,进行动物重要经济性状候选基因预测及遗传
进化分析,广泛应用于遗传变异检测、性状基因定位、遗传图谱构建和遗传进化研
究。
全基因组重测序数据分析最关键的一步在于序列比对(mapping),将重测序所得的
reads序列与已有的参考基因组序列进行相似性比较,比对过程一般按两步进行:
首先归类整理reads数据或参考基因组序列,然后用适当算法比对和定位reads
序列。用于序列比对的软件有很多种,如2008年推出的SeqMap、Soap、
Zoom、MAQ、RMAP,2009年推出的SOAP2、SHRiMP、BOAT、BFAST、
MOM、BWA、MapNext、Bowtie,2010年推出了BWA-SW,各种软件处理
数据的方法、重点和能力不同,选择合适比对软件的主要依据是产生分析数据的测
序平台,能处理多个平台产生的数据的软件有较好的实用性和应用前景。目前,多
数比对软件只处理一个测序平台产生的数据,只有MAQ、SHRiMP、BFAST、
BWA等软件通过转换格式可以处理2个测序平台产生的数据。
Li等[11]对48份家猪样本(6个藏猪群体、5个四川猪种)进行全基因组重测序(深
度131×),与55个欧亚野猪和家猪基因组数据比对分析,检测出低氧适应、能量
代谢等268个基因位点,揭示藏猪高原低氧适应的遗传基础;比较基因组学研究
发现,早在690万年前藏猪和家猪祖先开始分化,早于牦牛和家牛(490万年前)以
及人类和黑猩猩(500万~700万年前)的分化时间;遗传对比分析野生种和驯养种
表明,人工选择比自然选择更能改变驯养动物基因组;欧亚猪种明显的遗传背景差
异证明地理隔离导致的遗传差异比野生种与驯化种的差异大。Daetwyler等[12]对
2头奶牛和232头公牛(其中荷兰种129头、德国种43头、泽西种15头)开展全
基因组重测序(深度8.3×),共检测出28.3万个变异位点,平均每1000个碱基上
含有1.44个杂合位点;鉴定出了与胚胎死亡、骨骼畸形、卷毛以及产奶等性状连
锁的基因,并分析出胚胎死亡与牛繁殖力降低显著相关;该项研究成果为提高牛产
肉量和产奶量奠定了科学基础。Yi等[13]对12只不同品种的鸡进行全基因组重测
序,共检测出8 840个CNVs区域,片段大小从1.1~268.8 kb不等,平均长度
11.1 kb,覆盖98.2 Mb碱基,占全基因组的9.4%;共分析出2 214个CNVs与
2 216个RefSeq功能基因相关;在CNVs覆盖区域发现了与疾病易感性和抗病性
相关的FZD6L基因和IMS1基因。
3 简化基因组测序
简化基因组测序(Reduced Representation Genome Sequencing)能大幅降低基
因组的复杂度,显著降低测序成本,快速鉴定高密度SNP位点,常用于遗传变异
检测、高密度遗传图谱构建、重要性状候选基因定位和群体遗传进化分析。常用于
动物基因组研究的简化基因组测序技术主要有简化代表文库测序(Reduced-
Representation Libraries sequencing,RRLs)和限制性酶切位点关联DNA测序
(Restriction-site-Associated DNA sequencing,RAD-seq)。
RRLs将某群体中不同个体DNA样本混合,选择特异内切酶消化基因组DNA,回
收特定长度的酶切片段,作为全基因组序列的简化代表性文库用于高通量测序,将
测序片段与参考基因组序列比对,或拼接组装测序片段相互比对,快速检测SNPs。
RAD-seq利用限制性内切酶消化目标基因组DNA,在酶切基因组片段两端加上
P1接头,打断加有P1接头的片段,选择特定长度的片段加上P2接头,PCR扩
增富集既有P1接头又有P2接头的DNA tags,并进行高通量测序比对,对有无
参考基因组的物种进行SNPs的快速开发和基因分型。
Van等[14]利用HaeⅢ酶切3个品种66头牛基因组混合样构建RRLs文库,经
Illumina Genome Analyzer 测序5000万条,检测到62042个候选SNPs,对其
中23357个随机SNPs进行基因分型验证,准确率达到92%。Kerstens等[15]利
用Sau 3A消化2个品系6只火鸡基因组混合样建立RRLs文库,经高通量测序和
数据分析,鉴定出1.1万个SNPs,基因分型验证其中340个代表性SNPs,准确
率达到95%,证明RRLs技术在未知基因组序列的情况下可有效开发SNPs。
Baird等[16]利用SbfⅠ分别消化96条F2代和亲本三刺鱼基因组,通过RAD-
seq技术测序分析,检测出1.3万个SNPs,定位到弱骨盆结构刺退化和体侧骨板
缺失等性状的基因位点。李勇等[17]采用RAD-seq技术对618头母猪基因组测序
并进行遗传分型,获得79 725个SNPs,在未知验证群表型值的情况下分析最佳
线性无偏预测(best linear unbiased prediction,BLUP)、基因组BLUP、一步基
因组BLUP预测育种值的准确性和偏向性,结果表明基于RAD-seq的基因组选择
法能有效预测种猪繁殖性状的育种值。
4 宏基因组测序分析
宏基因组是指生态环境中全部微生物基因组的总和,宏基因组学以基因组学技术为
基础,研究环境中微生物的多样性、种群关系、功能关系及与环境间的关系,无需
人工培养微生物,直接提取环境中微生物混合基因组DNA并测序,从群落水平上
解析微生物活动,挖掘微生物新资源。
全基因组测序分析和16S rDNA测序分析是宏基因组学研究的2个主要策略,分
别以环境样品中全部DNA序列和16S rDNA序列为研究对象。2种测序分析策略
直接提取环境样品中全部基因组DNA,全基因组测序分析经酶切或超声波打断
DNA,16S rDNA测序分析经16S rDNA可变区PCR扩增,建立质粒文库并测序,
去噪处理测序数据;全基因组测序分析拼装去噪序列并进行基因预测,利用比对和
数据库搜索分析方法对预测基因进行功能注释和分类注释;16S rDNA测序分析聚
类分析去噪序列,生成操作分类单元,开展多样性和系统发育树构建等后续分析。
Parmar等[18]对饲喂青草、干草的水牛瘤胃微生物进行宏基因组测序分析发现,
门水平上拟杆菌最多,属水平上普氏菌最多;食糜中厚壁菌和拟杆菌占比高于胃液;
饲喂干草的水牛瘤胃食糜中拟杆菌数量随着日粮中粗饲料含量的增加显著升高,梭
菌数量也显著增加;饲喂青草、干草的牛瘤胃液中糖苷水解酶水平随着日粮中纤维
素含量的增加而升高。Singh等[19]对不同饲料转化率肉鸡粪便中微生物菌群进行
宏基因测序比对发现,细菌比率高达95%以上,真核生物比率达2%以上,古菌
和病毒比率分别在0.2%以上;在门水平上,高、低饲料转化率肉鸡粪便样品中变
形菌、厚壁菌和拟杆菌比率分别为52.04%和78.83%、27.53%和11.97%、
17.53%和7.10%。Larsbrink等[20]对奶牛瘤胃微生物进行宏基因组测序,共鉴
定出27 755个碳水化合物水解酶类候选基因,此类候选基因可编译出90种蛋白,
其中57%蛋白通过酶促作用激活抗纤维素底物相关酶类。
5 表观基因组学研究
基因组DNA序列无变化,但有基因表达和性状发生可遗传的变异,这种现象称为
表观遗传。表观遗传学研究采用高通量测序技术及相应的研究方法进行基因表达调
控机制研究,DNA甲基化、组蛋白修饰是表观遗传学研究的2个重要领域。
DNA甲基化表观遗传学研究主要采用全基因组重亚硫酸氢盐测序(全基因组
Bisulfite测序)和甲基化DNA免疫共沉淀测序(MeDIP-Seq)。全基因组Bisulfite
测序对预处理的DNA进行巢式PCR扩增,采用琼脂糖凝胶电泳检测盒单克隆测
序扩增产物,准确获得全基因组甲基化水平数据,被认为DNA甲基化检测的“金
标准”,适用于构建全基因组DNA单碱基分辨率甲基化图谱。MeDIP-Seq特异
性识别5-甲基胞嘧啶抗体,富集全基因组DNA甲基化片段,对CpG岛富集的甲
基化区域进行高通量测序,比较不同组织细胞DNA甲基化的差异,广泛应用于分
子标记育种和遗传疾病诊断。组蛋白修饰表观遗传学研究主要集中在甲基化、乙酰
化修饰,染色质免疫沉淀结合高通量测序技术(ChIP-Seq),研究蛋白质与DNA相
互作用关系,在全基因组范围高效而准确地筛选和鉴定蛋白结合位点。
Lister等[21]采用全基因组Bisulfite测序技术构建人类基因组甲基化图谱,为人类
遗传疾病的研究奠定了坚实基础。张小丽[22]采用MeDIP-Seq技术构建3头210
日龄长白母猪DNA文库,获取高度匹配的32.91Gb DNA序列,鉴定出不同组织
中甲基化差异区域(DMRs),外显子区域DMRs内CpG的比率显著高于启动子、
内含子、转录起始位点上游2 kb等区域,证明启动子区域的甲基化能调控基因表
达,该研究为深入解析动物不同组织脂肪功能提供了表观遗传基础数据。Sun等
[23]采用ChIP-Seq技术研究小白鼠组织中的RNA Pol-Ⅱ 启动子,检测到38
639个Pol-Ⅱ 启动子,有12 270个新启动子,识别不同组织中注释基因的Pol-
Ⅱ 启动子,发现37%编码基因受选择性启动子调控。
参考文献
科技论文写作规范——讨论
着重于研究中新的发现和重要方面,以及从中得出的结论。不必重复在结果中已评
述过的资料,也不要用模棱两可的语言,或随意扩大范围,讨论与文中无多大关联
的内容。
【相关文献】
[1] HARISMENDY O,NG P C,STRAUSBERG R L,et tion of next generation
sequencing platforms for population targeted sequencing studies[J].Genome Biol,2009,
10(3):1-13.
[2] DERRINGTON I M,BUTLER T Z,COLLINS M D,et re DNA sequencing with
MspA[J].Proc Natl Acad Sci USA,2010,107(37):6060-6065.
[3] LUAN B Q,PENG H B,POLONSKY S,et -By-Base ratcheting of single stranded
DNA through a solid-state nanopore[J].Phys Rev Lett,2010,104:238103.
[4] EID J,FEHR A,GRAY J,et -time DNA sequencing from single polymerase
molecules[J].Science,2009,323:133-138.
[5] 朱大强,李存,陈斌,等.四种常用高通量测序拼接软件的应用比较[J].生物信息学,2011,
9(2):106-112.
[6] ZERBINO D R,BIMEY :Algorithms for de novo short read assembly using de
Bruijn graphs[J].Genome Res,2008,18(5):821-829.
[7] International Chicken Genome Sequencing ce and comparative
analysis of the chicken genome provide unique perspectives on vertebrate
evolution[J].Nature,2004,432(7018):695-716.
[8] LI R Q,FAN W,TIAN G,et sequence and de novo assembly of the giant
panda genome[J].Nature,2010,463(7279):311-317.
[9] WANG M S,LI Y,PENG M S,et c analyses reveal potential independent
adaptation to high altitude in tibetan chickens[J].Molecular biology and evolution,2015,
32(7):1880-1889.
[10] LI M Z,CHEN L,TIAN S L,et hensive variation discovery and recovery of
missing sequence in the pig genome using multiple de novo assemblies[J].Genome
research,2017,27(5):865-874.
[11] LI M Z,TIAN S L,JIN L,et analyse identify distinct patterns of selection
in domesticated pigs and Tibetan wild boars[J].Nat Genet,2013,45(12):1431-1438.
[12] DAETWYLER H D,CAPITAN A,PAUSCH H,et -genome sequencing of 234
bulls facilitates mapping of monogenic and complex traits in cattle[J].Nat Genet,2014,
46(8):858-865.
[13] YI G Q,QU L J,LIU J F,et -wide patterns of copy number variation in the
diversified chicken genomes using next-generation sequencing[J].BMC Genomics,2014,
15(1):1-16.
[14] VAN TASSELL C P,SMITH T P L,MATUKUMALLI L K,et discovery and allele
frequency estimation by deep sequencing of reduced representation libraries[J].Nature
methods,2008,5(3):247-252.
[15] KERSTENS H H D,CROOIJMANS R P M A,VEENENDAAL A,et scale single
nucleotide polymorphism discovery in unsequenced genomes using second generation
high throughput sequencing technology:Applied to turkey[J].BMC Genomics,2009,
10(1):1-11.
[16] BAIRD N A,ETTER P D,ATWOOD T S,et SNP discovery and genetic
mapping using sequenced RAD markers[J].PLoS One,2008,10(3):3376.
[17] 李勇,苗泽圃,蒙小云,等.RAD-seq技术在大白猪繁殖性状基因组选择上的应用[J].农业生物
技术学报,2017,25(9):1508-1515.
[18] PARMAR N R,SOLANKI J V,PATEL A B,et nome of Mehsani buffalo
rumen microbiota:An assessment of variation in feed-dependent phylogenetic and
functional classification[J].J Mol Microbiol Biotechnol,2014,24(4):249-261.
[19] SINGH K M,SHAH T M,REDDY B,et mic and gene-centric metagenomics
of the fecal microbiome of low and high feed conversion ratio(FCR)broilers[J].J Appl Genet,
2014,55(1):145-154.
[20] LARSBRINK J,ROGERS T E,HEMSWORTH G R,et al.A discrete genetic locus confers
xyloglucan metabolism in select human gut Bacteroidetes[J].Nature,2014,506(7489):
498-502.
[21] LISTER R,ECKER J g the fifth base:Genome-wide sequencing of cytosine
methylation[J].Genome Res,2009,19(6):959-966.
[22] 张小丽.猪背部浅层和背部深层脂肪组织全基因组甲基化研究[D].雅安:四川农业大学,2013.
[23] SUN H,WU J J,WICKRAMASINGHE P,et -wide mapping of RNA Pol-Ⅱ
promoter usage in mouse tissues by ChIP-Seq[J].Nucleic Acids Res,2011,39(1):190-
201.
发布者:admin,转转请注明出处:http://www.yc00.com/num/1714096946a2380545.html
评论列表(0条)