2024年5月2日发(作者:电脑开机出现英文字母开不了机)
生物信息学总结
生物
信息学总结
篇一:
生物
信息学小结
1
. 什么是(基因)生
物信息学? 目前一般
意义的生物信息学是
基
因层次的 它是一个包
含着基因组信息的获取
、处理、存储、分配
、
分析和解释的所有方
面学科领域。 生物信
息学是把基因组DNA
序列
信息分析作为源头
,破译隐藏在DNA序
列中的遗传语言,特别
是非编
码区的实质;同
时在发现了新基因信息
之后进行蛋白质空间结
构模拟
和预测。 他是
近年来发展并完善起来
的交叉学科。这门学科
是综合
运用生物学、数
学、物理学、信息科学
以及计算机科学等诸多
学科的
理论方法的崭新
交叉学科。 生物信息
学已成为整个生命科学
发展的
重要组成部分,成为生命科学研究的前
沿。 基因组信息 蛋
白质的结
构模拟 药物
设计 它们是生物信息
学的三个重要组成部分
,生物信息
学目前已在
理论生物学领域占有了
核心地位,它广泛地应
用在生物、
医药、农业
、环境等学科。
2. 广义
生物信息学主要包括哪
几个方面? 广义生物
信息学主要包
括如下几
个方面:
一、生物的遗传信息
DNA―RNA―蛋
白质,遗传信息—转录
—翻译,
遗传信息生物
信息学。
二、
生命活动的调控 基因
的功能、表达和调控(
表观遗传学)。蛋
白的
结构、功能和调控;细
胞活动(分化、发育、
衰老、死亡)的调
控,
器官、系统、整体活动
的调控;节律、生物钟
、分蘖、生长、开
花、
结果、营养的吸收、传
输、转化、对外界信号
的反应:
含羞
草、抗逆性。
三、生物电磁学与电磁
生物学 生物电磁学:
生命活体在不
同层次(电子、离子、
原子、基因、细胞、组
织、
整体等)的活动和
不同属性(包括思维、
精神)活动时以及和外
界环
境(生命体周围直
至宇宙)相互作用时反
映出来的各种电磁信息
。人
体的电磁辐射(包
括发光):
频
率、强度、频谱。人体
信号的调制方式:
调幅、调频、编码
。 电磁生物学:
电磁辐射对生物体
的影响,电磁场导致D
NA突变,体内细胞电
离、
极化状态变化导致
疾病。
四、视
觉系统与光信息处理
视网膜神经元回路与信
息处理、彩色
视觉及彩
色图像的编码、变换机
制、眼动成象机制及宽
视场、消色差
动态成象
系统、视觉认知机制及
其图像信息的智能模式
识别、不同状
态立体视
觉机制和静态、动态立
体视锐度。
五
、脑和神经系统与信息
脑的感知觉信息处理
原理及其应用,学
习、
记忆、思维,逻辑思维
和形象思维,思维模型
与信息处理系统新
原理
的研究,新的计算模型
、新型计算机、 如:
神经计算机。
六、生物体结
构与微光机电系统 D
NA驱动的微细机器人
,生物大
分子到细胞基
本结构体系的自组装、自组织,创造新物质的
分子工程
学研究,分子
聚集体的化学。 纳米
生物技术将纳米技术和
生物技术
相集成,在生
物医学、电子学、材料
学、环境科学等诸多领
域具有良
好的应用前景
。在生物芯片、分子马
达、生物探针、纳米生
物材料等
迅速发展 。
七、基因芯片、蛋白
质芯片等 目前一般意
义的生物信
息学是基因
层次的,是近年来发展
并完善起来的交叉学科
。 这门学
科是综合运
用生物学、数学、物理
学、信息科学以及计算
机科学等诸
多学科的理
论方法的崭新交叉学科
。
3.Int
ernet有哪些基本
功能? Intern
et不仅向其用户提供
了全
球范围的信息交流
与快速通讯手段,其本
身也具有极其丰富的信
息资
源,包括新闻、书
刊杂志、数据库、计算
机软件、多媒体资料等
,也
包括大量的生物信
息学资源。
4
.什么是Entrez
?Entrez主要包
括哪几个数据库? E
ntrez
(.ncb
.
gv/entraz)
是美国国立医学图书馆
国家生物技术
信息中心
(Natinal C
enter fr B
itechnlgy
Infrmatin,
NCBI)建立
的生
物医学数据库集成检索
系统。系统中的数据库
包括核酸序列数据
库、
蛋白质序列数据库、大
分子三维结构数据库、
全部基因组、孟德
尔人
类遗传及通过PubM
ed检索的MEDLI
NE。Entrez集
成系统的最大
特点是通
过任何一个数据库检索
出的信息可直接链接到
Entrez其它
数据
库并找到相关的检索结
果。
5.Pu
bMed的一般检索方
法有几种检索途径?
通过NCBI首页
(.
.n
/)或NC
BI的Entrez检
索系统
(.ncbi.
/Entrez/)选
择PubMed链接选
项或直接在浏览
器地址
栏 (URL)中输
入
“.
./en
trez/query
.fcgidb=Pu
bMed”即可进
入
PubMed检索界面
。PubMed有多种
检索途径,包括自由词
、文献作
者、规范主题
词(MeSH)、期刊
名称、文献出版年代、
文献类型、文
献语种、
物质名称、记录入档日
期、文献出版日期等。
既可以单一字
段检索,
又可以利用高级布尔逻
辑表达式多字段组配检
索。 6.国际
上三大
DNA数据库是什么数
据库? , 国际三大
DNA数据库:
NCBI的GenB
ank ,欧洲分子生
物学实验室(Eurp
ean Mlecul
ar
Bilgy L
abratry, E
MBL)、日本DNA
数据库(DNA Da
ta Bank f
Japan,
DDBJ
) 7.简述进行基因
搜索时的基本步骤 ?
在进行基因搜索时的
基本步骤:
1、寻找DNA
序列中基因不可能出现
的区域,并将此遮蔽起
来。
2、在启
动子区寻找一致的模式
,找出转录因子识别D
NA结合区域。
3、寻找转录的起始
密码、终止密码和剪切
位点。
4、找
出编码区。然后将全部
收集到的信息汇总整理
成总体上尽可
能连贯的
谱图。 注意进行不同
的分析时使用不同的软
件工具以及程
序适用的
物种选择和应用范围等
。 8.BLAST的
主要功能都包括什
么
?
1、核酸数
据库搜索 组合基因组
检索;分为标准的核酸
与核酸数据
库搜索;M
EGABLAST提供
大量长序列的比较;完
全匹配的短序列搜索;
特殊搜索。
2
、蛋白数据库搜索 分
为标准的蛋白与蛋白数
据库搜索;PSI-a
nd
PHI-BLA
ST,其中PSI用于
搜索证实远源进化关系
的存在与否和进一
步获
取这个蛋白家族中的功
能信息,而PHI用于
搜索蛋白基序;同样
包
括蛋白的完全匹配的短
序列搜索。
3
、已翻译蛋白的BLA
ST搜索 包括[bl
astx],[tbl
astn],[tbl
astx]
4
、保守区域的搜索:
主要使用
RPS
-BLAST程序完成
。
5、配对序
列的两两比较:
用于核酸和蛋白的两
两比较分析。
6、针对特定数据库的
搜索:
比如人
类基因组、微生物基因
组等。 9.利用核酸
序列进行基因
结构预测
的基本步骤是什么?(
不确定) 一个全面的
基因搜索方案,
无论是
通过单个集成的程序实
现,还是通过多个程序
分步实现,基本
的思路
是相同的:
1、通常如果一
个序列中某一区域出现
重复序列,该区域不大
可能
处于调控区域和编
码区域。
2、
如果某一片段与其它基
因或基因产物有序列相
似性,该片段是
外显子
的可能性极大。
3、一段序列上存在
着统计的规则性,表现
为显著的“密码子偏好
”,
是蛋白编码区最明
显的标志之一。
4、与模板模式相符
可能指出DNA上功能
性位点的位置。这类分
析
可以基于很简单的模
式(例如,众所周知的
“TATA bx”和
剪接点的
保守序列)或
基于相当复杂的推理(
例如,在后面将提到的
启动子搜
寻算法中)。
10.根据蛋白质的
氨基酸序列预测其空间
结构主要预测
方法有哪
两类? 预测方法主要
有两类:
一、采用分
子力学、分子动力学的
方法,根据物理化学的
基本原理,
从理论上预
测蛋白质分子的空间结
构。
二、通过
对已知空间结构的蛋白
质进行分析,找出一级
结构与空间
结构的关系
,总结出规律,用于新
的蛋白质空间结构的预
测。本章介
绍利用分析
蛋白质氨基酸的组成来
确认未知蛋白的计算工
具、蛋白翻
译后修饰、
蛋白功能预测。 组成
蛋白质的氨基酸序列为
蛋白质的一
级结构,蛋
白质的一级结构决定了
蛋白质的性质。组成蛋
白质的氨基
酸的物理和
化学性质早已被人熟知
。构成蛋白质的20种
氨基酸由于
化学构造不
同,在结构和功能上具
有多样性,任一残基对
蛋白质的物
理和生化性
质都会产生影响,即序
列决定构象。由于蛋白
质空间结构
的基础是一
级结构,近年来根据蛋
白质的氨基酸序列预测
其空间结构,
受到科学
家的关注。 1
1.谈谈学习生物信息
学的体会(自己发挥吧
) 有点粗糙,见谅
六
哥
篇二:
生物信息
学总结 第一章 生物
信息学导论
1
、什么是生物信息学?
学习生物信息学一般需
要哪几个方面的基
础?
研究对象?研究内容?
答:
生物信
息学(Biinfrm
atics) 是一门
交叉学科,它综合运用
数理科
学和信息科学中
的理论和方法,以计算
机为工具对生物学实验
数据进
行收集、加工、
储存、传播、检索和分
析,以揭示数据所蕴含
的生物
学意义。 基础
:
数学、信息
学、计算机科学 研究
对象:
核酸、
蛋白质等生物大分子数
据库。 研究内容:
开发数据库和工
具来存储、管理、使用
生物学数据,开发算法
、
软件来对生物学数据
进行分析和解释,出版
生物信息学文献、书籍
、
资料 第二章 生物
信息学数据库
1、数据库分类,一级
数据库,二级数据库
答:
数据库的
分类:
一级数
据库:
数据库
中的数据直接来源于实
验获得的原始数据,只
经过简单的
归类整理和
注释
1、核酸序
列数据库
2、蛋
白质序列数据库
3、生物大分子结构数
据库
4、基因组
数据库 二级数据库:
对原始生物分
子数据进行整理、分类
的结果,是在一级数据
库、
实验数据和理论分
析的基础上针对特定的
应用目标而建立的 三
大核
酸序列数据库:
美国生物技术信
息中心的GenBan
k ,欧洲生物信息学
研究所的
EMBL ,
日本国立遗传研究所的
DDBJ
2、Entrez检索系统
,
常用的数据库有哪
些,有什么用途? E
ntrez
是NCBI
开发的综合数据库检索
工具 ? GenBa
nk: 核酸序列数据
?
RefSeq:
Refere
nce Sequen
ce (参考序列数据
) ? Genme:
基因组数据
? Gene: 为每
个基因建立一个文本描
述条目 ?
UniG
ene: 归纳每一个
基因的EST, mR
NA, 蛋白质序列
? GE: 基因表
达
数据 ? SNP:
SNP位点数据库 ?
Structure
: 记录大分子三维结
构
数据 第三章 Bl
ast与数据库搜索
1、序列sim
ilarity和序列
hmlgy有何区别和
联系?
(1)
相似性(simila
rity):
是一种数量关系,比如
部分相同或相似的百分
比或其它一些合适
的度
量。比如说,A序列和
B序列的相似性是80
%,或者4/5。
(2)同源性(h
mlgy):
这是质的判断,指从一
些数据中推断出的两个
基因或蛋白质序列
是否
具有共同的祖先。 序
列相似性比较:
? 将待研究序列
与DNA或蛋白质序列
库进行比较,用于确定
该序
列的生物 属性
? 常用的程序包有B
LAST、FASTA
等 序列同源性分析:
将待研
究序列加入到一组与之
同源,但来自不同物种
的序列中
进行多序列
同时比较,以确定该序
列与其它序列间的同源
性大小。
2、
什么是Blast,B
LAST的基本原理是
什么?,有哪几种Bl
ast,
其查询和比对
的序列是什么? BL
AST: 是一种基于
局部双序列比对
的数据
库相似性搜索工具 B
LAST的算法:
BLAST先找出
某些“种子”,即探测
序列和数据库序列间非
常短
的匹配的片段对,
它们的比对得分至少是
T,然后向两端不带空
格地
扩展这些种子,并
使用替换矩阵计算得分
,直到达到最大可能得
分。
程序并不持续地对
种子进行扩展,当得分
低于某个既定的阈值时
便停
止。 程序名 探
测序列 数据库类型
方法 Blastp 蛋白质 蛋白质 用
蛋
白质探测序列搜索蛋白
质序列数据库 Bla
stn 核酸 核酸
用核酸
探测序列搜索核
酸序列数据库 Bla
stx 核酸 蛋白质
用核酸序列按6
条链
翻译成蛋白质序列后搜
索蛋白质序列数据库
tBlastn 蛋白
质
核酸 用蛋白质探
测序列搜索核酸序列数
据库,核酸序列按6条
链翻
译成蛋白质 tB
lastx 核酸 核
酸 将核酸序列按6条
链翻译成蛋白质
序列后
搜索由核酸序列数据库
按6条链翻译成的蛋白
质序列的数据
库
3、序列相似度聚类
的含义? 序列相似度
聚类定义:
设
P为包含n条序列的序
列数据集(核酸或蛋白
质),序列相似度
聚类
是指寻找P上的划分P
1, P2,?, P
k,使属于同一划分的
序列间
的相似性尽量大
,而属于不同划分的符
号序列间相似性尽量小
。 第
四章 多序列比
对
1.什么是
多序列比对? Clu
stalX的基本原理
步骤?Muscle基
本
原理和步骤? 多序
列比对结果编辑软件C
INEMA 多序列比
对
(Multiple
Sequence
Alignment,
MSA)可表示为一
张表,表中每一
行代表
一个序列,每一列代表
一个残基(或碱基)的
位置,序列排列满
足下
列规则:
每一条序列所有字符
的相对位置保持不变
? 同一列上的字符
尽
可能的相同或相似 C
lustal X的步
骤:
1
.使用动态规划法构造
每个序列的配对比对,
包括Clustal
在内
的许多比对算法在
这一步使用距离矩阵而
不是相似性矩阵来描述
序
列间的关联性;第二
,由距离矩阵构造一颗
指导树,树的两个主要
特
征是拓扑结构和分支
长度,它一般并不当作
是种系树,只反映了参
与
比对的多个序列如何
相关联,用来确定向正
在进行的多序列比对中
加
入新序列的次序;第
三,以计分最高的配对
比对作为多序列比对的
种
子,根据指导树逐渐
向多序列比对中加入序
列。 MUSCLE的
三个步骤:
首
先,使用渐进多序列比
对产生一个初始结果,
其中含有根据每
对序列
的相似性计分构造的一
颗指导树;其次,重新
计算相似性计分,
据此
改进指导树并再用渐进
多序列比对产生一个更
新的结果,这一过
程迭
代地进行;再次,算法
根据新计算的SP计分
值是否增加而决定
是接
受还是拒绝新产生的比
对结果。 CINEM
A(Clr Inte
ractive Ed
itr
fr Mul
tiple Alig
nments):一种
多序列比对结果编辑软
件 ? 特点:
拖放式编辑,多mt
if的选择与操作,显
示蛋白质结构 第五章
分
子进化与系统发育
分析
1.何谓
分子钟?有何实际应用
意义? 答:
分子钟指DNA或蛋白
质序列的进化速率随时
间或进化谱系保持恒
定
。 实际意义:
进化时间的估计。
2.直系同源和
旁系同源的含义? 答
:
rthlg
(直系同源物):
两个基因通过物
种形成的事件而产生,
或者两个物种中的同一
基
因,一般具有相同的
功能 Paralg
(旁系同源物):
两个基因在同一物
种中,通过至少一次基
因复制的事件而产生
3.分子进化有
哪两层含义? 答:
1.分子
进化是对不同生命进化
树的分支的基因和蛋白
质的变化来
进行研究。
2.从分子水
平上说,进化是对突变
进行选择的过程。
4.何谓分子进
化的中性理论? 答:
1.
分子进化速率的恒定性
。
2
. 分子进化的保守性
。
3
. 进化过程中,对分
子功能不损害或损害轻
的突变较之损害严重
的
突变容易发生。
4. 具有新功能
的基因一般起源于基因
重复。
5.
在分子水平上所看到大
部分进化是对自然选择
既非有利也非不
利的中
性突变,且由于随机漂
变使之在群体中固定。
5.分子进化
中性学说的中心论点:
在生物分子
层次上的进化改变不是
由自然选择作用于有利
突变
而引起的,而是由
选择中性或非常接近中
性的突变的随机固定造
成的。
6.构
建系统发育树的主要步
骤? 答:
1.
选择序列进行分析。
2.多系列比
对。
3. 建树。
4. 可靠性分析。
第六章 基因组测序
与注释
1.经
典的DNA测序方法有
哪几种,其测序的原理
? 答:
1. Sanger
双脱氧链终止法(Sa
nger和Culsn
1977) 基本原理
: 在合
成与单链DN
A互补的多核苷酸链过
程中加入双脱氧核苷酸
,使 合成
的互补链在
不同位置随机终止反应
,产生只差一个核苷酸
的DNA分子,
最后通
过电泳来读取待测DN
A分子的顺序。
2. Ma
xam-Gilber
t DNA化学降解法
(Maxam和Gi
lbert,1977
) 基
本原理:在选定
的核苷酸碱基中引入化
学基团,再用化合物处
理,使
DNA分子在被
修饰的位置降解。
3. 自
动化测序 基本原理
与链终止法测序原理相
同,只是用不同
的荧光
色彩标记ddNTP,
如ddATP标记红色
荧光,ddCTP标记
蓝色荧光,
ddGT
P标记黄色荧光, d
dTTP标记绿色荧光
.由于每种ddNTP
带有各自
特定的荧光颜
色,而简化为由1个泳
道同时判读4种碱基。
2.新一代测
序技术有哪几种? 答
:
1、
Pyrsequen
cing技术,或者称
为焦磷酸测序技术。
2、 Sequ
encing by
Synthesis
(SBS):
基于合成的测序法。
3、 Sequ
encing by
Ligatin (S
BL):
基于
连接的测序法
3.人类基因组测序主
要有哪两种策略? 答
:
1.
作图测序与序列组装
先将染色体打成比较
大的片段(几十-几
百
Kb), 利用分子标
记将这些大片段排成重
叠的克隆群(Cnti
g), 分
别测序后拼
装. 这种策略叫基于
克隆群(cntig-
based)的策略,
也叫
作图测序、指导测
序或分级鸟枪法测序。
2.
随机测序与序列组装
随机测序也称”鸟枪
法”. 序列组装原
理
:直接从已测序的小片
段中寻找彼此重叠的测
序克隆,然后依次向
两
侧邻接的序列延伸.
优点:不需预先了解任
何基因组的情况. 两
种
策略的比较: 鸟枪
法策略 指导测序策略
不需背景信息 构建
克隆群
(遗传、物理
图谱) 时间短 需要
几年的时间 需要大型
计算机 得到的
是草图
(Draft) 得到
精细图谱 第七章 基
因组序列分析与DNA
Star
软件包的使用
1.碱基含量
,GC含量,序列lg
图的含义,密码子使用
偏嗜性,开
放阅读框
GC含量可作为一个物
种的特征,在微生物分
类学中常常把
GC含量
作为分类参数之一。
Sequence L
g是一种用图形来表示
同源
基因的mtif中
每一列残基信息的方法
密码子偏好:
各个物种中,编码同
一氨基酸的不同同义密
码子的频率非常不一
致
; 密码子使用的偏嗜
性是物种的特征。对基
因组中某些基因的密码
子偏嗜性进行统计分析
,有可能揭示微生物基
因组中通过水平转移而
获得的基因。 开放阅
读框(RF, pen
reading f
rame)是基因序列
的
一部分,包含一段可
以编码蛋白的碱基序列
,不能被终止子打断。(
P86,
指从5‘端
开始翻译起始密码子到
终止密码子的蛋白质编
码碱基序
列。) RF
识别:
检测六
个阅读框架并决定哪一
个包含以启动子和终止
子为界限的
编码序列,
而其内部不包含启动子
或终止子。 原核基因
识别主要是
识别开放阅
读框。
2.D
NAstar软件包含
哪些软件,各自的功能
? EditSeq
:
能迅速、
正确地输入并且修改D
NA或蛋白质序列的工
具。
GeneQue
st :
发现
和注释DNA序列中的
基因,并能分析生物学
所关心DNA的其
他特
征:
包括开放
阅读框、拼接点连接,
转录因子结合位点、重
复序列、
限制性内切酶
酶切位点等。 Seq
Builder :
editing
nucleic a
nd amin ac
id sequenc
es. Als us
ed t vie
s
equences i
n a variet
y f ays. M
egAlign :
提供6
种比对方
法进行DNA和蛋白质
序列比对和多序列比对
。
PrimerSe
lect :
能够设计PCR、测序
和杂交试验所使用的引
物和探针。 Prte
an :
可以
使用多种方法分析、预
测蛋白质结构,并以图
形化的方式展
示出来。
SeqMan :
将成千上万个序
列装配成重叠群。
q
和GeneQues
t含义? 类似功能
第八章蛋白质序列分析
与结构预测
1
.结构域、家族、模体
的含义? 结构域(d
main):蛋白质中
能折
叠成特定三维结构
的一段区域,也称为模
块(mdule)、折
叠子(fld)
家族
(family):在
进化上相关的共享一个
或多个结构域的蛋白质
为
一个家族 模体(m
tif):
蛋
白质序列中较短的保守
区域,通常为按一定的
模式排列的氨基
酸残基
也称为指纹(fig
ureprint)
2、蛋白质结构
测定的实验方法主要有
哪两种? X-Ray
Crystallg
raphy
篇三:
生物信息学 考点及
总结 一 数据库 ?
典型的核酸和蛋白数
据库,
相关的查询系统
? 序列的常见格式
,要求能看懂 ? 获
取序列的典型
方法 习
题:
1. 下面这段蛋白质
序列是什么格式? (
)
gi|4506
183|ref|NP
_00277
9
.1| prteas
me alpha 3
[Hm
sapie
ns]MSSIGTG
YDLSASTFSP
DGRVFQVEYA
MKAVENSSTA
IGIRCKDGVV
FGVE
KLVLSK
LYEEGSNKRL
FNVDRHVGMA
VAGLLADARS
LADIAREEAS
NFRSNFGYNI
PLK
HLADRVA
MYVHAYTLYS
AVRPFGCSFM
LGS。。。。。。
A. GBFF B.
TEXT C. P
DB
D. FAST
A
2
. 以下哪个是Ref
Seq中mRNA条目
的索引号码? A.
J01536
B.
NM_15392 C
. NP_52280
D. AAB134
506
3. 下面这段序列
是: ( ) gi
|24646620|
ref|NM_057
58
7.3|
Drsphila m
elangaster
RNA-bindi
ng prtein
4 CG9654-R
A,
transcr
ipt varian
t A (Rbp4)
, mRNA
GGA
TTTTCTTGCC
TGTCATTCAA
TTTGTGGTTG
GCTTCACCTG
AGTGCTGTAG
T。。。 A.
DN
A序列 B. RNA
序列 C. 蛋白质序
列 D. 基因
4. NIH维护
的基因数据库是( )
A.NCBI B.
GenBank C.
UniGene
D.
PubMed
5. SRS是哪个网
站数据库的检索系统(
) A.NCBI
B.PRSITE C.
EBI
D.PD
B
7. 在N
CBI中检索的时候,
在检索框中输入“AA
41714[ACCN
]”是
什么意思?
8. 简述四种获
得基因和蛋白质序列的
方法 分子生物信息库
的种
类 一级数据库
? 直接来源于实验获
得的原始数据,只经过
简单的归
类、整理和注
释 ? 一级核酸数据
库:
GenB
ank、EMBL、D
DBJ ? 一级蛋白
质序列数据库:
SISS-PRT、
PIR ? 一级蛋白
质结构数据库:
PDB 二级数据库
? 在一级数据库、实验数据和理论分析的
基础上,
针对不同的研
究内容和需要,对生物
学知识和信息的进一步
整理得到
的数据库。
? 人类基因组图谱库
GDB、转录因子和结
合位点库
TRANSF
AC、蛋白质序列功能
位点数据库Prsit
e等。 二级数据库
? 在
一级数据库、实
验数据和理论分析的基
础上,针对不同的研究
内容和
需要,对生物学
知识和信息的进一步整
理得到的数据库。 ?
人类基
因组图谱库G
DB、转录因子和结合
位点库TRANSFA
C、蛋白质序列 功
能
位点数据库Prsit
e等。 列表说明三大
核酸数据库名称、数据
维护
机构、依托的相关
政府部门及各自独 ?
常用的蛋白质序列数
据库PIR、
MIPS
、Siss-Prt ? 蛋白质功能、
结构
域和蛋白质家族有关的
数据库:
PR
SITE、Inter
Pr 、Pfam 、
PrDm 、SMAR
T 等 ? 蛋白质三
维结构
相关数据库:
PDB、
CAT
H、SCP等 四种获
取基因和蛋白质序列的
方法 [1] Ent
rez
Gene(N
CBI) [2] U
niGene (NC
BI) [3] Eu
rpean Biin
frmatics
I
nstitute (
EBI) and E
nsembl [4]
ExPASy Se
quence Ret
rieval
Sys
tem (SIB)
GBFF是GenBa
nk数据库的基本信息
单位,是最为广泛
使用
的生物信息学序列格式
之一 息学序列格式之
一。该文件格式按
域划
分为4个部分:
第一部分包含整个记
录的信息(描述符);
第二部分包含注释;第
三部分是引文区,提供
了这个记录的科 学依
据;第四部分是核苷酸
序
列本身,以“//”
结尾。 二 序列比
对 ? 双序列比对的
原理、流程、
关键因素
、结果查看 ? BL
AST的原理、使用策
略和结果解读 ? 序
列
比对的种类(部分比
对、全局比对) 多序
列比对概念,相关软件
序
列比对(alig
nment)是如何实
现的? 通过插入间隔
(gap)的方法
使不
同长度的序列对齐(长
度一致);优化的序列
排列应使间隔的数
目达
到最小,同时使相似性
区域的长度达到最大
BLAST:
基本局部比对搜索工具
,用于相似性搜索的工
具,对需要进行检
索的
序列与数据库中的每个
序列做相似性比较。
简述BLAST搜索的
算法思想。 答:
BLAST是一种
局部最优比对搜索算法
,将所查询的序列打断
成许
多小序列片段,然
后小序列逐步与数据库
中的序列进行比对,这
些小
片段被叫做字”r
d”;当一定长度的的
字()与检索序列的比
对达到
一个指定的最低
分(T)后,初始比对
就结束了;一个序列的
匹配度
由各部分匹配分
数的总和决定,获得高
分的序列叫做高分匹配
片段
(HSP),程序
将最好的HSP双向扩
展进行比对,直到序列
结束或者不
再具有生物
学显著性,最后所得到
的 序列是那些在整体
上具有最高
分的序列,
即,最高分匹配片段(
MSP),这样,BL
AST既保持了整体
的
运算速度,也维持了比
对的精度。 ? 查找
完全匹配或者高出匹配
阈
值的短小序列片段对
; ? 将它们延伸得
到较长的相似性匹配;
? 用
替换记分矩阵
计算得分,直到达到最
大可能得分。 BLA
ST中,E值和
P值分
别是什么,它们有什么
意义? ? 答:
BLAST中使用
的统计值有概率p值和
期望e值。 ? E期
望值
(E-value
)这个数值表示你仅仅
因为随机性造成获得这
一比对结果的
可能次数
。这一数值越接近零,
发生这一事件的可能性
越小。从搜索
的角度看
,E值越小,比对结果
越显著。默认值为10
,表示比对结果
中将有
10个匹配序列是由随
机产生,如果比对的统
计显著性值(E值)
小
于该值(10),则该
比对结果将被检出,换
句话说,比较低的E值
将
使搜索的匹配要求更
严格,结果报告中随机
产生的匹配序列减少。
p
值表示比对结果得
到的分数值的可信度。一般说来,
p值越接近
于零,
则比对结果的可
信度越大;相反,p值
越大,则比对结果来自
随机匹
配的可能性越大
。 ? (阈值越高,
序列相似就越可信)
? (序列越
长,序列
相似就越可信) 什么
是序列比对中使用的P
AM矩阵和BLSUM
矩阵,它们的作用是什
么,一般BLAST选
择使用的矩阵是什么
答:
PAM矩
阵和BLSUM矩阵都
是用于序列相似性的记
分矩阵(scring
matrix)。记
分矩阵中含有对齐时具
体使用的数值。一般F
ASTA和
BLAST
都提供 BLSUM或
PAM系列矩阵供选择
,若要进行突变性质的
进
化分析时可以使用P
AM,FASTA缺省
推荐BLSUM50矩
阵。 PAM矩阵(P
int
Accept
ed Mutatin
)基于进化的点突变模
型,如果两种氨基酸替
换频
繁,说明自然界接
受这种替换,那么这对
氨基酸替换得分就高。
一个
PAM就是一个
进化的变异单位, 即
1%的氨基酸改变,但
这并不意味
100次P
AM后,每个氨基酸都
发生变化,因为其中一
些位置可能会经
过多次
突变,甚至可能会变回
到原来的氨基酸。 模
块替换矩阵
BLSUM
(BLcks Sub
stitutin M
atrix)首先寻找
氨基酸模式,即有意义
的
一段氨基酸片断(如
一个结构域及其相邻的
两小段氨基酸序列),
分
别比较相同的氨基酸
模式之间氨基酸的保守
性(某种氨基酸对另一
种
氨基酸的取代数据)
,然后,以所有 60
%保守性的氨基酸模式
之间
的比较数据为根据
,产生BLSUM60
;以所有80%保守性
的氨基酸模式
之间的比
较数据为根据,产生B
LSUM80。 ? 序列相似性比较(两两
序
列比对):
将待研究序列与DN
A或蛋白质序列库进行
比较,用于确定该序列
的生物属性,也就是找
出与此序列相似的已知
序列是什么。 ? 序
列
同源性分析(多序列
比对):
将
待研究序列加入到一组
与之同源,但来自不同
物种的序列中进
行多序
列同时比较,以确定该
序列与其它序列间的同
源性大小。 ? 多
序
列比对(multip
le sequenc
e alignmen
t):
把2条
以上可能有系统进化关
系的序列(相似度不一
定很高)进
行比对的方
法。 ? 多序列比对
常用算法 ? SP(
Sum-f-Pair
s)模型 ?
序列动
态规划算法 ? 多序
列渐进列比对 ? 多
序列星型比对 ? 多
序
列比对软件--Cl
ustal 假设你得
到一段未知基因的DN
A序列,从你学
习到的
生物信息学分析方法和
软件,设计一个分析流
程来分析该未知
基因的
功能和家族类别(包括
系统发育树构建)
1、得到未知基因
的DNA
序列,用Bl
ast做序列比对,找
出与其基
因相似的核苷
酸序列和蛋白质序列。
2、接着,用
搜索出来的较相似的序
列用Clust进行多
序列比对,
得到该序列
的保守情况和突变情况
。
3、最后用
距离法构建系统发育树
。 假设你得到一段未
知蛋白的氨
基酸序列,从你学习到的生物信息
学分析方法和软件,设
计一个分析
流程来分析
该未知蛋白的功能和家
族类别以及其结构预测
。
1、用该序
列进行BLASTP搜
索。
2、再对
其进行蛋白质结构域、功能域的搜索,
可以用
Znterprsca
n、
Pfam,并对其
进行结构分析。
3、再用Clust
进行多序列比对。
4、用人工神经网
络的方法对其结构进行
结构预测。篇四:
生物信息学总结
一、 生
物学数据库 总共三大
数据库GenBank
(隶属于NCBI)
,
DDBJ(日本
) , EBI(欧洲
)。
1. N
CBI PubMed
:
美国国家医
学图书馆提供的搜索服
务,主要用于搜索pa
per。
Entre
z :
将科学
文献、DNA和蛋白质
序列数据库、蛋白质三
维结构数据、
种群研究
以及全基因组组装数据
整合成的一个系统,其
实就是个工具,
平常你
点的search,是
个查询、提取、显示系
统。 Blast :
基础局部比对
搜索工具,主要用于搜
索相似DNA或蛋白质
序列。
MIM :
在线人类孟德尔
遗传性状数据库,主要
用于搜索人类基因和遗
传
异常序列。 Bks
Taxnmy:
生物类别的分类浏
览器(古细菌、细菌、
真核生物、病毒)
S
tructure:
分子模型数据库
(MMDB,PDB)
GenBank:
数据量极大 D
bEST:
表
达序列标签数据库,G
enBank的子库。
Unigene:
为每一个
gen
e创造一个条目,一个
具体的基因可能对应于
许多
EST,但是只对
应一个Unigene
。提供作为EST记录
来源的cDNA库的
组
织区域分布列表,并且
给出了对应于基因的E
ST列表,允许使用者
对它们进行深入研究。
RefSeq:
GenBank数
据量太大,是冗余的,
对应于某个基因的索引
号可能
有很多,但是其
RefSeq仅有一个
。
2
. EBI EMBL
:储存DNA、RNA
序列的数据库,对DD
BJ,GENBANK
是互
补的。 SISS
-PRT:
现
存的最好的标有注释的
蛋白数据库 TrEM
BL:
翻译后
的EMBL MSD:
蛋白质结构数
据库 Ensembl
:
基因组数据
浏览器 ArrayE
xpress:
基因表达数据库
3.其他生物学数
据库 PIR:
蛋白信息数据库 U
niPrt:
将Siss-Prt、
PIR、TrEMBL
三者合一 ExPAS
y :
专家蛋
白分析系统 PDB:
蛋白三维结构
,存储格式为pdb,
用RasMl软件看
二、数据库检索
数据库检索是指对数
据库中的注释信息进行
关键
词匹配查找
1、 Entrez
使用方法 登录NCB
I,在Search处
选择数据库,输入
检索
词之后回车 检索格式
genepept、
fasta 序列的f
asta格式:
1. 每条
记录的第一行以大于号
( )开始
2. 大于号后
是序列的描述信息
3. 从
第2行开始为序列本身
。 GenBank文
件格式:
L
cus:
记录
名字、序列长度、分子
类型、修改日期等 D
efinitin:
来源组织、ge
ne
名字 Acces
sin:
ac
cessin num
ber Versin
:
GI(
means GenI
nf Identif
ier)号可变,一般
accessin n
umber
不会变。
Keyrd Surc
e Referenc
e Features
“//”是结束标志
使
用 Siss-Prt
文件格式 序列条目由
字段组成,每个字段由
标识字起始,后面为该
字段的具体说明。有
些字段又分若干次子字
段,
以次标识字或特性
表说明符开始,最后以
双斜杠“//” 作本
序列条
目结束标记。条
目的关键字包括ID(
序列名称),DE(序
列简单说 明),
AC(序列编号)
,SV(
序列版本号),K(与
序列相关的关键词),S (序
列来源的物种
名),C(序列来源的
物种学名和分类学位置
),RN(相
关 文献
编号或递交序列的注册
信息),RA(相关文
献作者或递交序列
的作
者), RT(相关文
献题目),RL(相关
文献杂志名或递交序列
的
作者单位),RX(
相 关文献 Medi
line引文代码),
RC(相关文献注
释)
,RP(相关文献其他
注释), CC(关于
序列的注释信息),D
R(相
关数据库交叉引
用号),FH(序列特
征表 起始),FT(
序列特征表子
项),S
Q(碱基种类统计数)
。 Cme frm
Baidu。
三、双序列比对 百度
知道上有比较全的
1. 许多概念
序列比对(align
ment)
:
为确定两个或多个序列
之间的相似性以至于同
源性,而将它们按
照一
定的规律排列。 双序
列比对方法涉及寻找(
局部)最优匹配片
断或
蛋白质(氨基酸)或D
NA(核酸)全局比对
全局比对是指将参
与
比对的两条序列里面的
所有字符进行比对。
全局比对主要被用来
寻
找关系密切的序列。
1981年,由F.
Smith 和 M.
aterman首次提
出局部比对算法,动态
规划方法通过较少的改
动便可以用来识别匹配
的子序列, 并且忽略
匹配区域之前或之后的
失配和空位;局部比对
时,
表中小于零的位置
用零代替。主要用来考
察两序列的某些特殊片
段。
2.打分
的公式:
S
creAlignme
nt = Screm
atches - S
cremismatc
hes – Scre
gaps
3.
直系同源的序列因物种
形成(speciat
in)而被区分开
(s
eparated):
若一个基因原
先存在于某个物种,而
该物种分化为了两个物
种,
那么新物种中的基
因是直系同源的;
4.旁系同源的
序列因基因繁殖(ge
ne duplica
tin)而被区分开
(
separated)
:
若生物体中
的某个基因被复制了,
那么两个副本序列就是
旁系同
源的。直系同源
的一对序列称 为直系
同源体(rthlgs
),旁系同源的
一对序
列称为旁系同源体(p
aralgs)。
5.序列比对的方
法
(1)点阵
分析 记住几种常见的
样子?不知会不会考
完全一致 移
位匹配
倒位匹配 重复 倒位
重复 Gap 降噪的
方法:
调整
rd size、in
d size 和st
ringency。
软件:
dtl
et
(2)动
态规划 全局算法:
needlem
an-unsch
局部算法:
Smith–ater
man算法 区别:
限定
F(i,
j)最小为0,不能为
负; 以最高的F(i
,j)开始
当F(i
,j)=0时,tra
ceback结束。
(3)两个打分
矩阵 PAM:
算法
A.设置一个矩阵,
初始化 B.给矩阵打
分
C.确定最优比对
,traceback
具体过程:
可接受点突变,da
yhff研究许多紧密
相关的蛋白质,想知道
同源
蛋白质在比对时,能观察的哪些氨基酸改
变了,被定义为自然选
择可
接受的。基于全局
算法。 PAM1:
两个蛋白质有1
%氨基酸发生变化的时
间,这些蛋白质家族序
列一
致性至少85%。
只能用于近相关蛋白研
究。 PAM250:
PAM1矩阵
自乘250次产生的(
不知道有什么意义),
应用于20%
一致性的
蛋白质,可以用于远相
关蛋白研究了。 色氨
酸和半胱氨酸
是突变率
最小的氨基酸。 BL
SUM打分矩阵 He
nikff研究500
多个远
相关蛋白产生的
矩阵,是PAM的重要
代替者。BLSUM6
2,意思是蛋白
一致性
小于等于62%,是大
多数Blast算法的
默认矩阵。基于局部算
法。 E值来衡量比对
结果统计显著性。
四、Blast
1、BLAST
P是蛋白序列到蛋白库
中的一种查询。库中存
在的每条已
知序列将逐
一地同每条所查序列作
一对一的序列比对。F
inding
seq
uences sim
ilar t yur
query.
2、BLASTX是
核酸序列到蛋白库中的
一种查询。先将核酸序
列翻译
成蛋白序列(一
条核酸序列会被翻译成
可能的六条蛋白),再
对每一
条作一对一的蛋
白序列比对。Find
ing ptenti
al cding s
equences r
exns
3
、BLASTN是核酸
序列到核酸库中的一种
查询。库中存在的每条
已
知序列都将同所查序
列作一对一地核酸序列
比对。Finding
sequences
similar t
yur query
4、TBLA
STN是蛋白序列到核
酸库中的一种查询。与
BLASTX相反,
它
是将库中的核酸序列翻
译成蛋白序列,再同所
查序列作蛋白与蛋白
的
比对。Finding
the pssib
le transcr
ipt f a pr
tein
5、TBLASTX是核酸
序列到核酸库中的一种
查询。
此种查询将库中
的
核酸序列和所查的核
酸序列都翻译成蛋白(
每条核酸序列会产生6
条
可能的蛋白序列),
这样每次比对会产生3
6种比对阵列。
Int
erspecies
gene findi
ng
五、多序
列比对 定义:
一个多重比对就是一
组可以部分或整体对齐
的蛋白质或核酸序列
(
3个或3个以上)。相
同或相似的氨基酸残基
排在同一列上,这些
对
齐的残基在进化意义上
是同源的,并且我们还
假定从结构的角度
看,
这些残基也是同源的:
在三维结构中
,对齐的残基也倾向于
占据对应的位置。(选
自生物
信息学与功能基
因组学) hen a
nd hy are
multiple s
equence
al
ignments u
sed?
1、
多序列比对能够更敏
感地发现同源关系
2、 比对结果可
能提供更多的功能、结
构、进化方面的信息
3、 更容易显
示保守残基和mtif
4、 基因转
录中的共有序列 软件
:
Clust
al、pfam、sm
art、CDD、pr
ints、enter
Pr、PSSM、eb
Lg、
MEME
六、种系发生 分子
钟假说:
对于
每一个特定的gene
,其进化速率基本不变
Tajima’s Test:
M
EGA,需要一个ut
grup 正选择和负
选择 分子进化的中性
假说:
随机漂
变 分子系统发生是一
门利用分子生物学技术
来研究不同
物种或者分
子间的进化关系篇五:
生物信息学考
试总结 问题一:
生物信息学的含义
是什么?举一到两个例
子说明你对生物信息学
的哪方面感兴趣。 参
考答案:
生物
信息学有三个方面的含
义:
1
、它是一个学科领域,
包含着基因组信息的获
取、处理、存储、
分配
、分析和解释的所有
方面。
2、生物
信息学是把基因组DN
A序列信息分析作为源
头,破译隐藏
在DNA
序列中的遗传语言,特
别是非编码区的实质;
同时在发现了新
基因信
息之后进行蛋白质空间
结构模拟和预测;其本
质是识别基因信
号。
3、生物信息学的
研究目标是揭示“基因
组信息结构的复杂性及
遗
传语言的根本规律”
。它是当今自然科学和
技术科学领域中“基因
组、
“信息结构”和“
复杂性”这三个重大科
学问题的有机结合。
例子:
怎样从
新测得的DNA序列中
找到编码区?非编码区
与编码区的差
别是什么
?非编码区有什么具体
功能?RNAi现象对
于细胞来说有着
很重要
的意义,包括基因表达
的调控等等,那么都有
哪些具体机制可
以诱导
正常细胞产生RNAi
现象?SARS病毒的
比较基因组研究;治
疗
SARS的RNAi设
计;SARS蛋白的结
构预测和模拟。 问题
二:
有哪些数
据库可以发现新基因,
其本质是什么? 参考
答案:
大部分
新基因是靠理论方法预
测出来的。 a)、利
用NCBI中EST(
Expressin
Sequence
Tag) 数据库 (
dbEST) 发现新
基因和新SNPs。
国
际上现已出现了几个基
于EST的基因索引如
UniGene, M
erck-Gene,
GenExpres
s-index .
其本质是: : 以一
个序列片段为线索,
通过它
和整个数据库的
比较, 还原出全序列
原貌。当测序获得一条
EST序列
时,它来自
哪一个基因的哪个区域
是未知的(随机的),所以属于同一
个基因的
不同EST序列之间常
有交叠的区域。根据这
种“交叠”现象,
就能
找出属于同一个基因的
所有EST序列,进而
将它们拼接成和完整
基
因相对应的全长cDN
A序列。 b)、从基
因组 DNA序列中预
测新RF。
基于信号或
基于组成。 问题三:
1、基
于核酸和蛋白质序列如
何研究生物进化?
2、主要步骤是什么
?
3、当前的主
要困难是什么? 参考
答案:
1、构建系统进化树。
2、主要步骤如
下:
A、序列
相似性比较。就是将待
研究序列与DNA或蛋
白质序列库进
行比较,用于确定该序列的生物
属性,也就是找出与此
序列相似的已
知序列是
什么。完成这一工作只
需要使用两两序列比较
算法。常用的
程序包有
BLAST、FAST
A等;B、序列同源性
分析。是将待研究序列
加
入到一组与之同源,
但来自不同物种的序列
中进行多序列同时比较
,
以确定该序列与其它
序列间的同源性大小。这是理论分析方法中最
关
键的一步。完成这一
工作必须使用多序列比
较算法。常用的程序包
有
CLUSTAL等;
C、构建系统进化树
。根据序列同源性分析
的结果,重
建反映物种
间进化关系的进化树。为完成这一工作已发展
了多种软件
包,象PY
LIP、MEGA等;
D、稳定性检验。为了
检验构建好的进化树
的
可靠性,需要进行统计
可靠性检验,通常构建
过程要随机地进行成
百
上千次,只有以大概率(
70%以上)出现的
分支点才是可靠的。通
用的方法使用 Bts
trap算法,相应的
软件已包括在构建系统
进化树
所用的软件包当
中。
3、当前的
主要困难是发现了基因
的横向迁移(LGT)
现象。即进化
程度不同
的物种间存在着遗传信
息基因的传递,如果拿
迁移的基因做
进化分析
就会出错。克服LGT
的方法:
一是在所有序列中筛
选出有垂直进化关系的
序列数据集,如CG数
据库;
二是用完
整的基因组和蛋白质组
比较。 问题四: 1
什么叫SNP?
为什
么SNP研究如此重要
?举2-3个SNP相
关的ebsite。
参考答案:
1、SNP
叫SNP。
2、SNP是联系基
因型和表现型之间关系
的桥梁,是基因组领域
理
论成果和基础研究走
向应用的关键步骤。
3、SNP
1、SNP C
nsrtium s
database(s
/
l)
2、NC
BI SNP dat
abase将这些数据
进行整理,去掉冗余,
使每个
SNP都是唯一
的。此时的SNP被称
为reference
SNP或refSN
P。(
3、T
he Human G
enic Bi-Al
lelic Sequ
ences Data
base(HGBAS
E) 这
一数据库收录
了人基因组中所有已知
的序列变化,包括:
SNPs、序列
的插入和缺失(Ind
els)、简单重复序
列等。
(hgbase
.
/)
4、Th
e Human Ge
ne Mutatin
Database(
HGMD)
5
、The Prtei
n Mutant D
atabase(PM
D),它不是核酸突变
数据库,
相关
的一些网站:
本意是
单核苷酸多态性,泛指
基因组上一个碱基的取
代,
现在有所扩展,也
包括一些更广泛的变化
,例如2-3个碱基的
变化也
而是蛋白突变
数据库。库中收录了蛋
白质特定位点的氨基酸
突变信息,
以及这些突
变对蛋白质结构功能的
影响。(
.
jp/)
6、
The Allele
Frequency
Database(
ALFRED):
它是人类群体等位
基因频率数据库, 问
题四:
2
什么叫系统生物学?系
统生物学对生物功能实
现的本质认识
的变化?
参考答案:
系统生物学是一门学科
,是分析整个基因和蛋
白质系统所有信息
的学
科,有三个内涵:
1、整合从
不同层次水平上得来的
信息;
2、基于
整合的信息构建数学模
型以描述生物体结构和
功能;
3、用建
立的数学模型来预测系
统内外部存在环境刺激
时系统结构
如何变化。
本质变化:
系统生物学认为真正实
现生物学功能的是一组
相互作用形成网络
的蛋
白质集合,不仅有孤立
存在的元件,还有元件
间的关联和相互作
用。
问题五:
1、什么是非编码
序列、非编码
录产
物的?
3、举两
个例子说明非编码研究
是重要的 参考答案:
1、非
编码序列是基因组中不
编码任何蛋白质的序列
;非编码RNA
是非编
码序列的转录产物;非
编码基因是功能的非编
码RNA在基因组
中的
位置。
2、人类
基因组中超过97%是
非编码序列,大于90
%的有转录产物,
绝大
部分的转录产物是非编
码RNA,物种间的差
别主要是非编码RNA
。
3、非编码R
NA有很重要的功能,
例如人与黑猩猩的比较
研究发现
主要的差别在
于非编码区;SLNE
(短散在元件)可以作
为调控元件,
通过插入
基因序列中调控邻近基
因的转录活性;X-i
nactivatin
(X
染色体失活)是哺
乳动物的一种剂量补偿
机制,其中一半拷贝转
录被
RNA、
非编码基因?
2
、以人类基因组为例,
有多少是非编码序列,
有多少序列是有转
抑制从而失活,抑
制转录是通过一个2k
b的非编码RNA(X
ist RNA)
实现
的,xist RNA
装配在失活X染色体的
外侧,引起结构改变导
致失
活;RNAi研究
:
RNAi是
由RNA(siRNA
、机体的micrRN
A)导致的转录后基因
沉默
现象;一些小核R
NA调控基因转录。
发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1714627416a2483514.html
评论列表(0条)