2024年3月15日发(作者:)
-8
-
科学技术创新
2019.12
基于差异分析的方法挖掘肺腺癌不同时期的功能
赵华旭
(河北工业大学
,
天津
300400
)
摘要
:
肺腺癌是一种动态多样的疾病
,
在临床上可分为四个时期
。
通过研究肺腺癌不同时期基因表达与功能的特点
,
有助于
理解肺腺癌的发生发展机制
。
从
ArrayExpress
数据库下载肺腺癌不同时期的基因表达数据并进行整合
,
使用
R
语言
Limma
包筛
选差异表达基因
,
对差异表达基因进行功能富集分析
。
肺腺癌分期数据整合后得到
10998
个基因和
1102
个样本
。
差异表达基因在
I
期的调控方式与其它时期不同
,
在
I
期上调(下调)的基因在
II
期
、
III
期和
IV
期将下调(上调)
。
通过疾病富集分析挖掘到诸如
AGER
、
TOP2A
、
CCNB1
、
AURKB
等与肺腺癌发生发展有很大相关性的基因.差异表达基因在肺腺癌不同时期的表达与功能不
同
,
可能与肺腺癌的发展相关
。
关键词
:
肺腺癌
;
差异表达基因
;
功能富集分析
中图分类号
:
Q811.4
文献标识码
:
A
文章编号:
2096-4390(2019)12-0008-03
肺癌是最常见的癌症
,
也是导致癌症死亡的主要原因叫非
利用
limma
包晒筛选差异表达基因网
。
首先对疾病组和正常
小细胞肺癌占肺癌患者的
85%,
分为肺腺癌
、
肺鳞状细胞癌和
组进行基因表达差异分析
,
即不区分肺腺癌的四个不同时期
。
大细胞癌三种亚型叫按国际肺癌分期标准肺癌可分为四个时
其次分别对肺腺癌四个不同时期的疾病组和正常组进行基因
期叫肿瘤分期能够很好地指导临床实践
,
辅助专科医生确定治
表达差异分析
。
通过表达倍数变化值的对数值
(Ilog2fel>l)
和调
疗方案
,
如早期的患者可采取手术治疗
,
而中晚期病人则采取放
整后
P
值
(p<0.05
)
来筛选差异表达基因
。
化疗或分子靶向治疗
。
在非小细胞肺癌中
,
根治性手术通常用
1.4
功能富集分析
使用
clusterProfiler
包卩哒行功能富集分析
。
对差异表达基因
于肿瘤分期为
I
期
、
II
期及可完全切除的
Ola
期的患者
。
早期
性咳嗽
、
痰液和其他症状叫
肺腺癌患者症状不易被觉察
,
只有在晚期才会逐渐出现诸如慢
做基因本体论
I16|
(Gene
Ontology,
GO)
分析、
信号通路
□(Kyoto
Encyclopaedia
of
Genes
and
Genomes,
KEGG)
分析
。
2
结果
近年来
,
肺癌前病变的发生和发展的分子机制引起了人们
的重视并进行了深入的研究口
61
,希望能寻找到可用于早期诊
断
、
癌症化学预防和阻止恶化的癌前病变的特征叫通过对肺腺
2.1
疾病组与正常组基因表达差异分析
为了研究肺腺癌正常组与疾病组之间的关系
,
我们对其进
癌早期和晚期的研究
,
发现一些早期的关键基因和生物标记物
行基因表达差异的显著性分析,共得到
644
个差异表达基因
,
其
在肺腺癌的发生和发展中的作用明显叫随着数据库中关于
中表达水平上调的基因有
431
个,下调的基因有
213
个
。
癌症肿瘤样本分期数据的不断积累,
可以通过分析癌症肿瘤样
2.2
肺腺癌不同时期疾病组与正常组基因表达差异分析
我们分别对肺腺癌四个时期的疾病组与正常组进行基因表
本数据和正常组织样本数据来获取具有诊断和预后价值的特
异性失调基因叫基于现有的大量肺腺癌分期数据
,
可以对肺腺
达差异的显著性分析
,所得的差异表达基因结果如表
1
所示
。
然
癌的四个发展时期进行更为深入的研究
,
了解不同时期基因表
后对各个时期的差异表达基因进行了
GO
分析(如图
)
达调控的特点
,
并挖掘关键基因与生物标记物
。
因此
,
我们基于
ArrayExpress
数据库问
,
对下载的肺腺癌基
和
KEGG
分析(如图
Id)
。
表
1
不同时期差异表达基因个数
Stage
因表达数据进行整合
,利用基因表达差异分析和功能富集分析
的方法
,
研究不同时期的基因表达和功能特点
。
DEGs
619
789
685
Up-regulated
418
280
246
111
Down-regulated
Stage
I
Stage
II
Stage
III
Stage
IV
201
1
材料与方法
1.1
数据下载
因芯片表达谱数据
,
包括表达数据文件和临床文件
。
518
439
250
361
从
ArrayExpress
数据库㈣下载了全部关于肺腺癌分期的基
DEGs:
differentially
expressed
genes;
3
讨论
从疾病组与正常组的
GO
分析的结果可以看出上调基因主
1.2
数据处理及整合
由于芯片数据来自于不同批次
,
所以需要对获得的数据进
要与细胞外基质
、
蛋白结合和血管生成有关
,
下调基因主要与染
行处理和整合。
通过质量控制剔除不合格样本,并使用
affy
包何
色体复制
、
微管活动和有丝分裂有关
。
这一结果表明差异表达
的
MAS5
算法进行背景校正
、
标准化和汇总等预处理
。
对表达谱
基因在促进营养物质积累
,
抑制细胞分裂,所以腺癌细胞与鳞状
使用
ComBat
方法问消除批次效应
,
对表达谱基因求交集得到
细胞癌或大细胞癌相比
,
细胞较大,核较大
,
核浆比值较高
。从
10998
个基因
,
1102
个样本(其中对照组
213
个、
第一阶段
576
KEGG
分析的结果可以发现显著富集的有细胞周期
、
卵母细胞
个
、
第二阶段
212
个
、
第三阶段
79
个和第四阶段
22
个)
。
减数分裂
、
黄体酮调节的卵母细胞成熟和
P
53
信号通路等。
这与
1.3
基因表达差异分析
作者简介
:
赵华旭
(1988-),
男
,
硕士
。
先前研究的结论类似叭叫这些信号通路的异常表达与非小细
2019.12
科学技术创新
-9
-
a
sister
chromatid
segregation
mrtohc
nuclear
division
nuclear
diviston
nucfear
chrwnosome
segregation
-
chromosome
segregation
mitotic
sister
chfomatid
segregation
-
organelle
fission
angiogenesis
•
•
■
•
•
•
■
J
1
regidation
of
epithelial
ceM
profcferation
negative
regulation
of
ceRidar
component
movement
vascutar
process
in
afcuJatory
system
-
regulation
of
angiogenesis
regulation
vascuteture
developmert
vasculogenesis
of
•
•
•
■
•
■
.
.
•
■
■
.
•
■
■
•
•
•
■
■
■
•
•
m
negative
regulation
growth
ot
■
•
•
•
.
.
•
•
•
■
■
■
■
•
■
■
•
■
■
•
•
.
■
■
•
■
•
■
■
p
adjust
0
0125
0.0100
0.0075
0
0050
0
0025
GeneRatio
•
0
08
•
012
regMation
of
endothebal
ce8
migrabon
DOWN
UP
DOWN
UP
DOWN
UP
DOWN
UP
d
microtubule
binding
CeH
cycle
■
mcrotubi^e
motor
activity
Malana
cGMP-PKG
signaling
pathway
tubdtn
binding
mrtoracbvrty
senne-type
endopeptidase
activity
senne-type
pepbdase
adwrty
senne
hydrolase
achvrty
p
»ijust
Drug
metabolism
cytochrome
P450
Tyrosine
metabo&sm
GeneRatio
Vascular
smooth
musde
contraction
Renin
secretion-
•
0
05
•
010
metaRoendopepbdase
activity
jMycosamtnoglycan
binding
histone
kinase
activity
sulfur
compound
binding
Regulation
of
fcpoJysis
in
adipocytes
GeneR^o
Hypertrophic
cardiomyopathy
(HCM)
Renin-angtotensin
system
p
adjust
heparin
binding
honnone
binding
•
0.M
Neuroactive
Sgand-receptor
interaction
Oocyte
meiosis
carbohydrate
biixing
cyto&ne
binding
1
DOWN
UP
DOWN
UP
DOWN
UP
DOWN
UP
004
0
03
002
001
p53
signabng
pathway
scavenger
receptor
activity
amyto«d-b^a
binding
Protein
digestion
and
absorplion
DOWN
UP
DOWN
UP
DOWN
UP
DOWN
UP
Progesterone
-mediated
oocyte
maturation
图
1
不同时期差异表达基因的
GO
分析
(a
:
生物过程
;
b
:
细胞组分
;
c
:
分子功能)和
KEGG
分析
(d)
胞肺癌密切相关并可能导致肿瘤的形成
。
色体浓缩与分离起调节作用
,
进而促进肿瘤的发生冋
。
CCNB1
蛋
通过对肺腺癌四个不同时期获得的差异表达基因做韦恩图
白是细胞周期蛋白
B1,
与
CDC20
蛋白有相互作用
,
可能是肺腺
分析发现有
310
个基因在四个时期都有表达差异
。
对
310
个基
癌诊断和预后靶点的潜在生物标志物⑷。
AURKB
基因编码蛋白
因做
GO
分析和
KEGG
分析后
,
发现这些基因和细胞增殖
、
微管
是有丝分裂的关键调控因子,
其过度表达也与非小细胞肺癌有
运动
、
有丝分裂、
细胞外基质
、
血管生成和蛋白结合等过程相关,
相关性冋
。
由此可以看出这些基因在癌症发生发展中起关键作
而且在肺腺癌恶性发展的过程中表达量呈现出动态变化
,
因此
用,可能是潜在的生物标志物
。
这些基因的功能可能调节癌症的进展
。
另外
,
分别有
24.109.
基于肺腺癌分期数据
,
通过基因表达差异分析和富集分析
,
45
J9
个基因为肺腺癌各时期所特有
。
从图
1
可以看出,肺腺癌
我们发现筛选的差异表达基因在肺腺癌
I
期的表达调控明显与
四个时期的差异表达基因富集的功能类型大致相同.但是富集
II
期
、
III
期和
IV
期不同
,这些基因表达的变化可能与疾病的变
的程度有所差别,
IV
期富集程度在下降
,
尤其
KEGG
富集变化
化相关
。
另外,通过疾病富集
,
我们发现了诸如
AGER
、
TOP2A
、
比较明显
。
同时
,
我们发现肺腺癌
II
期
、
III
期和
IV
期上调基因
CCNB1
.AURKB
等与肺腺癌发生发展有很大相关性的关键基
和下调基因富集到的功能相似
,
但与
I
期明显相反
。
这些基因表
因
。
总之
,对肺腺癌的四个不同时期进行分析和比较
,
可以使我
达调控的变化可能是影响疾病进程的重要原因
。
另外
,
从图
2d
们能更深入地了解肺腺癌各时期在分子层面潜在的发生发展
可以看出
』
53
信号通路在肺腺癌
II
期和
III
期明显富集
,
意味
机制
。
着
P53
信号通路可能在
II
期和
II
】
期起非常重要的作用
。
在筛
参考文献
选的差异基因中
,
我们发现
AGER
是晚期糖基化终产物特异性
[1
JBray
F,
Ferlay
J,
Soerjomataram
I,
et
al.
Global
cancer
受体,是为数不多的在肺癌中表达下调的病原体识别受体之一
statistics
2018:
GLOBOCAN
estimates
of
incidence
and
mortality
㈣
,
可能是肺腺癌的潜在生物标记物蚀
。
TOP2A
蛋白会通过短暂
worldwide
for
36
cancers
in
185
countries.
CA
Cancer
J
Clin,
的断裂和随后
DNA
链的重新连接来控制
DNA
拓扑状态
,
对染
20
1&
68
⑹
:
394-424.
-10-
科学技术创新
2019.12
[2]
Chen
Z,
Fillmore
CM,
Hammerman
PS,
et
al.
Non-small-cell
2011.
Nucleic
Acids
Res,
2012,
40(Database
issue):
D559-564.
lung
cancers:
a
heterogeneous
set
of
diseases.
Nat
Rev
Cancer,
[17]
Kanehisa
M,
Goto
S.
KEGG:
Kyoto
Encyclopaedia
of
Genes
2014,
14(8):
535-546.
and
Genomes.
Nucleic
Acids
Research,
2000,
volume
28
(1):
[3]
Goldstraw
P,
Rami-Porta
R,
Asamura
H,
et
al.
The
IASLC
27-30(24).
Lung
Cancer
Staging
Project:
Proposals
forRevision
of
the
TNM
[18]
Liu
Y,
Ni
R,
Zhang
H,
et
al.
Identification
of
feature
genes
Stage
Groupings
in
the
Forthcoming
(Eighth)
Edition
of
the
TNM
for
smoking-related
lung
adenocarcinoma
based
on
gene
Classification
for
Lung
Cancer.
Journal
of
Thoracic
Oncology,
expression
profile
data.
Onco
Targets
Ther,
2016,
9:
7397-7407.
2016,
11(1):
39-51.
diagnostic
biomarker
[19|Hirt
BV,
Wattis
JA,
Preston
SP,
et
al.
The
effects
of
a
of
lung
adenocarcinoma
based
on
integrated
modelling
and
experiments.
J
Theor
Biol,
2012,
295:
[20]
Rho
J-H,
Roehrl
MHA,
Wang
JY.
Glycoproteomic
Analysis
[4]
Fan
Z,
Xue
W,
Li
L,
et
al.
Identification
of
an
early
telomere
destabilizing
agent
on
cancer
cell-cycle
dynamics------
co-expression
similarity
and
construction
of
a
diagnostic
model.
9-22.
Journal
of
Translational
Medicine,
2018,
16(1):
205.
[5]
Sivakumar
S,
Fas
L,
Mcdowell
TL,
et
al.
Genomic
Landscape
of
Human
Lung
Adenocarcinomas
Using
Glycoarrays
and
of
Atypical
Adenomatous
Hyperplasia
Reveals
Divergent
Modes
Tandem
Mass
Spectrometry:
Differential
Expression
and
to
Lung
Adenocarcinoma.
Cancer
Research,
2017,
77
(22):
Glycosylation
Patterns
of
Vimentin
and
Fetuin
A
Isoforms.
The
6119-6130.
Tsay
[6]
Protein
Journal,
2009,
28(3-4):
148-160.
JCJ,
Li
Z,
Yie
TA,
et
al.
Molecular
Characterization
of
[21]
Liu
W,
Ouyang
S,
Zhou
Z,
et
al.
Identification
of
genes
adenocarcinoma:
Analyses
based
on
microarray
from
Oncomine
the
Peripheral
Airway
Field
of
Cancerization
in
Lung
associated
with
cancer
progression
and
prognosis
in
lung
Adenocarcinoma.
Pios
One,
2015,
10(2):
eOl
18132.
PREVENTION
AND
INTERCEPTION
:
A
NEW
ERA
FOR
[7Albini
A,
Decensi
A, Cavalli
F,
et
al.
CANCER
and
The
Cancer
Genome
Atlas
databases.
Mol
Genet
Genomic
Med,
2018.
[22]
Lan
J,
Huang
HY,
Lee
SW,
et
al.
TOP2A
overexpression
as
carcinoma.
Tumour
Biol,
2014,
35(1):
179-187.
CHEMOPREVENTIVE
APPROACHES.
Clinical
Cancer
Research
An
Official
Journal
of
the
American
Association
for
Cancer
a
poor
prognostic
factor
in
patients
with
nasopharyngeal
Research,
2016,
22(17):
4322.
Zhao
[8]
Y,
Lu
H,
Yan
A,
et
al.
ABCC3
as
a
marker
for
[23]
Vischioni
B,
Oudejans
JJ,
Vos
W,
et
al.
Frequent
overexpression
of
aurora
B
kinase,
a
novel
drug
target,
in
non-small
cell
lung
carcinoma
patients.
Mol
Cancer
Ther,
2(X)6,
multidrug
resistance
in
non-small
cell
lung
cancer.
Scientific
Reports,
2013,
3(11):
3120.
Shang
[9]
J,
Song
Q,
Yang
Z,
et
al.
Identification
of
lung
5(11)
:
2905-2913.
adenocarcinoma
specific
dysregulated
genes
with
diagnostic
and
prognostic
value
across
27
TCGA
cancer
types.
Oncotarget,
2017,
8(50)
:
87292-87306.
Nikolay
[10]
K,
Emma
H,
Maria
K,
et
al.
ArrayExpress
update
------
simplifying
data
submissions.
Nucleic
Acids
Research,
2015,
43
(Database
issue):
1113-1116.
[11
]Gautier
L,
Cope
LBolstad
BM,
Irizarry
RA.
affy
-
analysis
of
Affymetrix
GeneChip
data
at
the
probe
level.
Bioinformatics,
2004,
20(3):
307-315.
[12Leek
JT,
W
Evan
J,
Parker
HS,
et
al.
The
sva
package
for
removing
batch
effects
and
other
unwanted
variation
in
high-throughput
experiments.
Bioinformatics,
2012,
882-883.
28
(6):
[13]
Smyth
GK.
limma:
Linear
Models
for
Microarray
Data.
Bioinformatics
&
Computational
Biology
Solutions
Using
R
&
Bioconductor,
2011:
397------
420.
[14]
Dudoit
S,
Yang
YH,
Callow
MJ,
et
al.
Statistical
methods
for
identifying
differentially
expressed
genes
in
replicated
cDNA
microarray
experiments.
Stat.
Sinica
12,
111-139.
Statistica
Sinica,
2002,
12(1):
111
------
139.
[15]
Yu
G,
Wang
LG,
Han
Y,
et
al.
clusterProfiler:
an
R
package
for
comparing
biological
themes
among
gene
clusters.
OMICS,
2012,
16(5)
:
284-287.
[16]
Gene
Ontology
C.
The
Gene
Ontology:
enhancements
for
发布者:admin,转转请注明出处:http://www.yc00.com/web/1710480267a1764036.html
评论列表(0条)