【技术实现步骤摘要】
一种识别癌症驱动通路的方法
[0001]本专利技术涉及癌症驱动通路识别领域,具体是一种识别癌症驱动通路的方法。
技术介绍
[0002]随着深度测序技术的快速发展,近年来,癌症基因组图谱计划(The Cancer Genome Atlas,简称TCGA)、国际肿瘤基因组协作组(the International Cancer Genome Consortium,简称ICGC)等大规模的癌症工程,提供了大量癌症多组学数据。在过去的数项研究中,设计有效的计算方法来识别癌症发生过程中的“驱动突变”成为热点。然而,大多数方法都无法确定基因突变的异质性,即来自同一癌症的不同样本之间,得到的突变基因也可能不同。研究人员发现,不同的突变基因靶向同一生物通路几率很高,并且发现癌症的发展实质上是由生物通路控制。于是,有必要将观点从基因水平转移到通路水平,这对于捕获癌症中的异质现象至关重要。因此识别驱动通路的问题逐渐成为热点,该问题主要分为:单驱动通路识别、合作驱动通路识别以及泛癌驱动通路识别。
[0003]目前基于先验生物通路知识和从头 ...
【技术保护点】
【技术特征摘要】
1.一种识别癌症驱动通路的方法,其特征在于,包括如下步骤:1)构造加权的非二进制突变矩阵:现有某个癌症的体细胞突变矩阵拷贝数变异矩阵和基因表达矩阵在体细胞突变矩阵拷贝数变异矩阵和基因表达矩阵三个矩阵中行表示该癌症的相同样本集p,列分别表示基因集G
S
、G
C
和G
E
,在矩阵中,s
ij
∈{0,1}(i=1,2,
…
,|p|,j=1,2,
…
,|G
S
|),i样本中j基因突变,s
ij
值为1,反之值为0;矩阵中每个元素c
ij
∈{-2,-1,0,1,2}(i=1,2,
…
,|p|,j=1,2,
…
,|G
C
|),表示i样本中j基因拷贝数变异值;在矩阵中e
ij
∈R(i=1,2,
…
,|p|,j=1,2,
…
,|G
E
|),表示i样本中j基因表达量;令矩阵中的基因集为G
A
=G
S
∪G
C
,样本集为p,令a
ij
∈{0,1}(i=1,2,
…
,|p|,j=1,2,
…
,|G
A
|),其中为突变矩阵,当s
ij
取值为1或i样本中j基因处于统计显著变异区域时,a
ij
值为1,反之值为0,为了进一步整合突变矩阵和表达矩阵在突变矩阵和表达矩阵中取基因集G=G
A
∩G
E
,重新得到两个矩阵A
|p|
×
|G|
和E
|p|
×
|G|
,对于基因表达数据,存在正常样本表达矩阵N
|n|
×
|G|
,n表示正常样本,在矩阵N
|n|
×
|G|
中,n
ij
∈R(i=1,2,
…
,|p|,j=1,2,
…
,|G|),表示i样本中j基因表达量,令差异倍数矩阵D
|p|
×
|G|
,d
ij
∈R(i=1,2,
…
,|p|,j=1,2,
…
,|G|),表示i样本中j基因表达量相比j基因在正常样本中表达量的差异倍数用表示,其中则d
ij
值为否则d
ij
值为0,处理好差异倍数矩阵D
|p|
×
|G|
,进一步对突变矩阵A
|p|
×
|G|
进行加权处理,整合成加权突变矩阵,对于A
|p|
×
|G|
,如果a
ij
=1,并且d
ij
≥λ1,则a
ij
=1.5,如果a
ij
=0,并且d
ij
≥λ2,则a
ij
=(2
·
l)-1
·
d
ij
,其中λ1和λ2是截取差异倍数的阈值,l是j基因对应所有样本中差异倍数的最大值,针对突变基因,λ1取较低值,使a
ij
∈{1,1.5},以提高该突变基因的突变可信值;针对不突变基因,λ2取较高值,使a
ij
∈[0,0.5],以提高该不突变基因的突变可信值,使其可能成为潜在基因,经过加权重新得到加权突变矩阵A
|p|
×
|G|
,a
ij
∈[0,1.5](i=1,2,
…
,|p|,j=1,2,
…
,|G|);2)设定识别模型:针对加权突变矩阵A
|p|
×
|G|
,基于高覆盖和高互斥两个特性,重新构建新的整合模型,假设M
|p|
×
k
为矩阵A
|p|
×
|G|
的任一子矩阵,令Γ(m)={m
i
|m
i
=max{a
im
|m∈M},i=1,2,
…
,|p|}记录矩阵M
|p|
×
k
每行中最大权值,令矩阵M
|p|
×
k
的覆盖度对于矩阵M
|p|
×
k
中一行的互斥度,考虑这一行的离散程度,用变异系数计算每行的互斥度,每行互斥度之和为整个M
|p|
×
k
的互斥度,具体表示如公式(1)所示:
其中当趋近于0值时,对于变异系数值影响很大,所以如果M
|p|
×
k
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。