【技术实现步骤摘要】
一种识别癌症驱动通路的多核并行计算方法
[0001]本专利技术涉及生物信息学领域,用于识别癌症驱动通路,具体是一种识别癌症驱动通路的多核并行计算方法。
技术介绍
[0002]据报道癌症是导致人类死亡的主要因素,也是延长预期寿命的重要限制。驱动突变不同于随机发生的乘客突变,它会导致癌症的发生。而驱动突变通常针对参与细胞信号传导和调节通路的基因。因此,在多组学数据的背景下识别这些突变是当前的一个热点问题。
[0003]一般认为,高覆盖率和高互斥性是细胞信号通路或调节通路中驱动突变的两种基本特征。高覆盖率意味着驱动基因在患者队列中反复出现,互斥性意味着几乎所有患者在驱动基因集中表现出不超过一个驱动突变事件。随后,张等人在2013年提出了iMCMC方法,这是一种识别癌症中突变核心模块的方法,它通过选择具有高权重的顶点和边,通过优化模型从网络中识别出一致的子网络(模块)。最后,通过随机测试评估子网的重要性,并采用马尔可夫链蒙特卡罗置换策略测试子网的互斥性。Zheng等人在2016年提出了一种基于遗传算法(Multi
‑ ...
【技术保护点】
【技术特征摘要】
1.一种识别癌症驱动通路的多核并行计算方法,其特征在于,包括如下步骤:1)设计驱动通路识别模型:假设有体细胞突变矩阵拷贝数变异矩阵矩阵S和矩阵C的行表示癌症样本集P,列分别表示基因集G
S
和G
C
,矩阵S中每个元素的值为s
ij
={0,1},i=1,2,...,|P|,j=1,2,...,|G
S
|,若基因j在患者i中发生突变,则S
ij
=1,否则S
ij
=0;矩阵C中元素的值为
‑
2至2,c
ij
∈{
‑
2,
‑
1,0,1,2},拷贝数变异数据的元素值通过GISTIC工具分析后得到;假设有蛋白质相互作用PPI网络Q=(V,E),其中每个顶点v
i
∈V表示g
i
基因所表达的蛋白,而每条无向边e
ij
∈E表示g
i
和g
j
基因所对应的蛋白之间的相互作用,i≠j,在此,基因g
i
表示为Q中对应的顶点;由矩阵S和矩阵C生成的二进制突变矩阵A
|P|
×
|G|
,其中G=G
S
,矩阵A中每个元素a
ij
,i=1,2,...,|P|,j=1,2,...,|G|,当第i个样本中的第j个基因发生突变时,a
ij
的值为1,否则为0;设M
|P|
×
K
表示矩阵A中的任意子矩阵,Γ(j)={a
i
‑
|a
ij
=1},i=1,2,...,|P|表示a
‑
j
基因突变的一组样本集,其中,a
i
‑
和a
‑
j
分别表示第i行和第j列,CO(M)表示为矩阵M覆盖样本的比例,即衡量矩阵M的覆盖度,如公式(1)所示:其中,代表矩阵M所覆盖的样本集合,CO(M)的值越大,代表M的覆盖度越高;令记录样本i在矩阵M中发生突变的基因数,M的互斥度ME(M)如下公式(2)所示:ME(M)越大,矩阵M的互斥度越高,其中公式(2)的直观意义来自于调和均值的倒数,采用癌症样本突变基因数的调和均值的倒数作为互斥性的评价指标,以降低突变较多基因的个别患者对识别整个基因集的影响,也就是放松互斥性的约束,进而识别出有个别样本互斥性较差、其余大部分样本互斥性较高的重要通路;令SI是M基因在网络Q中的重要性,如公式(3)所示,其中,代表节点v
i
的度,而代表整个网络中节点的最大度值,表示基因g
i
在PPI网络中的度值;基于公式(1)、(2)(3)定义,构造一个CMS模型:给定一个具有|P|行、|G|列的二进制突变矩阵A,PPI网络Q和一个参数K,0<K<|G|,通过最大化函数W(M)识别一个|P|
×
K的子矩阵M,W(M)具体公式(4)如下:
2)定义个体适应度函数:定义适应度函数,适应度函数用于评估个体或者染色体在目标函数上的表现;个体直接使用染色体表示,一条染色体就代表问题的解向量,用K个基因组成的集合作为一个问题解,即X={x1,x2,...,x
K
},x
i
∈{1,2,...,|G|},i={1,2,...,K},代表一条染色体;给定一个染色体X对应于具有|P|行和|X|列的子矩阵M
X
,适应度函数F(X)定义为公式(5),个体适合度越大,解决方案就越可行;F(X)=W(M
X
)
ꢀꢀꢀ
(5);3)设定交叉操作:按照适应度值从小到大排序,采用轮盘赌随机从父种群中选取两个个体,这两个个体的公共基因直接遗传给子代,剩余基因放入一个集合,然后随机从这个集合选取基因作为子代后面的基因,假设通过选择算子选择了双亲X1和X2,首先取出X1和X2的公共基因X1∩X2,直接遗传给后代X
′
,X
′
的其它基因由X1和X2的基因取差集(X1∪X2)
‑
(X1∩X2)后剩下的基因随机选取得到,经过一次交叉,生成一个子代;4)设计突变操作:变异算子的作用主要是产生新个体,增加种群中基因的多样性;设计三个突变算子来提高种群多样性,分别是多点突变算子、基于贪婪突变算子和逆转突变算子;给定染色体X={x1,x2,...,x
K
},x
i
∈{1,2,...,|G|},i={1,2,....
【专利技术属性】
技术研发人员:陈小荣,邓政,吴璟莉,黄宏本,邓家伟,曾庆湖,庞光垚,莫智懿,
申请(专利权)人:梧州学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。