【技术实现步骤摘要】
一种识别癌症驱动通路的无参非线性智能优化方法
[0001]本专利技术涉及生物信息学领域,用于识别癌症驱动通路,具体是一种识别癌症驱动通路的无参非线性智能优化方法。
技术介绍
[0002]随着测序技术的不断发展,DNA测序技术的普及,目前已经可以实现对大量癌症体细胞突变进行全基因测序,基于第二代测序技术生成了很多可用的数据库,例如,癌症基因组图谱(The Cancer Genome Atlas,简称TCGA)、国际肿瘤基因组协作组(the International Cancer Genome Consortium,简称ICGC)等大规模的癌症工程。通过测序获得了大量有用的数据集,这些数据集可以支撑以上所说的寻找驱动通路的工作。基于这些测序数据集,很多研究人员提出了很多有用的识别驱动突变基因和驱动通路的工具。
[0003]随着通路识别问题的深入研究,研究人员发现癌症驱动通路具有两个基本特征,即“高覆盖性”和“高互斥性”。“高覆盖”表示驱动通路中的基因通常覆盖大量的患者,“高互斥”表示一个通路中的单个突变基因就可以充分扰 ...
【技术保护点】
【技术特征摘要】
1.一种识别癌症驱动通路的无参非线性智能优化方法,其特征在于,包括如下步骤:1)设定无人为参数的非线性模型:采用现有体细胞突变矩阵、拷贝数变异矩阵和蛋白质相互作用网络,其中,体细胞突变矩阵记为拷贝数变异矩阵记为矩阵S和矩阵C的行表示相同的样本集P,列分别表示基因集G
S
和G
C
,矩阵S中每个元素的值为S∈{0,1},如果基因j在患者i中发生突变,则S
ij
=1,否则S
ij
=0,矩阵C中元素的值为C∈{
‑
2,
‑
1,0,1,2},其中拷贝数变异矩阵C中的元素值通过GISTIC工具分析得到,设Q=(V,E)表示一个连接的PPI网络,其中每个顶点v
i
∈V表示基因g
i
表达的蛋白质,每个无向边e
ij
∈E表示基因g
i
与基因g
j
对应的蛋白质相互作用(i≠j),因此,g
i
同时表示Q中的基因和相应的顶点;令基因集G=G
S
,G在癌症样本集P上的取值记为A
|P|
×
|G|
,称为突变矩阵,a
ij
∈{0,1}(i=1,2,...,|P|,j=1,2,...,|G|),当S
ij
取值为1或者基因j在C中样本i的统计显著变异区域时,则a
ij
取值为1,反之为0,假设M
|P|
×
K
中为矩阵A中任意一个子矩阵,令Γ(j)={a
i
‑
|a
ij
=1}(i=1,2,...,|P|)记录基因a
‑
j
发生突变的样本集,如公式(1)所示,令CO(M)记录M中基因突变的样本占所有样本的比例,即衡量矩阵M的“覆盖度”,其中,表示矩阵M覆盖的患者集合,CO(M)的值越大,代表M的覆盖度越高,令记录样本i在矩阵M中发生突变的基因数,M的互斥度ME(M)如下公式(2)所示:ME(M)的值越小,代表M的互斥度越高,将一个癌症样本中突变基因的数量作为具有K个顶点的无向图中相互连接的顶点的数量,然后用一个稠密(或者稀疏)的图对应于同一样本的低(高)互斥性,采用矩阵M所覆盖的所有样本的平均互斥性度量矩阵M的互斥性;令NE(M)记录M中基因在网络Q中的实际边数与最大边数的比值,用来衡量矩阵M在PPI网络中连通性,则NE(M)用公式(3)表示为:其中,代表PPI网络Q中矩阵M的基因之间的实际边数;基于覆盖性CO、互斥性ME以及网络连通性NE的定义,构造非线性最大权重子矩阵模型:
给定|P|行,|G|列的二元突变矩阵A,一个PPI网络Q,一个参数K(0<K<|G|),令W(M)为最大权重子矩阵函数,确定一个|P|
×
K子矩阵M,具体公式(4)如下:由于高覆盖和高互斥性是驱动通路的基本特征,因此连通性NE(M)的贡献被调整小于CO(M)和ME(M),由于W(M)被重新定义为公式(5):2)设定适应度函数:定义两个适应度函数,一个是个体适应度函数,用于评估每条染色体所代表的问题可行解,另外一个是竞争适应度函数,用于评估种群的竞争能力:(a)个体适应度假设给定染色体X,令M
X
代表与染色体对应的一个子矩阵,矩阵M
X
的规模大小为|P|
×
K,个体适应度函数Fitness(X)的定义如下公式(6)所示,个体适应度函数值越大,代表可行解方案越好;Fitness(X)=W(M
X
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6);(b)种群适应度给定种群规模为N的种群pop1和pop2,和竞争对手集比例θ(0≤θ≤1),两个对手集L1和L2,L的个体是来源于各自种群中排名前θ
×
N个个体,令(i,j∈{1,2},i≠j)记录对手集L
j
中的第k个体在种群pop
i
的排名,令用于评价种群pop
i
的竞争能力,因此,种群pop
i
和pop
j
的适应度函数如公式(7)所示:如果CF
ij
<1,表示种群pop
i
获胜,反之,种群pop
j
获胜;3)设定交叉算子:按照适应度值从小到大排序,采用轮盘赌随机从父种群中选取两个个体,这两个个体的公共基因直接遗传给子代,剩余基因放入一个集合,然后随机从这个集合选取基因作为
子代后面的...
【专利技术属性】
技术研发人员:陈小荣,吴璟莉,李高仕,邓政,朱凯,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。