当前位置: 首页 > 专利查询>安徽大学专利>正文

一种癌症驱动基因识别方法及系统技术方案

技术编号:36802271 阅读:23 留言:0更新日期:2023-03-08 23:52
一种癌症驱动基因识别方法及系统,方法为:S1、收集正常样本与肿瘤样本的多组学数据,计算出组学特征值和网络结构特征值;S2、将处理后的组学特征值和网络结构特征值进行拼接,构建新的融合特征;另外使用集成学习的方法建立模型,使用序列前向选择策略对模型的第一层分类器进行筛选,第二层分类器采用逻辑回归对第一层分类器的结果赋予权重;S3、将新的融合特征输入到第一层的分类器,获得对应数量的分类器的预测概率;S4、将第一层的所有分类器的预测概率拼接后作为特征输入第二层的逻辑回归分类器进行拟合,最终模型输出表示基因成为驱动基因的概率。本发明专利技术同时考虑分子特征和网络结构特征,并克服了单个分类器性能偏差问题。题。题。

【技术实现步骤摘要】
一种癌症驱动基因识别方法及系统


[0001]本专利技术属于癌症驱动基因识别的
,尤其涉及一种癌症驱动基因识别方法及系统。

技术介绍

[0002]作为全球第二大常见死因,癌症每年导致超过800万人死亡,预计未来几十年癌症发病率将增加50%以上。体细胞中发生多种基因突变,如单核苷酸变异、结构变异、插入和缺失和拷贝数改变,但大多数突变是随机的。这些对细胞没有功能影响的随机突变被称为乘客突变。还有少数突变增加了细胞相对于其邻居的选择性生长优势,并允许它自行繁殖和侵入其他组织。这些突变可能促进癌症的发生和发展,它们被称为驱动突变。携带驱动突变的基因被认为是驱动基因。一些不含突变但表达异常的基因如果能促进癌症的发展,也可能是驱动基因。在这项专利技术中,本申请主要关注突变的驱动基因。
[0003]随着生物数据中信息量的不断增加,越来越多的计算方法可以从基因组数据中准确定位与癌症因果关系相关的基因,这推动了癌症驱动基因的综合鉴定取得了重大进展。基于频率的方法通过研究其突变特征和预设背景突变率来发现癌症驱动基因,因为癌症驱动基因应该在不同样本中频繁变化。然而,背景突变率通常无法正确估计,基于频率的方法往往会忽略突变频率低的致癌驱动基因。基于网络的方法评估了生物网络中的遗传基因,最后通过评估基因在网络中的作用来区分驱动基因,例如DriverNet、CBNA、NetSig等方法,在网络层面识别癌症基因并揭示其分子机制,但结果依赖于所使用的网络方法。
[0004]随着近年来的发展,机器学习(ML)已成功应用于几个重大的生物医学问题,特别是,机器学习方法因其在生物信息学领域的多项预测任务中的出色表现而受到越来越多的关注。值得注意的是,在许多处理高维数据的机器学习方法中,集成方法通常优于个体分类方法。因此,需要一种基于集成学习的方法来准确的识别癌症驱动基因。

技术实现思路

[0005]为能够同时考虑分子特征和网络结构特征,避免单个分类器性能偏差的问题,提高癌症驱动基因的识别准确性,为此,本专利技术提出了一种癌症驱动基因识别方法及系统,具体方案如下:
[0006]一种癌症驱动基因识别方法,包括以下步骤:
[0007]S1、收集正常样本与肿瘤样本的多组学数据,计算出组学特征值和网络结构特征值,所述组学特征值包括差异表达值、差异甲基化值、基因突变频率值、蛋白质

蛋白质相互作用网络数据;
[0008]S2、将处理后的组学特征值和网络结构特征值进行拼接,构建新的融合特征;另外使用集成学习的方法建立模型,使用序列前向选择策略对模型的第一层分类器进行筛选,第二层分类器采用逻辑回归对第一层分类器的结果赋予权重;
[0009]S3、将新的融合特征输入到第一层的分类器,获得对应数量的分类器的预测概率;
[0010]S4、将第一层的所有分类器的预测概率拼接后作为特征输入第二层的逻辑回归分类器进行拟合,最终模型输出表示基因成为驱动基因的概率。
[0011]具体地说,所述多组学数据包括差异表达值、差异甲基化、基因突变频率值和蛋白质

蛋白质相互作用网络数据;其中基因的表达值、DNA甲基化值和基因突变数据来自TCGA数据库,蛋白质

蛋白质相互作用网络数据来自ConsensusPath DB数据库。
[0012]具体地说,在正常样本和肿瘤样本中,只有同时具有可用基因表达值或DNA 甲基化值的癌症类型的多组学数据被保留并使用,具体包括8000多个正常样本和16种不同癌症类型的肿瘤样本。
[0013]具体地说,差异表达值被准确测量为肿瘤表达与配对的正常样本表达之间的log2fold变化,然后在样本中取平均值;所述基因突变频率值为在特定癌症类型的所有样本中观察到的单核苷酸变异和拷贝数变异的平均值,拷贝数变异包括扩增变异和缺失变异。
[0014]具体地说,计算差异甲基化值由所有肿瘤样本和正常样本的甲基化信号的平均值确定,具体计算利用公式(1)计算得:
[0015][0016]其中,表示第c种癌症中基因i差异DNA甲基化值,和分别是癌变样本和配对的正常样本中的甲基化信号,S
c
代表一种癌症的样本集。
[0017]具体地说,网络结构特征值通过蛋白质

蛋白质相互作用网络数据计算获得, MTGCN中使用的蛋白质

蛋白质相互作用网络数据是从Consensus Path DB数据库中收集的,在消除分数小于0.5的交互之后,获得了一个具有13,627个节点和504,378条边的网络,接着利用深度游走算法获取网络结构特征值,深度游走公式为:
[0018][0019]其中,c
i
‑1=v表示当前节点;c
i
=x表示下一个要到达的节点;其中N
v
表示节点v的邻居节点,|Nv|表示Nv的数量。
[0020]具体地说,构建新的融合特征的具体步骤如下:
[0021]SA21、将步骤S1中计算得到的差异表达值、差异甲基化值、基因突变频率值后,将每个基因分配到一个N*y维向量,其中N表示基因的数量,y表示组学类型,即差异表达、差异甲基化、基因突变频率;
[0022]SA22、将N*3维向量连接起来,形成一个N行48列的泛癌矩阵,在连接不同尺度的不同矩阵前,进行最小

最大归一化;
[0023]SA23、将N行48列的泛癌矩阵和16维的网络结构特征值矩阵直接左右拼接,得到每个基因的融合特征。
[0024]具体地说,使用序列前向选择SFS策略对第一层分类器进行筛选,第二层分类器采用逻辑回归对第一层分类器的结果赋予权重的具体步骤为:
[0025]SB21、模型的第一层选择7个分类器,分别为支持向量机、随机森林RF、决策树DT、
多层感知器、极端梯度提升、自适应提升算法和梯度提升GB,使用序列前项选择选择策略,为了实现最好的结果,本申请使用支持向量机、自适应提升算法和多层感知器组合作为第一层的分类器;
[0026]SB22、第二层分类器来对第一层的分类器性能赋予不同权重,以便更准确的分类,第二层分类器选择逻辑回归LR。
[0027]实现上述一种癌症驱动基因识别方法的系统,包括
[0028]收集计算单元,用于收集正常样本与肿瘤样本的多组学数据,计算出组学特征值和网络结构特征值,所述组学特征值包括差异表达值、差异甲基化值、基因突变频率值和蛋白质

蛋白质相互作用网络数据;
[0029]融合特征构建单元,将处理后的组学特征值矩阵和网络结构特征值矩阵进行左右拼接,构建新的融合特征;
[0030]集成学习单元,另外建立模型,使用序列前向选择SFS策略对模型的第一层分类器进行筛选,第二层分类器采用逻辑回归对第一层分类器的结果赋予权重;将新的融合特征放入单元中,最终输出表示基因成为驱动基因的概率。
[0031]一种癌症驱动基因识别方法的实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种癌症驱动基因识别方法,其特征在于,包括以下步骤:S1、收集正常样本与肿瘤样本的多组学数据,计算出组学特征值和网络结构特征值,所述组学特征值包括差异表达值、差异甲基化值、基因突变频率值、蛋白质

蛋白质相互作用网络数据;S2、将处理后的组学特征值和网络结构特征值进行拼接,构建新的融合特征;另外使用集成学习的方法建立模型,使用序列前向选择策略对模型的第一层分类器进行筛选,第二层分类器采用逻辑回归对第一层分类器的结果赋予权重;S3、将新的融合特征输入到第一层的分类器,获得对应数量的分类器的预测概率;S4、将第一层的所有分类器的预测概率拼接后作为特征输入第二层的逻辑回归分类器进行拟合,最终模型输出表示基因成为驱动基因的概率。2.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,所述多组学数据包括差异表达值、差异甲基化值、基因突变频率和蛋白质

蛋白质相互作用网络数据;其中基因表达、DNA甲基化和基因突变数据来自TCGA数据库,蛋白质

蛋白质相互作用网络数据来自Consensus Path DB数据库。3.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,在正常样本和肿瘤样本中,只有同时具有可用基因表达数据值或DNA甲基化值的癌症类型的多组学数据被保留并使用,具体包括8000多个正常样本和16种不同癌症类型的肿瘤样本。4.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,差异表达值被准确测量为肿瘤表达与配对的正常样本表达之间的log2fold变化,然后在样本中取平均值;所述基因突变频率值为在特定癌症类型的所有样本中观察到的单核苷酸变异和拷贝数变异的平均值,拷贝数变异包括扩增变异和缺失变异。5.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,计算差异甲基化值由所有肿瘤样本和正常样本的甲基化信号的平均值确定,具体计算利用公式(1)计算得:其中,表示第c种癌症中基因i差异DNA甲基化值,和分别是癌变样本和配对的正常样本中的甲基化信号,S
c
代表一种癌症的样本集。6.根据权利要求1所述的一种癌症驱动基因识别方法,其特征在于,网络结构特征值通过蛋白质

蛋白质相互作用网络数据计算获得,MTGCN中使用的蛋白质

蛋白质相互作用网络数据是从Consensus Path DB数据库中收集的,在消除分数小于0.5的交互之后,获得...

【专利技术属性】
技术研发人员:魏丕静周舒利郑春厚苏延森
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1