System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于图神经网络与负样本生成的癌症驱动基因识别方法技术_技高网

一种基于图神经网络与负样本生成的癌症驱动基因识别方法技术

技术编号:40951247 阅读:2 留言:0更新日期:2024-04-18 20:26
本发明专利技术公开了一种基于图神经网络与负样本生成的癌症驱动基因识别方法,首先选取多个生物网络与多组学数据,将多组学数据视为网络中结点的属性,利用图神经网络方法获取结点的低维特征向量;然后已知癌症驱动基因,标记为正样本,利用异常检测算法计算未标记基因相较于正样本的异常分数,结合多个数据库从大到小筛选与癌症没有关联的未标记基因作为负样本,其数量与正样本数量一致以保证正负样本平衡。最后将正样本与负样本的低维特征向量组成标准数据集后,训练一个二分类器,并将这个二分类器应用于剩余的未标记基因中,从而得到这些未标记基因为癌症驱动基因的概率。最后将排名靠前的结点将被视为癌症驱动基因,并可将其用于泛癌分析。

【技术实现步骤摘要】

本专利技术属于生物信息学,具体涉及一种癌症驱动基因识别方法。


技术介绍

1、癌症以基本生物过程的失调为特征,包括生长、增殖和细胞死亡。癌症的发生和进展被认为是驱动基因改变积累的结果,准确地鉴定癌症驱动基因对于理解癌症发病机制的理解和开发个性化癌症药物至关重要。随着来自大量癌症患者的基因组、表观基因组、转录组和蛋白质组学数据的出现,为该领域的研究人员提供了宝贵的资源。此外,生物网络作为描述生物实体及其相互连接特征的模型,使研究人员能够从生物系统的角度对癌症有更加深入的见解。因此,将泛癌多组学数据与生物网络相结合,已经引起了人们对于鉴定癌症驱动基因的广泛关注。近年来,深度学习在分子生物学和基因组学领域取得了一定的成就,尤其是图神经网络(gnns)在这个领域中已经成为一种具有前景的方法。例如,文献“schulte-sasse,r.,budach,s.,hnisz,d.,et al.:integration of multiomics data with graphconvolutional networks to identify new cancer genes and their associatedmolecular mechanisms.nature machine intelligence 3,513–526(2021)”中描述emogi是一种基于gcn的癌症驱动基因识别方法,通过结合蛋白质相互作用(ppi)网络和泛癌多组学数据来预测癌症基因。文献“peng,w.,tang,q.r.,dai,w.,et al.:improving cancerdriver gene identification using multi-task learning on graph convolutionalnetwork.briefings in bioinformatics(2021)”中mtgcn整合了ppi网络和多组学数据,并通过基于切比雪夫gcn的多任务学习方法提高了鉴定癌症驱动基因的性能。尽管这些方法相较于传统方法有显著的进步,但癌症的发生往往涉及基因相互作用的不同方面,如代谢、激酶和调控等,而这些方法仅仅关注单个网络,这不可避免地忽视了相互作用中的不完整性和噪声。此外,需要强调的是,大多数模型忽视了类别不平衡所带来的影响,这可能会严重限制模型的预测能力。

2、基于目前研究的不足,有必要提供一种能高效识别癌症驱动基因的方法。


技术实现思路

1、为了克服现有技术的不足,本专利技术提供了一种基于图神经网络与负样本生成的癌症驱动基因识别方法,首先选取多个生物网络与多组学数据,将多组学数据视为网络中结点的属性,利用图神经网络方法获取结点的低维特征向量;然后收集目前数据库中记录的已知癌症驱动基因,将这些基因标记为正样本,利用异常检测算法计算未标记基因相较于正样本的异常分数,结合多个数据库从大到小筛选与癌症没有关联的未标记基因作为负样本,其数量与正样本数量一致以保证正负样本平衡。最后将正样本与负样本的低维特征向量组成标准数据集后,训练一个二分类器,并将这个二分类器应用于剩余的未标记基因中,从而得到这些未标记基因为癌症驱动基因的概率。最后将排名靠前的结点将被视为癌症驱动基因,并可将其用于泛癌分析。

2、本专利技术解决其技术问题所采用的技术方案包括如下步骤:

3、步骤1:选取多个生物网络组成多元网络;多个生物网络用邻接矩阵形式表示为r表示生物网络的数量;收集多组学数据作为多元网络中结点的属性n表示多元网络中结点的数量,f表示多组学数据的维度;

4、步骤2:通过生成随机的结点属性,每个网络都能生成一个与之相对的负样例网络将每个原始网络即真实图表示与其负样例网络即带扰动的图表示同时通过图卷积神经网络gcn,得到每个节点在每个网络的编码向量,再通过带逻辑值的交叉熵进行优化;然后将原始网络中的结点的编码向量h(r)与负样例网络中的编码向量分别通过聚合层得到聚合编码向量h与最后通过正则化器区分原始网络和负样例网络来训练模型得到最终基因的特征表示向量z;

5、步骤3:基于基因的特征表示向量z,从数据库中收集已知癌症基因,作为正样本,其余基因为未标记基因;将正样本通过自编码器得到超球面的圆心c,然后再通过神经网络训练一个超球面,输入未标记基因能够得到未标记基因相较于已知癌症基因的异常分数,然后将未标记基因对应的异常分数从大到小排序,依次选择不涉及kegg数据库中的“pathway in cancer”通路,以及不在ncg数据库、人类孟德尔遗传数据库omim和cosmic数据库的基因,作为负样本,选取数量与正样本数量一致,以达到正负样本平衡的目的;

6、步骤4:最后将正负样本组成一个基准数据集,训练一个xgboost分类器,训练好以后用来预测剩余的未标记基因,最后得到剩余的未标记基因为癌症驱动基因的概率。

7、优选地,所述生物网络为通路网络、蛋白质-复合物网络、激酶-底物配对网络。

8、优选地,所述组学数据为基因突变组学、dna甲基化组学、基因表达组学数据。

9、优选地,所述步骤2具体为:

10、利用多元网络嵌入算法dmgi学习图中结点的特征表示向量,首先引入gcn产生结点在不同网络中的编码矩阵h(r):

11、

12、其中a(r)表示生物网络的邻接矩阵,是的度矩阵,σ(·)表示relu激活函数,w(r)是可训练参数;同理,将负样例网络通过gcn后可得到

13、为了得到图级别的结点编码向量表示,采用readout函数:

14、

15、其中σ(·)表示sigmoid激活函数,为结点vi在中的编码向量;

16、通过带逻辑值的二元交叉熵损失函数优化特征表示向量

17、

18、其中m(r)为可训练的参数;

19、利用平均池化得到结点的全局编码向量h:

20、

21、引入正则化器得到结点的特征表示向量z:

22、

23、最终的目标函数表示为:

24、

25、其中,α与β分别为正则化器与l2范数||θ||2的系数。

26、优选地,所述步骤3具体为:

27、利用异常检测算法deepsvdd生成未标记基因的异常分数,并借助数据库筛选出负样本;deepsvdd的目标是学习一个神经网络,表示为它将数据映射到一个以c为中心的超球体空间中,在这个新的空间中,确保正常点被包含在这个超球体内,而少部分异常点则位于超球体外部,从而实现异常检测;deepsvdd的目标如下所示:

28、

29、其中pos代表正样本,即已知癌症驱动基因;c通过预训练一个自编码器得到。

30、在获得训练好的超球面之后,对于未标记的基因,它们的异常分数s(zunlabeled)按如下方式计算:

31、

32、其中是训练好的参数。...

【技术保护点】

1.一种基于图神经网络与负样本生成的癌症驱动基因识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于图神经网络与负样本生成的癌症驱动基因识别方法,其特征在于,所述生物网络为通路网络、蛋白质-复合物网络、激酶-底物配对网络。

3.根据权利要求1所述的一种基于图神经网络与负样本生成的癌症驱动基因识别方法,其特征在于,所述组学数据为基因突变组学、DNA甲基化组学、基因表达组学数据。

4.根据权利要求1所述的一种基于图神经网络与负样本生成的癌症驱动基因识别方法,其特征在于,所述步骤2具体为:

5.根据权利要求4所述的一种基于图神经网络与负样本生成的癌症驱动基因识别方法,其特征在于,所述步骤3具体为:

【技术特征摘要】

1.一种基于图神经网络与负样本生成的癌症驱动基因识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于图神经网络与负样本生成的癌症驱动基因识别方法,其特征在于,所述生物网络为通路网络、蛋白质-复合物网络、激酶-底物配对网络。

3.根据权利要求1所述的一种基于图神经网络与负样本生成的癌症驱动基...

【专利技术属性】
技术研发人员:李幸一李俊明尚学群
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1