当前位置: 首页 > 专利查询>湖南大学专利>正文

一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法技术

技术编号:32462525 阅读:21 留言:0更新日期:2022-02-26 08:54
本发明专利技术涉及生物信息学中的数据挖掘领域,具体涉及一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法。其发明专利技术内容主要包括:(1)收集相关数据;(2)计算疾病的语义相似性,疾病的靶标相似性、lncRNA的序列相似性、lncRNA的功能相似性(3)利用DDS

【技术实现步骤摘要】
一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法


[0001]本专利技术涉及生物信息学中的数据挖掘领域,具体涉及一种基于融合多维数据的异构图与图深度学习的lncRNA与疾病关联预测方法。

技术介绍

[0002]随着人类基因组计划的完成,生命科学的研究进入到功能基因组时代,其任务是进行基因组功能注释,掌握基因产物在生命活动中的作用,建立基因与疾病的关系。长久以来,非编码RNA被视为专录的噪声,不具备任何生物学噪声。然而越来越多的研究表明,非编码RNA在许多生物过程中发挥着重要的作用,其功能几乎涉及到生物体生理及其病理的全部生物学过程。lncRNA就在多种疾病中的转移和发展中发挥着重要的作用,因此深入研究和挖掘lncRNA与疾病的关联,对于研究疾病的发病机理与疾病的预防与治疗有重要的作用。但是由于生物实验周期长,成本高昂。使用生物信息学手段预测与特定疾病有关联的lncRNA是很有必要的。计算方法不仅可以为后续生物实验验证提供可靠的候选lncRNA,同时也可以降低研究时间和成本。但是由于lncRNA与疾病作用机制复杂,而且疾病发病机理通常与各种生物过程相关,因此准确预测lncRNA与疾病关系仍然面临着巨大的挑战。
[0003]目前有很多基于生物信息学的lncRNA与疾病关联预测方法被提出来,这些方法大概被分为以下几类:基于传统机器学习的方法、基于矩阵分解的方法、基于生物网络的方法和基于深度学习的方法。Chen等人首次基于相似的疾病倾向与功能相似的lncRNA相关联这一基本假设,提出了LRLSLDA(Laplacian Regularized Least Squares for LncRNA

Disease Association)计算模型,将拉普拉斯正则化最小二乘法应用于lncRNA与疾病关联预测,该模型是一种半监督学习的lncRNA疾病关联预测模型。Lan提出了一种基于支持向量机的方法(LDAP),这种方法创新点在于融合了多种lncRNA与疾病的相似性测量方法来计算相似性矩阵。此外,还有一些研究人员将矩阵分解的方法用于lncRNA疾病的关联预测。Fu等人提出了一种融合6种相关数据来源(lncRNA、miRNA、基因、基因本体(GO)、疾病本体(DO)、和药物数据)中的11种数据(九个种间的数据和两种种内数据)的方法,该方法利用数据融合的矩阵分解预测lncRNA与疾病关联的方法(MFLDA)。Yu等人对MFLDA做了改进,在模型中的种间数据模块中加入了不同的权重,提出了WMFLDA。基于网络的方法预测疾病相关的lncRNA最近受到很多研究人员的关注,这类方法主要基于一个普遍的生物学假设:“功能相似的lncRNA更倾向于关联功能相似的疾病,反之亦然”。研究人员往往利用与疾病和lncRNA相关的的多种生物数据来构建异构网络实现多种数据的融合,之后利用基于网络的学习算法如随机游走或者各种传播算法探索网络结构进而预测lncRNA与疾病的潜在关联。Chen等人提出基于随机游走算法的IRWRLDA模型,该模型使用疾病lncRNA关联矩阵,疾病的语义相似性矩阵,lncRNA的功能相似性矩阵,表达谱相似性矩阵,高斯核相似性矩阵计算随机游走的初始概率向量,然后在lncRNA

疾病的关联矩阵上进行游走。该模型能够解决孤立lncRNA和孤立疾病的问题。
[0004]以上的研究表明,基于融合各种与lncRNA和疾病相关的生物数据构建异构生物网络的计算方法,往往能有很好的表现。深度融合异构网络的关联信息对于提高预测性能有着重要的作用。近年来,基于图深度学习的生物网络信息挖掘方法在关联预测比如miRNA

疾病、药物

靶标等领域取得了显著的成果。Xuan提出了一种基于卷积神经网络进行关联预测的方法,该方法首先基于lncRNA的相似性矩,disease的关联矩阵,疾病的相似性矩阵获得疾病与lncRNA的特征向量,把特征向量拼接之后输入宽卷积神经网络中预测关联。为了很好的获得网络中的拓扑信息,该方法还使用了信息传播的思想,计算了lncRNA与疾病的二阶相似性矩阵与关联矩阵。Sheng提出了一种基于卷积自编码器与变分自编码器的lncRNA

疾病关联预测模型。该模型编码器包含3种部分,基于随机游走与自编码器的节点对的拓扑结构编码,基于变分自编码器的节点对特征分布编码,基于卷积自编码器的节点对特征表示编码。利用注意力机制融合三种节点对特征进而预测关联。
[0005]目前计算方法来识别疾病相关的lncRNA引起了很多学者的关注,研究人员开发了很多相关的计算模型,积累了大量的数据,但是目前依然面临着很多的挑战。

技术实现思路

[0006]本专利技术提出了一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法(MNGCNLDA),主要包括以下步骤:
[0007]1.收集相关数据
[0008]首先收集已知的lncRNA

疾病关联数据、lncRNA序列数据、疾病语义性数据、miRNA

疾病关联数据、miRNA

lncRNA关联数据、基因的相似性数据、疾病

基因关联数据。
[0009]具体来说,从Lnc2Cancer、LncRNADisease、GenRIF、HMDD(v2.0)、starBase(v2.0)收集了lncRNA、疾病与miRNA之间的关联信息。排除一些稀疏的数据行之后,整理之后得到240个lncRNA、495个miRNA和412个疾病之间的关联信息,其中有2697个lncRNA疾病关联对、13562个miRNA疾病关联对和1002个lncRNAmiRNA关联对;然后从DisGeNET收集了412个疾病的疾病基因关联数据,从HumanNet(v2.0)收集了相关基因的关联性数据,用于计算疾病之间的靶标相似性;此外基于人类疾病分类数据库(Disease Ontology 2015update),计算疾病的与语义相似性信息;最后从NCBI的核酸数据库中(https://www.ncbi.nlm.nih.gov/nuccore)收集240个lncRNA的基因序列用于计算lncRNA之间的序列相似性。
[0010]2.计算疾病与lncRNA相似性
[0011]利用已经收集到的数据计算疾病的语义相似性、疾病的靶标基因相似性、lncRNA的序列相似性、lncRNA的功能相似性。
[0012]1)疾病语义相似性
[0013]DO(Disease Ontology)数据库使用

IS_A

关联表示两种疾病之间的关联,依据疾病之间的语义关联,可以使用一个有向无环图(DAG)来表示一个疾病及相关疾病的关联关系。疾病D对应的有向无环图使用DAG(D)表示,DAG(D)中疾病d对疾病D的语义贡献值为:
[0014][0015]其中Δ表示语义贡献值的衰减系数,默认被设置为0.5。疾病D的语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法,其特征在于,实施步骤为:(1)收集相关数据;(2)利用已经收集到的数据计算疾病的语义相似性,疾病的靶标相似性、lncRNA的序列相似性、lncRNA的功能相似性。(3)基于疾病与lncRNA的不同相似性信息以及lncRNA、疾病与miRNA的关联关系构建网络。(4)构造带有注意力机制的神经网络模型,进行lncRNA与疾病的关联预测。2.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法,其特征在于,对数据集进行收集和预处理,具体包括:从Lnc2Cancer、LncRNADisease、GenRIF、HMDD(v2.0)、starBase(v2.0)收集了lncRNA、疾病与miRNA之间的关联信息。排除一些稀疏的数据行之后,整理得到240个lncRNA,495个miRNA和412个疾病之间的关联信息;从DisGeNET收集了412个疾病的疾病基因关联数据,从HumanNet(v2.0)收集相关基因的关联性数据;收集疾病的与语义相似性信息;从NCBI的核酸数据库收集240个lncRNA的基因序列数据。3.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法,其特征在于,计算各种相似性矩阵:利用已经收集到的数据计算疾病的语义相似性...

【专利技术属性】
技术研发人员:王树林邹航
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1