一种疾病与长非编码核糖核酸的关联预测方法技术

技术编号:35830098 阅读:23 留言:0更新日期:2022-12-03 13:58
本发明专利技术公开一种疾病与长非编码核糖核酸的关联预测方法。所述方法包括:整合多组学数据构建疾病和长非编码核糖核酸的多源异质分子网络;基于变分图自编码器提取节点的拓扑结构信息和上下文特征,得到长非编码核糖核酸和疾病的低维嵌入表示;利用贝叶斯分类器预测未知的疾病和长非编码核糖核酸关联关系。本发明专利技术基于多源生物异质分子网络进行建模,结合嵌入表示学习算法,充分利用深度神经网络和概率统计的优势,推理异质网络中疾病与长非编码核糖核酸之间的关系,支持分析异质网络中长非编码核糖核酸与疾病之间的关联机制,本发明专利技术具有良好的可扩展性、实用性和应用前景。实用性和应用前景。实用性和应用前景。

【技术实现步骤摘要】
一种疾病与长非编码核糖核酸的关联预测方法


[0001]本专利技术属于生物信息学和生物医学大数据领域,涉及一种疾病与长非编码核糖核酸的关联预测方法。

技术介绍

[0002]lncRNA分子的长度通常大于200个核苷酸,占所有非编码RNA(non

coding RNA , ncRNA)的80%

90%。越来越多基于生物学实验的证据表明,大量lncRNA在多种生物学过程中起着分子向导和信号通路调节剂等重要作用。lncRNA的变异或功能失调会导致一些复杂疾病的发生。通过生物信息学方法预测潜在的lncRNA

疾病关联关系,对于从lncRNA分子层面解析致病机理以及对疾病诊断、治疗、预后和预防都具有重要的意义。
[0003]随着电子信息和测序技术的发展,生物医学等领域已积累海量组学数据。研究人员已经开发出了许多计算模型预测潜在的lncRNA

疾病关联。考虑到生物实验鉴定lncRNA

疾病关联需要昂贵的成本和大量时间,许多研究人员开发智能计算算法来预测lncRNA

疾病关联信息成为了亟待解决的问题。例如:马毅等人2019年在《计算机研究与发展》中发表文章“基于Hetesim的疾病关联长非编码RNA预测”,基于lncRNA

疾病异质信息网络,使用HeteSim相关性计算方法挖掘网络中隐含的疾病与lncRNA的关联关系,预测潜在疾病关联lncRNA。此外,王雷等人在专利授权号CN109243538B上公开一种预测疾病与LncRNA关联关系的RBF神经网络方法及系统;邓磊等人在专利授权号CN106096331B上公开一种推断lncRNA和疾病联系的方法,该方法构建一个全局异构网络,通过网络传播算法来识别可能的lncRNA和疾病的联系;卢新国等人在申请号CN113421614A上公开一种基于张量分解的lncRNA

疾病关联预测方法,利用张量分解预测lncRNA

疾病相互作用预测。
[0004]上述方法常忽略了与疾病lncRNA密切相关的miRNA、circRNA及其分子间的互作用,限制模型的预测性能。本专利技术基于疾病、circRNA、miRNA、lncRNA构成的异质分子网络,利用变分图自编码器提取lncRNA和疾病的拓扑特征,然后用贝叶斯网络预测疾病lncRNA的关联关系。

技术实现思路

[0005]针对现有技术中存在的不足,本专利技术在现有技术的基础上提出一种疾病与长非编码核糖核酸的关联预测方法,首先利用复杂疾病的多组学数据中circRNA、miRNA、lncRNA等生物分子构建疾病和lncRNA之间的多源异质分子网路,然后基于异质网络利用深度神经网络自动提取lncRNA和疾病的拓扑特征和语义信息,进一步利用贝叶斯网络实现关联关系的预测。具体来说,为实现上述专利技术目的,本专利技术的具体技术方案包括:1. 一种疾病与长非编码核糖核酸的关联预测方法,该方法的特征在于:步骤1. 获取circRNA、miRNA、lncRNA与疾病的关联数据集和circRNA、lncRNA和miRNA的关联数据集,构建疾病lncRNA的异质生物分子网络。该异质网络中节点集合包括疾病、circRNA、miRNA、lncRNA;边对象包括疾病、circRNA、miRNA、lncRNA之
间的关联边、circRNA与miRNA的关联、miRNA与lncRNA的关联。其中节点类型映射函数,边类型映射函数。和分别代表异质分子网络上节点类型集合和边类型集合数目。
[0006]步骤2. circRNA、miRNA、lncRNA和疾病节点特征提取。分别计算疾病语义相似性和高斯核函数相似性、circRNA、miRNA和lncRNA的序列特征和高斯核函数相似性,其中疾病的语义相似性、高斯核函数相似性;circRNA、miRNA和lncRNA的序列特征k

mer嵌入特征分别为、、,高斯核函数相似性、、。
[0007]步骤3. 构建异质图嵌入表征模型:基于步骤1的异质网络和步骤2的节点特征,使用图卷积网络设计变分图自编码器,并用于提取多源异质分子网络的深度表征信息。深度模型被用来自动提取、聚合疾病、circRNA、miRNA和lncRNA在异质分子网络中的拓扑语义特征。基于步骤1中设计疾病和lncRNA的多源异质分子网络,利用设计的变分图自编码器提取疾病和lncRNA的拓扑嵌入特征。然后利用节点级注意力和网络级注意力融合疾病和lncRNA构成多源异质分子网络中的节点级别、语义级别的拓扑信息。基于节点i的所有类型邻接点嵌入特征,使用类型级注意力融合得到节点i的拓扑嵌入特征。
[0008]步骤4. 构建疾病lncRNA关联预测器。基于异质生物分子网络的嵌入信息,利用贝叶斯分类器推理预测疾病lncRNA的关联关系。
[0009]步骤5. 设计疾病lncRNA关联预测任务的损失函数。
[0010]步骤6. 深度图嵌入表征模型训练。通过疾病、circRNA、miRNA和lncRNA数据集训练模型,利用梯度下降算法、Dropout和正则化方法优化模型训练过程,得到模型的最优参数。
附图说明
[0011]图1本专利技术实例。
具体实施方式
[0012]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0013]图1为本专利技术实施例提供的方法流程图,如图1所示,该方法可以包括以下步骤:1. 一种疾病与长非编码核糖核酸的关联预测方法,该方法的特征在于:步骤1. 获取circRNA、miRNA、lncRNA与疾病的关联数据集和circRNA、lncRNA和miRNA的关联数据集,构建疾病miRNA的异质生物分子网络。该异质网络中节点集合包括疾病、circRNA、miRNA、lncRNA;边对象包括疾病、circRNA、miRNA、lncRNA之间的关联边、circRNA与miRNA的关联、miRNA与lncRNA的关联。其中节点类型映射函数,边类型映射函数。和分别代表异质分子网络上节点类型集
合和边类型集合数目。
[0014]步骤2. circRNA、miRNA、lncRNA和疾病节点特征提取。分别计算疾病语义相似性和高斯核函数相似性、circRNA、miRNA和lncRNA的序列特征和高斯核函数相似性,其中疾病的语义相似性、高斯核函数相似性;circRNA、miRNA和lncRNA的序列特征k

mer嵌入特征分别为、、,高斯核函数相似性、、。
[0015]疾病的语义相似性:疾病间的关系被描述为有向无环图(G),其中节点表示疾病,边表示疾病间的关系。在DAG中,疾病被表示为,其中是包括疾病在内的,疾病的祖先节点集,是连接这些疾病的边集。因此,G中的某一疾病s对疾病的语义贡献值为:的语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种疾病与长非编码核糖核酸的关联预测方法,该方法的特征在于:步骤1. 构建疾病长非编码核糖核酸的异质生物信息网络:该异质网络中节点集合包括疾病、环状核糖核酸(circular RNA,circRNA)、微小核糖核酸(microRNA, miRNA)、长非编码核糖核酸(long non

coding RNA, lncRNA),边对象包括疾病与circRNA、miRNA、lncRNA分子之间的关联、circRNA与miRNA的关联、miRNA与lncRNA的关联;步骤2. circRNA、miRNA、lncRNA分子和疾病节点的特征提取:计算疾病的语义相似性和高斯核函数相似性,然后计算circRNA、miRNA和lncRNA分子的序列特征和高斯核函数相似性特征;步骤3. 构建异质图嵌入表征模型:基于步骤1的异质网络和步骤2的节点特征,利用变分图自编码器开发多源异质分子网络的深度表征模型;自动聚合疾病、circRNA、miRNA和lncRNA在异质网络中的不同层级的拓扑语义特征,用图注意力机制聚合lncRNA和疾病的多层拓扑语义特征得到疾病和lncRNA的判别性嵌入特征;步骤4. 构建疾病lncRNA关联预测器;基于异质分子网络的嵌入信息,利用贝叶斯分类器预测疾病lncRNA的关联关系;步骤5. 设计疾病lncRNA关联预测任务的损失函数;步骤6. 深度图嵌入表征模型训练;通过疾病、circRNA、miRNA和lncRNA数据集训练模型,利用Dropout和正则化方法优化模型训练过程,得...

【专利技术属性】
技术研发人员:郭延哺李昊阮小利周冬明
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1