一种环状RNA和疾病关联预测方法技术

技术编号:37344207 阅读:9 留言:0更新日期:2023-04-22 21:36
本发明专利技术公开了一种环状RNA和疾病关联预测方法,使用图嵌入和动态卷积自动编码器等深度学习技术,对疾病语义相似度、高斯轮廓交互核、表达谱相似度、Jaccard相似度等生物学信息进行数据融合,然后将描述符依次通过加速属性网络嵌入(AANE)算法和DCAEs算法对描述符进行低维和深层特征的提取,最后使用旋转森林分类器来预测潜在的circRNA和疾病的关联。本发明专利技术充分利用有限的生物信息并创新了性能更好的深度学习模型,可以更为有效地应用到circRNA和疾病关联进而提升预测精度。疾病关联进而提升预测精度。疾病关联进而提升预测精度。

【技术实现步骤摘要】
一种环状RNA和疾病关联预测方法


[0001]本专利技术涉及生物信息学
,具体涉及一种基于图嵌入和动态卷积自编码器来预测circRNA和疾病关联的方法。

技术介绍

[0002]环状RNA(circRNAs)是一类客观存在于生物体中的非编码RNA分子,没有50

cap和30

多聚腺苷酸化尾,通过共价键形成环状结构。CircRNAs含有比线性mRNAs更丰富的转录本,可以在转录或转录后水平调控多种生命活动。此外,circRNAs还可以作为竞争性内源性RNAs(ceRNAs)的成分来抑制miRNAs的活性,从而控制基因的转录、翻译等功能。许多研究也证明circRNA存在于各种生物体中,具有重要的调控作用,也表明circRNA与疾病之间有着密切的联系,circRNA在多种疾病中发挥着重要作用,circRNAs可以作为新的疾病诊断生物标志物,在药物研发和疾病诊治中具有良好的应用前景。
[0003]由于circRNA与疾病之间有着密不可分的联系,把握这种联系对于疾病的研究和治疗具有重要价值。然而,普通的生物实验投入了大量的人力物力,只能确认其中的一小部分联系。快速有效的计算方法是解决这一问题的关键。目前,有许多模型可以预测circRNA与疾病的关联。2019年,Wang等人提出了一种基于多源信息融合和卷积神经网络(CNN)的预测circRNA

疾病关联的方法。2019年,Li等人提出了一种基于网络共识投影的circRNA

疾病关联预测方法。2020年,K.Deepthi等人提出了一种基于自动编码器(AE)和深度神经网络的方法来预测circRNA

疾病关联。2022年,Zhang等人提出了一种基于图表示学习的方法来预测circRNA

疾病关联。但这些模型预测在生物信息的融合上并没有最大化利用生物信息的相关性,如基因序列的相似度或表达相似度等,且某些疾病或circRNA的深层特征难以提取,计算力复杂度较高,导致目前存在的预测的关联结果仍存在很大偏差。

技术实现思路

[0004]用以解决或者提高现有技术中的方法存问题和性能,本专利技术提出以下技术方案:
[0005]一种环状RNA和疾病关联预测方法,包括以下步骤:
[0006]S1)数据组织
[0007]从公共数据库获取已知的circRNA和疾病关联信息、circRNA表达谱数据、疾病语义相似度信息形成原始数据集;
[0008]S2)数据融合
[0009]根据疾病语义相似度、circRNA表达谱数据以及circRNA和疾病的关联矩阵,计算出疾病语义相似度、疾病和circRNA的Jaccard相似度和GIP(高斯交互表达谱相似度)以及circRNA表达谱相似度,并按照不同疾病之间是否有语义相似性和不同circRNA之间是否有表达谱数据来进行融合,最后通过矩阵拼接和归一化操作融合数据形成统一的融合标识符;
[0010]S3)特征提取
[0011]通过AANE和DCAEs组成的深度学习模型提取融合标识符的低维特征和深层特征,AANE通过特定的损失函数,当损失函数的值达到设定值后,即完成训练和提取,DCAEs则使用MSE作为损失函数并通过Adadelta算法对模型参数和网络结构进行优化;
[0012]S4)分类器预测
[0013]将最终提取的特征放入随机森林分类器,对分类器进行训练,并优化关键的参数,优化完毕后,将测试集放入分类器进行circRNA和疾病的关联预测,并得到最后的预测分数矩阵。
[0014]进一步的,融合标识符的形成方法为:若疾病或者circRNA之间有语义相似度,对其最终的融合数据进行取平均值的运算;若没有,则取高斯交互核相似度来补充不同数据库之间的数据差异,最后将疾病和circRNA的融合相似度降维后进行拼接形成最后的融合标识符。
[0015]进一步的,疾病语义相似度的具体计算方式为:
[0016]疾病e与疾病d为关联的两种疾病,根据疾病之间的有向无环图计算疾病的语义价值N
d
表示与d相关的一组疾病节点且包含节点d本身,D
d
表示疾病e对疾病d的贡献,从而确定疾病d(i)和疾病d(j)疾病语义相似度DSS1(d(i),d(j))
[0017][0018]其次,考虑疾病编号对疾病贡献的影响,采用下式计算疾病e在疾病数量影响下的贡献
[0019][0020]其中,num(DAGd(e))是指与疾病d相关的疾病数量,num(diseases)指所有疾病的个数;
[0021]得到疾病d(i)和疾病d(j)的疾病语义相似度DSS2(d(i),d(j))
[0022][0023]进一步的,circRNA表达谱相似度的具体计算方式为:将带有表达谱数据的circRNA表示为一个32维的特征向量,并使用降序的方法对不同circRNA的表达谱数据进行重新排序,使用Spearman相关系数得到circRNA之间的表达谱相似性。
[0024]进一步的,Jaccard相似度的具体计算方式为:
[0025]使用以下公式计算疾病d(i)和疾病d(j)的Jaccard相似度JD(d(i),d(j))
[0026][0027]其中,CA(d(i))是指与疾病d(i)相关的circRNA组;
[0028]根据上式可以推断出circRNA的Jaccard相似模型JC(c(i),c(j))
[0029][0030]其中,DA(c(i))是指与circRNA c(i)相关的疾病组,通过两个circRNA关联疾病的交集比上两个circRNA关联疾病的并集,就可以得到两个circRNA的JC相似度。
[0031]进一步的,融合方法的具体实现为:
[0032]将疾病相似性多源信息DS和疾病Jaccard相似度JD进行拼接形成疾病相似度模型DM=[DS,JD];
[0033]将circRNA相似性多源信息CS和circRNA Jaccard相似度JC进行拼接形成circRNA相似度模型CM=[CS,JC];
[0034]融合过程中,使用PCA降维归一化后将CM与DM进行拼接后得到融合标识符FM(c(i),d(i))
[0035]FM(c(i),d(j))=[CM(c(i)),DM(d(j))][0036]其中,CM(c(i))表示CM的第i行向量,DM(d(j))表示DM的第j列向量。
[0037]进一步的,通过AANE算法,得到与余弦相似度矩阵差值最小的图嵌入表达矩阵,所得到的图嵌入表达矩阵即为低维特征,利用AANE提取低维特征的具体步骤包括:
[0038]对于网络N=(V,E,W),V为N中的节点集,W为N中的边集,E为边所代表值的集合,W中的边eij表示连接节点i和节点的边j,其大小与两个节点之间的相似度密切相关,如果eij的值较大,则节点i与节点j更相似本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种环状RNA和疾病关联预测方法,其特征在于,包括以下步骤:S1)数据组织从公共数据库获取已知的circRNA和疾病关联信息、circRNA表达谱数据、疾病语义相似度信息形成原始数据集;S2)数据融合根据疾病语义相似度、circRNA表达谱数据以及circRNA和疾病的关联矩阵,计算出疾病语义相似度、疾病和circRNA的Jaccard相似度和GIP以及circRNA表达谱相似度,并按照不同疾病之间是否有语义相似性和不同circRNA之间是否有表达谱数据来进行融合,最后通过矩阵拼接和归一化操作融合数据形成统一的融合标识符;S3)特征提取通过AANE和DCAEs组成的深度学习模型提取融合标识符的低维特征和深层特征,AANE通过特定的损失函数,当损失函数的值达到设定值后,即完成训练和提取,DCAEs则使用MSE作为损失函数并通过Adadelta算法对模型参数和网络结构进行优化;S4)分类器预测将最终提取的特征放入随机森林分类器,对分类器进行训练,并优化关键的参数,优化完毕后,将测试集放入分类器进行circRNA和疾病的关联预测,并得到最后的预测分数矩阵。2.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,步骤S2所述融合标识符的形成方法为:若疾病或者circRNA之间有语义相似度,对其最终的融合数据进行取平均值的运算;若没有,则取高斯交互核相似度来补充不同数据库之间的数据差异,最后将疾病和circRNA的融合相似度降维后进行拼接形成最后的融合标识符。3.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,所述疾病语义相似度的具体计算方式为:疾病e与疾病d为关联的两种疾病,根据疾病之间的有向无环图计算疾病的语义价值N
d
表示与d相关的一组疾病节点且包含节点d本身,D
d
表示疾病e对疾病d的贡献,从而确定疾病d(i)和疾病d(j)疾病语义相似度DSS1(d(i),d(j))其次,考虑疾病编号对疾病贡献的影响,采用下式计算疾病e在疾病数量影响下的贡献其中,num(DAGd(e))是指与疾病d相关的疾病数量,num(diseases)指所有疾病的个数;得到疾病d(i)和疾病d(j)的疾病语义相似度DSS2(d(i),d(j))
4.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,所述circRNA表达谱相似度的具体计算方式为:将带有表达谱数据的circRNA表示为一个32维的特征向量,并使用降序的方法对不同circRNA的表达谱数据进行重新排序,使用Spearman相关系数得到circRNA之间的表达谱相似性。5.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,所述Jaccard相似度的具体计算方式为:使用以下公式计算疾病d(i)和疾病d(j)的Jaccard相似度JD(d(i),d(j))其中,CA(d(i))是指与疾病d(i)相关的circRNA组;根据上式可以推断出circRNA的Jaccard相似模型JC(c(i),c(j))其中,DA(c(i))是指与circRNA c(i)相关的疾病组。6.根据权利要求3所述的环状RNA和疾病关联预测方法,其特征在于,所述融合方法的具体实现为:将疾病相似性多源信息DS和疾病Jaccard相似度JD进行拼接形成疾病相似度模型DM=[DS,JD];将circRNA相似性多源信息CS和circRNA Jaccard相似度JC进行拼接形成circRNA相似度模型CM=[CS,JC];融合过程中,使用PCA降维归一化后将CM与DM进行拼接后得到融合标识符FM(c(i),d(i))FM(c(i),d(j))=[CM(c(i)),DM(d(j))]其中,CM(c(i))表示CM的第i行向量,DM(d(j))表示DM的第j列向量。7.根据权利要...

【专利技术属性】
技术研发人员:袁林赵佳旺赖锦灵
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1