一种环状RNA和疾病关联预测方法技术

技术编号：37344207 阅读：26 留言：0更新日期：2023-04-22 21:36

本发明专利技术公开了一种环状RNA和疾病关联预测方法，使用图嵌入和动态卷积自动编码器等深度学习技术，对疾病语义相似度、高斯轮廓交互核、表达谱相似度、Jaccard相似度等生物学信息进行数据融合，然后将描述符依次通过加速属性网络嵌入(AANE)算法和DCAEs算法对描述符进行低维和深层特征的提取，最后使用旋转森林分类器来预测潜在的circRNA和疾病的关联。本发明专利技术充分利用有限的生物信息并创新了性能更好的深度学习模型，可以更为有效地应用到circRNA和疾病关联进而提升预测精度。疾病关联进而提升预测精度。疾病关联进而提升预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种环状RNA和疾病关联预测方法

[0001]本专利技术涉及生物信息学
，具体涉及一种基于图嵌入和动态卷积自编码器来预测circRNA和疾病关联的方法。

技术介绍

[0002]环状RNA(circRNAs)是一类客观存在于生物体中的非编码RNA分子，没有50
‑
cap和30
‑
多聚腺苷酸化尾，通过共价键形成环状结构。CircRNAs含有比线性mRNAs更丰富的转录本，可以在转录或转录后水平调控多种生命活动。此外，circRNAs还可以作为竞争性内源性RNAs(ceRNAs)的成分来抑制miRNAs的活性，从而控制基因的转录、翻译等功能。许多研究也证明circRNA存在于各种生物体中，具有重要的调控作用，也表明circRNA与疾病之间有着密切的联系，circRNA在多种疾病中发挥着重要作用，circRNAs可以作为新的疾病诊断生物标志物，在药物研发和疾病诊治中具有良好的应用前景。
[0003]由于circRNA与疾病之间有着密不可分的联系，把握这种联系对于疾病的研究和治疗具有重...

【技术保护点】

【技术特征摘要】
1.一种环状RNA和疾病关联预测方法，其特征在于，包括以下步骤：S1)数据组织从公共数据库获取已知的circRNA和疾病关联信息、circRNA表达谱数据、疾病语义相似度信息形成原始数据集；S2)数据融合根据疾病语义相似度、circRNA表达谱数据以及circRNA和疾病的关联矩阵，计算出疾病语义相似度、疾病和circRNA的Jaccard相似度和GIP以及circRNA表达谱相似度，并按照不同疾病之间是否有语义相似性和不同circRNA之间是否有表达谱数据来进行融合，最后通过矩阵拼接和归一化操作融合数据形成统一的融合标识符；S3)特征提取通过AANE和DCAEs组成的深度学习模型提取融合标识符的低维特征和深层特征，AANE通过特定的损失函数，当损失函数的值达到设定值后，即完成训练和提取，DCAEs则使用MSE作为损失函数并通过Adadelta算法对模型参数和网络结构进行优化；S4)分类器预测将最终提取的特征放入随机森林分类器，对分类器进行训练，并优化关键的参数，优化完毕后，将测试集放入分类器进行circRNA和疾病的关联预测，并得到最后的预测分数矩阵。2.根据权利要求1所述的环状RNA和疾病关联预测方法，其特征在于，步骤S2所述融合标识符的形成方法为：若疾病或者circRNA之间有语义相似度，对其最终的融合数据进行取平均值的运算；若没有，则取高斯交互核相似度来补充不同数据库之间的数据差异，最后将疾病和circRNA的融合相似度降维后进行拼接形成最后的融合标识符。3.根据权利要求1所述的环状RNA和疾病关联预测方法，其特征在于，所述疾病语义相似度的具体计算方式为：疾病e与疾病d为关联的两种疾病，根据疾病之间的有向无环图计算疾病的语义价值N
d
表示与d相关的一组疾病节点且包含节点d本身，D
d
表示疾病e对疾病d的贡献，从而确定疾病d(i)和疾病d(j)疾病语义相似度DSS1(d(i),d(j))其次，考虑疾病编号对疾病贡献的影响，采用下式计算疾病e在疾病数量影响下的贡献其中，num(DAGd(e))是指与疾病d相关的疾病数量，num(diseases)指所有疾病的个数；得到疾病d(i)和疾病d(j)的疾病语义相似度DSS2(d(i),d(j))
4.根据权利要求1所述的环状RNA和疾病关联预测方法，其特征在于，所述circRNA表达谱相似度的具体计算方式为：将带有表达谱数据的circRNA表示为一个32维的特征向量，并使用降序的方法对不同circRNA的表达谱数据进行重新排序，使用Spearman相关系数得到circRNA之间的表达谱相似性。5.根据权利要求1所述的环状RNA和疾病关联预测方法，其特征在于，所述Jaccard相似度的具体计算方式为：使用以下公式计算疾病d(i)和疾病d(j)的Jaccard相似度JD(d(i),d(j))其中，CA(d(i))是指与疾病d(i)相关的circRNA组；根据上式可以推断出circRNA的Jaccard相似模型JC(c(i),c(j))其中，DA(c(i))是指与circRNA c(i)相关的疾病组。6.根据权利要求3所述的环状RNA和疾病关联预测方法，其特征在于，所述融合方法的具体实现为：将疾病相似性多源信息DS和疾病Jaccard相似度JD进行拼接形成疾病相似度模型DM＝[DS,JD]；将circRNA相似性多源信息CS和circRNA Jaccard相似度JC进行拼接形成circRNA相似度模型CM＝[CS,JC]；融合过程中，使用PCA降维归一化后将CM与DM进行拼接后得到融合标识符FM(c(i),d(i))FM(c(i),d(j))＝[CM(c(i)),DM(d(j))]其中，CM(c(i))表示CM的第i行向量，DM(d(j))表示DM的第j列向量。7.根据权利要...

【专利技术属性】
技术研发人员：袁林，赵佳旺，赖锦灵，
申请(专利权)人：齐鲁工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人