【技术实现步骤摘要】
一种环状RNA和疾病关联预测方法
[0001]本专利技术涉及生物信息学
,具体涉及一种基于图嵌入和动态卷积自编码器来预测circRNA和疾病关联的方法。
技术介绍
[0002]环状RNA(circRNAs)是一类客观存在于生物体中的非编码RNA分子,没有50
‑
cap和30
‑
多聚腺苷酸化尾,通过共价键形成环状结构。CircRNAs含有比线性mRNAs更丰富的转录本,可以在转录或转录后水平调控多种生命活动。此外,circRNAs还可以作为竞争性内源性RNAs(ceRNAs)的成分来抑制miRNAs的活性,从而控制基因的转录、翻译等功能。许多研究也证明circRNA存在于各种生物体中,具有重要的调控作用,也表明circRNA与疾病之间有着密切的联系,circRNA在多种疾病中发挥着重要作用,circRNAs可以作为新的疾病诊断生物标志物,在药物研发和疾病诊治中具有良好的应用前景。
[0003]由于circRNA与疾病之间有着密不可分的联系,把握这种联系对于疾病的研究和治疗具有重要价值。然而,普通的生物实验投入了大量的人力物力,只能确认其中的一小部分联系。快速有效的计算方法是解决这一问题的关键。目前,有许多模型可以预测circRNA与疾病的关联。2019年,Wang等人提出了一种基于多源信息融合和卷积神经网络(CNN)的预测circRNA
‑
疾病关联的方法。2019年,Li等人提出了一种基于网络共识投影的circRNA
‑
疾病关联预测方 ...
【技术保护点】
【技术特征摘要】
1.一种环状RNA和疾病关联预测方法,其特征在于,包括以下步骤:S1)数据组织从公共数据库获取已知的circRNA和疾病关联信息、circRNA表达谱数据、疾病语义相似度信息形成原始数据集;S2)数据融合根据疾病语义相似度、circRNA表达谱数据以及circRNA和疾病的关联矩阵,计算出疾病语义相似度、疾病和circRNA的Jaccard相似度和GIP以及circRNA表达谱相似度,并按照不同疾病之间是否有语义相似性和不同circRNA之间是否有表达谱数据来进行融合,最后通过矩阵拼接和归一化操作融合数据形成统一的融合标识符;S3)特征提取通过AANE和DCAEs组成的深度学习模型提取融合标识符的低维特征和深层特征,AANE通过特定的损失函数,当损失函数的值达到设定值后,即完成训练和提取,DCAEs则使用MSE作为损失函数并通过Adadelta算法对模型参数和网络结构进行优化;S4)分类器预测将最终提取的特征放入随机森林分类器,对分类器进行训练,并优化关键的参数,优化完毕后,将测试集放入分类器进行circRNA和疾病的关联预测,并得到最后的预测分数矩阵。2.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,步骤S2所述融合标识符的形成方法为:若疾病或者circRNA之间有语义相似度,对其最终的融合数据进行取平均值的运算;若没有,则取高斯交互核相似度来补充不同数据库之间的数据差异,最后将疾病和circRNA的融合相似度降维后进行拼接形成最后的融合标识符。3.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,所述疾病语义相似度的具体计算方式为:疾病e与疾病d为关联的两种疾病,根据疾病之间的有向无环图计算疾病的语义价值N
d
表示与d相关的一组疾病节点且包含节点d本身,D
d
表示疾病e对疾病d的贡献,从而确定疾病d(i)和疾病d(j)疾病语义相似度DSS1(d(i),d(j))其次,考虑疾病编号对疾病贡献的影响,采用下式计算疾病e在疾病数量影响下的贡献其中,num(DAGd(e))是指与疾病d相关的疾病数量,num(diseases)指所有疾病的个数;得到疾病d(i)和疾病d(j)的疾病语义相似度DSS2(d(i),d(j))
4.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,所述circRNA表达谱相似度的具体计算方式为:将带有表达谱数据的circRNA表示为一个32维的特征向量,并使用降序的方法对不同circRNA的表达谱数据进行重新排序,使用Spearman相关系数得到circRNA之间的表达谱相似性。5.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,所述Jaccard相似度的具体计算方式为:使用以下公式计算疾病d(i)和疾病d(j)的Jaccard相似度JD(d(i),d(j))其中,CA(d(i))是指与疾病d(i)相关的circRNA组;根据上式可以推断出circRNA的Jaccard相似模型JC(c(i),c(j))其中,DA(c(i))是指与circRNA c(i)相关的疾病组。6.根据权利要求3所述的环状RNA和疾病关联预测方法,其特征在于,所述融合方法的具体实现为:将疾病相似性多源信息DS和疾病Jaccard相似度JD进行拼接形成疾病相似度模型DM=[DS,JD];将circRNA相似性多源信息CS和circRNA Jaccard相似度JC进行拼接形成circRNA相似度模型CM=[CS,JC];融合过程中,使用PCA降维归一化后将CM与DM进行拼接后得到融合标识符FM(c(i),d(i))FM(c(i),d(j))=[CM(c(i)),DM(d(j))]其中,CM(c(i))表示CM的第i行向量,DM(d(j))表示DM的第j列向量。7.根据权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。