The invention provides a method for predicting the association between non-coding RNA and disease based on in-depth learning. It measures the similarity of non-coding RNA and disease from different levels. When constructing the characteristics of non-coding RNA and disease association, it is different from the existing methods. The invention considers three factors that may affect the association degree: similar information of all non-coding RNA, and similarity of all diseases. Information, as well as the association information of non-coding RNA and disease, makes full use of the three information to quantify the characteristics of target association pairs, and solves the problem of ignoring important known association information when constructing Association pair features in existing technologies. In the process of multi-angle feature fusion, the deep learning convolution neural network is used to integrate and extract the high-level association features of non-coding RNA and disease, which overcomes the shortcomings of the existing technology that centers on the initial feature data and ignores the information of feature data and correlation degree.
【技术实现步骤摘要】
基于深度学习的非编码RNA与疾病之间关联的预测方法
本专利技术涉及生物信息学
,尤其涉及一种基于深度学习的非编码RNA与疾病之间关联的预测方法。
技术介绍
非编码RNA在细胞发育,细胞分化,信号传导等多个生命活动过程中发挥着关键作用,其与疾病的发生、发展和治疗关联密切,利用已知的生物实验知识来预测多个非编码RNA与疾病的关联,对疾病的病理理解和治疗具有重要的研究意义。基于机器学习的方法是目前重要的一种非编码RNA与疾病的关联预测技术。首先,利用常规的序列比对方法,高斯核交互谱统计等方法来计算非编码RNA之间的功能相似性,利用疾病的语义信息,或疾病与其关联的分子交互等信息来计算多种疾病之间的相似性。然后利用多核融合方法对多个角度的相似特征进行整合。针对已知关联的非编码RNA与疾病,将其与所有的非编码RNA和疾病相似性进行拼接,从而构建关联特征。利用训练样本对分类器的参数进行学习,最终利用学习得到的模型对未知关联的非编码RNA和疾病的关联程度进行预测。提取非编码RNA和疾病的关联特征是后续模型预测的关键一步。现有的基于机器学习方法在构造非编码RNA与疾病的关联特征时,考虑整合多个角度量化的非编码RNA之间、疾病之间的相似信息,针对一个非编码RNA和疾病关联对,将非编码RNA间相似特征和疾病相似特征进行拼接得到最终的关联对特征。然而,事实上,影响非编码RNA和疾病关联的因素不仅仅是预测未知关联对与其他非编码RNA和疾病的相似程度,其他非编码RNA和疾病之间的关联程度对未知关联对的关联预测也起着重要作用。现有基于机器学习的预测方法,在构建未知关联对的关联特征 ...
【技术保护点】
1.一种基于深度学习的非编码RNA与疾病之间关联的预测方法,其特征在于:所述方法包括以下步骤:S1、对L个长非编码RNA计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于长非编码RNA的序列信息求得其相似矩阵SL1、基于已知的长非编码RNA与疾病的交互谱信息求得其相似矩阵SL2、基于长非编码RNA的组织表达数据求得其相似矩阵SL3;基于长非编码RNA与微小RNA的交互信息,求得其相似矩阵SL4;对D个疾病计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于疾病的语义信息,求得其相似矩阵SD1、基于已知的疾病与长非编码RNA的交互谱信息求得其相似矩阵SD2、基于疾病与微小RNA的交互信息求得其相似矩阵SD3;S2、针对长非编码RNA与疾病关联对,构建其关联特征矩阵T;每一个长非编码RNA与疾病的关联对可得到12个关联特征矩阵T;S3、构造样本数据,其中,正样本为所有已知关联的长非编码RNA与疾病对,负样本在未知关联对中随机挑选3倍于正样本数目的长非编码RNA与疾病对;针对特定的关联对样本,其得到的12个特征矩阵看作是该关联样本的12个通道数据;基于以上样本数据,构建5层卷积神经 ...
【技术特征摘要】
1.一种基于深度学习的非编码RNA与疾病之间关联的预测方法,其特征在于:所述方法包括以下步骤:S1、对L个长非编码RNA计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于长非编码RNA的序列信息求得其相似矩阵SL1、基于已知的长非编码RNA与疾病的交互谱信息求得其相似矩阵SL2、基于长非编码RNA的组织表达数据求得其相似矩阵SL3;基于长非编码RNA与微小RNA的交互信息,求得其相似矩阵SL4;对D个疾病计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于疾病的语义信息,求得其相似矩阵SD1、基于已知的疾病与长非编码RNA的交互谱信息求得其相似矩阵SD2、基于疾病与微小RNA的交互信息求得其相似矩阵SD3;S2、针对长非编码RNA与疾病关联对,构建其关联特征矩阵T;每一个长非编码RNA与疾病的关联对可得到12个关联特征矩阵T;S3、构造样本数据,其中,正样本为所有已知关联的长非编码RNA与疾病对,负样本在未知关联对中随机挑选3倍于正样本数目的长非编码RNA与疾病对;针对特定的关联对样本,其得到的12个特征矩阵看作是该关联样本的12个通道数据;基于以上样本数据,构建5层卷积神经网络和两层全连接网络进行训练,逐层卷积神经网络的学习过程为对12个通道数据的特征融合过程,可将初始低层次关联特征不断整合为最终的高层次关联特征;S4、针对未知关联的非编码RNA和疾病对,利用步骤S1、S2构建其12层关联特征,利用步骤S3学习得到的网络模型对该未知的非编码RNA与疾病对进行关联程度预测,预测关联得分越高表征该非编码RNA与特定疾病具有关联的可能性越大。2.根据权利要求1所述的方法,其特征在于:所述步骤S1中,基于长非编码RNA的序列信息,利用Smith-Waterman序列比对方法,求得其相似矩阵SL1;基于已知的长非编码RNA与疾病的交互谱信息,利用高斯核交互谱统计方法,求得其相似矩阵SL2;基于长非编码RNA的组织表达数据,利用spearman...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。