当前位置: 首页 > 专利查询>刘滨专利>正文

基于深度学习的非编码RNA与疾病之间关联的预测方法技术

技术编号:20007415 阅读:64 留言:0更新日期:2019-01-05 18:50
本发明专利技术提供了一种基于深度学习的非编码RNA与疾病之间关联的预测方法,分别从多个层次度量非编码RNA,疾病的相似性,在构造非编码RNA与疾病关联的特征时,不同于现有方法,本发明专利技术考虑了可能影响其关联程度的三个因素:所有非编码RNA相似信息,所有疾病相似信息,以及已知非编码RNA和疾病的关联信息,充分利用三者信息量化目标关联对的特征,解决了已有技术在构造关联对特征时,忽略重要的已知关联信息问题。并且在多角度的特征融合过程中,本发明专利技术利用深度学习卷积神经网络整合提取非编码RNA和疾病的高层关联特征,克服了已有技术以初始特征数据为中心,忽视特征数据与关联程度信息的缺陷。

Prediction of association between non-coding RNA and disease based on in-depth learning

The invention provides a method for predicting the association between non-coding RNA and disease based on in-depth learning. It measures the similarity of non-coding RNA and disease from different levels. When constructing the characteristics of non-coding RNA and disease association, it is different from the existing methods. The invention considers three factors that may affect the association degree: similar information of all non-coding RNA, and similarity of all diseases. Information, as well as the association information of non-coding RNA and disease, makes full use of the three information to quantify the characteristics of target association pairs, and solves the problem of ignoring important known association information when constructing Association pair features in existing technologies. In the process of multi-angle feature fusion, the deep learning convolution neural network is used to integrate and extract the high-level association features of non-coding RNA and disease, which overcomes the shortcomings of the existing technology that centers on the initial feature data and ignores the information of feature data and correlation degree.

【技术实现步骤摘要】
基于深度学习的非编码RNA与疾病之间关联的预测方法
本专利技术涉及生物信息学
,尤其涉及一种基于深度学习的非编码RNA与疾病之间关联的预测方法。
技术介绍
非编码RNA在细胞发育,细胞分化,信号传导等多个生命活动过程中发挥着关键作用,其与疾病的发生、发展和治疗关联密切,利用已知的生物实验知识来预测多个非编码RNA与疾病的关联,对疾病的病理理解和治疗具有重要的研究意义。基于机器学习的方法是目前重要的一种非编码RNA与疾病的关联预测技术。首先,利用常规的序列比对方法,高斯核交互谱统计等方法来计算非编码RNA之间的功能相似性,利用疾病的语义信息,或疾病与其关联的分子交互等信息来计算多种疾病之间的相似性。然后利用多核融合方法对多个角度的相似特征进行整合。针对已知关联的非编码RNA与疾病,将其与所有的非编码RNA和疾病相似性进行拼接,从而构建关联特征。利用训练样本对分类器的参数进行学习,最终利用学习得到的模型对未知关联的非编码RNA和疾病的关联程度进行预测。提取非编码RNA和疾病的关联特征是后续模型预测的关键一步。现有的基于机器学习方法在构造非编码RNA与疾病的关联特征时,考虑整合多个角度量化的非编码RNA之间、疾病之间的相似信息,针对一个非编码RNA和疾病关联对,将非编码RNA间相似特征和疾病相似特征进行拼接得到最终的关联对特征。然而,事实上,影响非编码RNA和疾病关联的因素不仅仅是预测未知关联对与其他非编码RNA和疾病的相似程度,其他非编码RNA和疾病之间的关联程度对未知关联对的关联预测也起着重要作用。现有基于机器学习的预测方法,在构建未知关联对的关联特征时,没有考虑到其他非编码RNA与疾病的关联信息,未能较好的利用已知分子与疾病的交互信息。随着生物分子信息的不断积累,促使量化分子间,疾病间的相似性方法逐渐增多。现有基于机器学习的非编码RNA和疾病预测方法常规采用多核融合方法对多角度量化的非编码RNA相似特征,疾病相似特征进行整合。然而,多核数据融合方法旨在对原始数据进行核变化,整合多个层次数据得到系统的相似特征。此多核融合过程仅对原始数值进行线性或非线性约束变换,并未考虑到数据本身特征对最终关联预测结果的贡献价值,导致融合特征过程中噪音数据的保留,以及可能有用信息的丢失,从而影响了预测关联结果的有效性和准确性。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种基于深度学习的非编码RNA与疾病之间关联的预测方法,本专利技术具体通过如下技术方案实现:一种基于深度学习的非编码RNA与疾病之间关联的预测方法,包括以下步骤:S1、对L个长非编码RNA计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于长非编码RNA的序列信息求得其相似矩阵SL1、基于已知的长非编码RNA与疾病的交互谱信息求得其相似矩阵SL2、基于长非编码RNA的组织表达数据求得其相似矩阵SL3;基于长非编码RNA与微小RNA的交互信息,求得其相似矩阵SL4;对D个疾病计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于疾病的语义信息,求得其相似矩阵SD1、基于已知的疾病与长非编码RNA的交互谱信息求得其相似矩阵SD2、基于疾病与微小RNA的交互信息求得其相似矩阵SD3;S2、针对长非编码RNA与疾病关联对,构建其关联特征矩阵T;每一个长非编码RNA与疾病的关联对可得到12个关联特征矩阵T;S3、构造样本数据,其中,正样本为所有已知关联的长非编码RNA与疾病对,负样本在未知关联对中随机挑选3倍于正样本数目的长非编码RNA与疾病对;针对特定的关联对样本,其得到的12个特征矩阵看作是该关联样本的12个通道数据;基于以上样本数据,构建5层卷积神经网络和两层全连接网络进行训练,逐层卷积神经网络的学习过程为对12个通道数据的特征融合过程,可将初始低层次关联特征不断整合为最终的高层次关联特征;S4、针对未知关联的长非编码RNA和疾病对,利用步骤S1、S2构建其12层关联特征,利用步骤S3学习得到的网络模型对该未知的长非编码RNA与疾病对进行关联程度预测,预测关联得分越高表征该长非编码RNA与特定疾病具有关联的可能性越大。作为本专利技术的进一步改进,所述步骤S1中,基于长非编码RNA的序列信息,利用Smith-Waterman序列比对方法,求得其相似矩阵SL1;基于已知的长非编码RNA与疾病的交互谱信息,利用高斯核交互谱统计方法,求得其相似矩阵SL2;基于长非编码RNA的组织表达数据,利用spearman相关系数计算方法求得其相似矩阵SL3;基于长非编码RNA与微小RNA的交互信息,利用Fisher精确检验统计方法,求得其相似矩阵SL4。作为本专利技术的进一步改进,不同层次量化得到的长非编码RNA相似矩阵SL1、SL2、SL3、SL4均为L×L维的矩阵,具体形式如下:其中k={1,2,3,4},rk,i,j表示第k个层次的长非编码RNA相似矩阵中第i个长非编码RNA与第j个长非编码RNA的相似程度值。作为本专利技术的进一步改进,所述步骤S1中,基于疾病的语义信息,利用最优匹配方法,求得其相似矩阵SD1;基于已知的疾病与长非编码RNA的交互谱信息,利用高斯核交互谱统计方法,求得其相似矩阵SD2;基于疾病与微小RNA的交互信息,利用Fisher精确检验统计方法,求得其相似矩阵SD3。作为本专利技术的进一步改进,不同层次量化得到的疾病相似矩阵SD1、SD2、SD3均为D×D维的矩阵,具体形式如下:其中n={1,2,3},tn,i,j表示第n个层次疾病相似矩阵中第i个疾病与第j个疾病之间的相似程度值。作为本专利技术的进一步改进,所述步骤S2具体为:以长非编码RNAi,疾病j为例,其特征矩阵Tk,n,i,j采用下式计算:·Tk,n,i,j=SLk(,i)×SDn(j,)·A其中,SLk(,i)表示第k个层次的长非编码RNA相似矩阵中长非编码RNAi与所有长非编码RNA的相似得分向量,SDn(j,)表示第n个层次的疾病相似矩阵中疾病j与所有疾病的相似得分向量,A表征所有长非编码RNA与疾病之间关联的邻接矩阵,其维数为L×D,其中Ai,j=1表示第i个长非编码RNA与第j个疾病之间具有实验验证关联关系;Ai,j=0表示第i个长非编码RNA与第j个疾病之间不存在实验验证的关联关系。作为本专利技术的进一步改进,所述方法同样适用于微小RNA和其他种类的非编码RNA与疾病之间关联的预测。本专利技术的有益效果是:本专利技术为基于深度学习的非编码RNA与疾病之间关联的预测技术。为了克服已有技术无法有效提取非编码RNA与疾病关联对特征的缺陷,本专利技术在考虑多层次非编码RNA、疾病相似性的基础上,同时引进已知非编码RNA与疾病之间的关联信息,利用深度学习卷积神经网络整合非编码RNA和疾病的关联特征,从而提升非编码RNA与疾病关联的预测性能。附图说明图1是本专利技术的预测方法流程图。具体实施方式下面结合附图说明及具体实施方式对本专利技术进一步说明。以长非编码RNA为例,本专利技术的流程图如图1所示。已知L个长非编码RNA和D个疾病,表征其之间关联关系的邻接矩阵为A,其维数为L×D,其中Ai,j=1表示第i个长非编码RNA与第j个疾病之间具有实验验证关联关系;Ai,j=0表示第i个长非编码RNA与第j个疾病之间不存在实本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的非编码RNA与疾病之间关联的预测方法,其特征在于:所述方法包括以下步骤:S1、对L个长非编码RNA计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于长非编码RNA的序列信息求得其相似矩阵SL1、基于已知的长非编码RNA与疾病的交互谱信息求得其相似矩阵SL2、基于长非编码RNA的组织表达数据求得其相似矩阵SL3;基于长非编码RNA与微小RNA的交互信息,求得其相似矩阵SL4;对D个疾病计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于疾病的语义信息,求得其相似矩阵SD1、基于已知的疾病与长非编码RNA的交互谱信息求得其相似矩阵SD2、基于疾病与微小RNA的交互信息求得其相似矩阵SD3;S2、针对长非编码RNA与疾病关联对,构建其关联特征矩阵T;每一个长非编码RNA与疾病的关联对可得到12个关联特征矩阵T;S3、构造样本数据,其中,正样本为所有已知关联的长非编码RNA与疾病对,负样本在未知关联对中随机挑选3倍于正样本数目的长非编码RNA与疾病对;针对特定的关联对样本,其得到的12个特征矩阵看作是该关联样本的12个通道数据;基于以上样本数据,构建5层卷积神经网络和两层全连接网络进行训练,逐层卷积神经网络的学习过程为对12个通道数据的特征融合过程,可将初始低层次关联特征不断整合为最终的高层次关联特征;S4、针对未知关联的非编码RNA和疾病对,利用步骤S1、S2构建其12层关联特征,利用步骤S3学习得到的网络模型对该未知的非编码RNA与疾病对进行关联程度预测,预测关联得分越高表征该非编码RNA与特定疾病具有关联的可能性越大。...

【技术特征摘要】
1.一种基于深度学习的非编码RNA与疾病之间关联的预测方法,其特征在于:所述方法包括以下步骤:S1、对L个长非编码RNA计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于长非编码RNA的序列信息求得其相似矩阵SL1、基于已知的长非编码RNA与疾病的交互谱信息求得其相似矩阵SL2、基于长非编码RNA的组织表达数据求得其相似矩阵SL3;基于长非编码RNA与微小RNA的交互信息,求得其相似矩阵SL4;对D个疾病计算其不同层次的相似矩阵,所述不同层次的相似矩阵包括基于疾病的语义信息,求得其相似矩阵SD1、基于已知的疾病与长非编码RNA的交互谱信息求得其相似矩阵SD2、基于疾病与微小RNA的交互信息求得其相似矩阵SD3;S2、针对长非编码RNA与疾病关联对,构建其关联特征矩阵T;每一个长非编码RNA与疾病的关联对可得到12个关联特征矩阵T;S3、构造样本数据,其中,正样本为所有已知关联的长非编码RNA与疾病对,负样本在未知关联对中随机挑选3倍于正样本数目的长非编码RNA与疾病对;针对特定的关联对样本,其得到的12个特征矩阵看作是该关联样本的12个通道数据;基于以上样本数据,构建5层卷积神经网络和两层全连接网络进行训练,逐层卷积神经网络的学习过程为对12个通道数据的特征融合过程,可将初始低层次关联特征不断整合为最终的高层次关联特征;S4、针对未知关联的非编码RNA和疾病对,利用步骤S1、S2构建其12层关联特征,利用步骤S3学习得到的网络模型对该未知的非编码RNA与疾病对进行关联程度预测,预测关联得分越高表征该非编码RNA与特定疾病具有关联的可能性越大。2.根据权利要求1所述的方法,其特征在于:所述步骤S1中,基于长非编码RNA的序列信息,利用Smith-Waterman序列比对方法,求得其相似矩阵SL1;基于已知的长非编码RNA与疾病的交互谱信息,利用高斯核交互谱统计方法,求得其相似矩阵SL2;基于长非编码RNA的组织表达数据,利用spearman...

【专利技术属性】
技术研发人员:刘滨魏航
申请(专利权)人:刘滨
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1