当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于深度学习的DNA序列基元挖掘方法和系统技术方案

技术编号:28627920 阅读:40 留言:0更新日期:2021-05-28 16:24
本发明专利技术公开一种基于深度学习的DNA序列基元挖掘方法和系统,其包括:步骤1、对获取的DNA序列进行预处理,采用重叠分割策略将每条DNA序列处理成一个数据包,采用k‑mer编码对数据包里的每一个示例进行编码;步骤2、对每个数据包进行特征学习,以构造混合深度神经网络模型,对数据包中每个示例进行预测打分;步骤3、对每个数据包中所有示例进行融合,将融合后的得分作为该数据包的最终预测值。采用本发明专利技术的技方案,避免忽略基因组序列的弱监督信息、序列特征之间的长期依赖关系等。

【技术实现步骤摘要】
一种基于深度学习的DNA序列基元挖掘方法和系统
本专利技术属于机器学习
,尤其涉及一种基于深度学习的DNA序列基元挖掘方法和系统。
技术介绍
随着技术的不断发展,越来越多的研究人员使用高通量实验方法来对生物体内基因组序列中可能与蛋白质发生绑定的位点进行深入研究。目前比较成熟的用于研究转录因子在体内绑定作用的实验方法有以下几种:ChIP-chip、ChIP-seq以及最近提出的ChIP-exo。研究人员使用上述实验方法在基因组内对已有的数百万条序列进行精确定位,从而获得基因组内能够与蛋白质发生绑定作用的短序列区域的相关数据。通过上述实验数据,研究人员可以在全基因组范围内对多种蛋白质在不同组织细胞中的绑定特性进行深入研究,从而帮助人们进一步探索生物体内不同蛋白质间的相互作用特性。随着高通量测序技术的快速发展,已经提出了多种实验方法来提取体内(in-vivo)和体外(in-vitro)的绑定区域。特别地,ChIP-seq和高通量测序大大增加了体内可用数据量,这将有利于体内蛋白质与基因组序列绑定的研究。另一方面,蛋白质结合微阵列(PBM)可以测量转录因子与给定长度k的所有可能的DNA序列变体的体外结合,这为直接开发绑定位点预测模型提供了极好的信息来源。随后就陆续出现了各种处理高通量数据的算法,例如针对ChIP-seq数据的DREME、BioProspector和motifRG等方法;针对PBM数据的Herdclustering和RankMotif++;针对HT-SELEX数据的Toivonen和HTSIBIS等方法,以及可以综合统一处理这些数据的Dimont算法等。然而,采用传统的方法处理如此大规模的数据会受到相当大的限制,例如,容错性能低、对噪声敏感、泛化能力差,时间复杂度高。随着计算机理论以及技术的不断发展,深度学习已经被成功地应用于各种大数据研究领域中。研究者开始尝试使用深度神经网络等复杂机器学习模型来挖掘绑定位点基元信息,以及分析蛋白质绑定与基因变异之间的关联关系。DeepBind是首个将深度卷积神经网络应用于绑定位点预测的基元挖掘算法,从集成现有简单绑定模型的角度对传统的深度学习方法进行了调整,设计了一种基于深度卷积神经网络的转录因子绑定模型。用户可以将多种高通量技术产生的高通量数据(例如:ChIp-seq,PBM,HT-SELEX)作为原始数据输入到DeepBind模型中,然后DeepBind可以运用自己制定的规则综合考虑多种数据,并从中学习出转录因子绑定偏好的模型参数。但是现有的基元挖掘方法主要是基于传统机器学习和深度学习的方法,越来越多的证据表明基于传统机器学习的方法无法处理大规模测序数据,泛化能力差,且十分耗时,而基于深度学习的方法能很好地缓解或克服传统方法的不足。但是,基于深度学习的方法还存在以下问题:1)遵循完全监督的学习框架,而忽略了基因组序列的弱监督信息,即一段DNA序列可能包含多个转录因子结合位点;2)使用独热(one-hot)编码,而该编码方式忽略了核苷酸之间的依赖性;3)仅采用CNN来学习DNA序列的空间信息,而忽略了序列特征之间的长期依赖关系。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于深度学习的DNA序列基元挖掘方法和系统。为实现上述目的,本专利技术采用如下的技术方案:一种基于深度学习的DNA序列基元挖掘方法,包括以下步骤:步骤1、采用重叠分割策略对获取的每条DNA序列处理成一个数据包,采用k-met编码对数据包里的每一个示例进行编码;步骤2、对每个数据包进行特征学习构造混合深度神经网络模型,对数据包中每个示例进行预测打分;步骤3、对每个数据包中所有示例进行融合,将融合后的得分作为该数据包的最终预测值。作为优选,步骤1中所述重叠分割策略为:定义一个长度为c的滑动窗口,并通过步幅s将长度为1的DNA序列分成多个长度为c的示例,将一条DNA序列转换为一个数据包,所述数据包中的示例数量为(l-c)/s+1,其中,s和c为预设超参数。作为优选,步骤1中采用k-mcr编码将所有的示例转换为具有高阶依赖关系的图像矩阵,计算过程如下公式所示:其中,i∈[1,c-k+1],j∈[1,4k],c表示示例的长度,k表示编码的阶数,xi表示来自{A,C,G,T}的任一字符,而Xi,j表示经过k-mer编码后的一个矩阵。其中,当k被设置为1时,k-mer编码就等价于one-hot编码。作为优选,步骤2中所述混合深度神经网络模型包括:卷积神经网络和递归神经网络。其中卷积神经网络(CNN)采用权重共享策略来捕获DNA序列中的局部模式,而递归神经网络(RNN)使用其内部状态来学习动态时间或序列模式;CNN被用于学习基元特征,而RNN被用于学习基元特征之间的长期依赖关系。作为优选,步骤2中利用该混合深度神经网络模型对每个数据包中的所有示例进行预测打分,得到了每个示例的打分值p,其为示例包含结合位点的概率。作为优选,步骤3中采用Noisy-and方法融合,计算过程如下公式所示:其中,pij表示第i个数据包中第j个示例的得分,ni表示第i个数据包中的示例数量,表示第i个数据包的平均得分,Noisy-and被设计为当示例的平均值超过预设阈值时激活一个数据包概率Pi,a为预设超参数,用于控制Noisy-and的斜率,bi表示每个数据包i的自适应软阈值,σ(a(1-bi))和σ(-abi)用于归一化Pi到[0,1],bi限定在[0,1]以及a>0,σ表示sigmoid函数。通过Noisy-and方法将数据包中所有示例的预测值进行融合,以此来得到该数据包“绑定”和“非绑定”的概率分布。本专利技术还提供一种基于深度学习的DNA序列基元挖掘框架系统,其包括:预处理装置:用于采用重叠分割策略对获取的每条DNA序列处理成一个数据包,采用k-met编码对数据包里的每一个示例进行编码;打分装置:用于对每个数据包进行特征学习,以构造混合深度神经网络模型,对数据包中每个示例进行预测打分;融合装置:用于对每个数据包中所有示例进行融合,将融合后的得分作为该数据包的最终预测值。本专利技术的技术方案,采用弱监督学习框架,即将多示例学习与深度学习进行融合,用于挖掘DNA序列的弱监督信息;采用k-met编码来预处理DNA序列,用于编码核苷酸之间的依赖性;采用构造卷积、递归混合神经网络模型,其中,CNN用于学习DNA序列的空间信息,而RNN用于学习序列特征之间的长期依赖关系。附图说明图1为本专利技术DNA序列基元挖掘方法的流程图;图2为本专利技术DNA序列基元挖掘系统的结构示意图。具体实施方式下面通过具体实施方式结合附图对本专利技术作进一步详细说明。如图1所示,本专利技术提供一种基于深度学习的DNA序列基元挖掘方法,其包括:步骤1、对获取的DNA序列进行预处理,采用重叠分割策略将每条DNA序列处理成一个数据包,采用k-met编码对数据包里的每一个本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的DNA序列基元挖掘方法,其特征在于,包括以下步骤:/n步骤1、采用重叠分割策略对获取的每条DNA序列处理成一个数据包,采用k-mer编码对数据包里的每一个示例进行编码;/n步骤2、对每个数据包进行特征学习构造混合深度神经网络模型,对数据包中每个示例进行预测打分;/n步骤3、对每个数据包中所有示例进行融合,将融合后的得分作为该数据包的最终预测值。/n

【技术特征摘要】
1.一种基于深度学习的DNA序列基元挖掘方法,其特征在于,包括以下步骤:
步骤1、采用重叠分割策略对获取的每条DNA序列处理成一个数据包,采用k-mer编码对数据包里的每一个示例进行编码;
步骤2、对每个数据包进行特征学习构造混合深度神经网络模型,对数据包中每个示例进行预测打分;
步骤3、对每个数据包中所有示例进行融合,将融合后的得分作为该数据包的最终预测值。


2.如权利要求1所述的基于深度学习的DNA序列基元挖掘方法,其特征在于,步骤1中所述重叠分割策略为:定义一个长度为c的滑动窗口,并通过步幅s将长度为l的DNA序列分成多个长度为c的示例,将一条DNA序列转换为一个数据包,所述数据包中的示例数量为:(l-c)/s+1,其中s和c为预设超参数。


3.如权利要求2所述的基于深度学习的DNA序列基元挖掘方法,其特征在于,步骤1中采用k-mer编码将所有的示例转换为具有高阶依赖关系的图像矩阵,计算过程如下公式所示:



其中,i∈[1,c-k+1],j∈[1,4k],c表示示例的长度,k表示编码的阶数,xi表示来自{A,C,G,T}的任一字符,而Xi,j表示经过k-mer编码后的一个矩阵,
其中,当k被设置为1时,k-mer编码就等价于one-hot编码。


4.如权利要求1至3任何一项所述的基于深度学习的DNA序列基元挖掘方法,其特征在于,步骤2中所述混合深度神经网络模型包括:卷积神经网络CNN和递归神经网络RNN,其中,卷积神经网络采用权重共享策略来捕获DNA序列中的局部模式,而递归神经网络使用其内部状态来...

【专利技术属性】
技术研发人员:黄德双张钦虎
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1