一种基于深度学习的DNA序列基元挖掘方法和系统技术方案

技术编号：28627920 阅读：50 留言：0更新日期：2021-05-28 16:24

本发明专利技术公开一种基于深度学习的DNA序列基元挖掘方法和系统,其包括：步骤1、对获取的DNA序列进行预处理，采用重叠分割策略将每条DNA序列处理成一个数据包，采用k‑mer编码对数据包里的每一个示例进行编码；步骤2、对每个数据包进行特征学习，以构造混合深度神经网络模型，对数据包中每个示例进行预测打分；步骤3、对每个数据包中所有示例进行融合，将融合后的得分作为该数据包的最终预测值。采用本发明专利技术的技方案，避免忽略基因组序列的弱监督信息、序列特征之间的长期依赖关系等。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的DNA序列基元挖掘方法和系统
本专利技术属于机器学习
，尤其涉及一种基于深度学习的DNA序列基元挖掘方法和系统。
技术介绍
随着技术的不断发展，越来越多的研究人员使用高通量实验方法来对生物体内基因组序列中可能与蛋白质发生绑定的位点进行深入研究。目前比较成熟的用于研究转录因子在体内绑定作用的实验方法有以下几种：ChIP-chip、ChIP-seq以及最近提出的ChIP-exo。研究人员使用上述实验方法在基因组内对已有的数百万条序列进行精确定位，从而获得基因组内能够与蛋白质发生绑定作用的短序列区域的相关数据。通过上述实验数据，研究人员可以在全基因组范围内对多种蛋白质在不同组织细胞中的绑定特性进行深入研究，从而帮助人们进一步探索生物体内不同蛋白质间的相互作用特性。随着高通量测序技术的快速发展，已经提出了多种实验方法来提取体内(in-vivo)和体外(in-vitro)的绑定区域。特别地，ChIP-seq和高通量测序大大增加了体内可用数据量，这将有利于体内蛋白质与基因组序列绑定的研究。另一方面，蛋白质...

【技术保护点】
1.一种基于深度学习的DNA序列基元挖掘方法，其特征在于，包括以下步骤：/n步骤1、采用重叠分割策略对获取的每条DNA序列处理成一个数据包，采用k-mer编码对数据包里的每一个示例进行编码；/n步骤2、对每个数据包进行特征学习构造混合深度神经网络模型，对数据包中每个示例进行预测打分；/n步骤3、对每个数据包中所有示例进行融合，将融合后的得分作为该数据包的最终预测值。/n

【技术特征摘要】
1.一种基于深度学习的DNA序列基元挖掘方法，其特征在于，包括以下步骤：
步骤1、采用重叠分割策略对获取的每条DNA序列处理成一个数据包，采用k-mer编码对数据包里的每一个示例进行编码；
步骤2、对每个数据包进行特征学习构造混合深度神经网络模型，对数据包中每个示例进行预测打分；
步骤3、对每个数据包中所有示例进行融合，将融合后的得分作为该数据包的最终预测值。

2.如权利要求1所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤1中所述重叠分割策略为：定义一个长度为c的滑动窗口，并通过步幅s将长度为l的DNA序列分成多个长度为c的示例，将一条DNA序列转换为一个数据包，所述数据包中的示例数量为：(l-c)/s+1，其中s和c为预设超参数。

3.如权利要求2所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤1中采用k-mer编码将所有的示例转换为具有高阶依赖关系的图像矩阵，计算过程如下公式所示：

其中，i∈[1,c-k+1]，j∈[1,4k]，c表示示例的长度，k表示编码的阶数，xi表示来自{A，C，G，T}的任一字符，而Xi,j表示经过k-mer编码后的一个矩阵，
其中，当k被设置为1时，k-mer编码就等价于one-hot编码。

4.如权利要求1至3任何一项所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤2中所述混合深度神经网络模型包括：卷积神经网络CNN和递归神经网络RNN，其中，卷积神经网络采用权重共享策略来捕获DNA序列中的局部模式，而递归神经网络使用其内部状态来...

【专利技术属性】
技术研发人员：黄德双，张钦虎，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人