基于词向量与卷积神经网络的DNA复制起始区域识别方法技术

技术编号：25443516 阅读：83 留言：0更新日期：2020-08-28 22:30

本申请提供的基于词向量与卷积神经网络的DNA复制起始区域识别方法中，首先通过连续三分序列分词将DNA序列进行分词，得到各个三联核苷酸，然后将分词后的三联核苷酸负采样后通过Word2vec迭代训将三联核苷酸进行向量化得到词向量，所有的词向量合并后得到预训练特征向量矩阵，预训练特征向量矩阵中包括各个三联核苷酸的预训练特征向量，将分词后的各三联核苷酸竖向排列后嵌入各个三联核苷酸的预训练特征向量得到词嵌入层，词嵌入层将三联核苷酸序列特征向量化，然后经过卷积、池化训练得到卷积神经网络，通过加入词嵌入层的卷积神经网络进行ORI特征的深度挖掘和分类识别，最终识别出ORI；本申请的识别准确度大大提高。

全部详细技术资料下载

【技术实现步骤摘要】
基于词向量与卷积神经网络的DNA复制起始区域识别方法
本申请涉及生物技术和基因工程
，尤其涉及一种基于词向量与卷积神经网络的DNA复制起始区域识别方法。
技术介绍
DNA复制作为传递基因信息的首要步骤，有着很深刻的生物学研究意义。DNA复制指的是DNA双链在细胞分裂之前以一个DNA链作为母链进行半保留复制，从而产生两个与原DNA双链相同的子链的生物学过程。因此，研究DNA复制是研究生物学其他方面的基础，也是研究生命进程的首要任务。众多生物学实验表明，DNA复制时从特殊的区域位置开始的，该位置称为ORI(OriginofReplication，复制起始区域)。基于目前生物技术的发展，利用生物学实验进行测量实验可以检测出某个生物DNA的复制起始区域位置。如染色体免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)、染色质免疫共沉淀-芯片技术(ChIP-chip)，以及表面离子共振技术(SurfacePlasmonResonance)。尽管这些方法都能精确地识别ORI，但是在后基因组时代，大量的基因序列被检测出来，试验方法检测凸显出耗时和高成本的缺点。为此，如何脱离生物实验并且使用计算机进行快速准确地识别出ORI是当前研究的热点。为此，人们做出了很多努力来解决ORI识别问题。对于细菌，环状DNA中仅仅只有一个ORI，有很多的算法可以进行识别。但是对于真核生物，为了提高DNA复制效率会同时从多个位置进行复制，这也大大增加了识别的难度。近些年，人们提出了一些方法来解决酵母细...

【技术保护点】
1.一种基于词向量与卷积神经网络的DNA复制起始区域识别方法，其特征在于，包括：/n从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列，构建DNA序列样本集；/n通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集，其中所述正样本集和所述负样本集均包括各三联核苷酸；/n对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵；/n将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵，其中竖向排列后相应的三联核苷酸的独热编码作为输入层；/n将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层；/n所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型；/n将待测DNA序列输入到所述卷积神经网络模型中，输出所述待测DNA序列为ORI序列的概率。/n

【技术特征摘要】
1.一种基于词向量与卷积神经网络的DNA复制起始区域识别方法，其特征在于，包括：
从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列，构建DNA序列样本集；
通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集，其中所述正样本集和所述负样本集均包括各三联核苷酸；
对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵；
将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵，其中竖向排列后相应的三联核苷酸的独热编码作为输入层；
将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层；
所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型；
将待测DNA序列输入到所述卷积神经网络模型中，输出所述待测DNA序列为ORI序列的概率。

2.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法，其特征在于，所述通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集，还包括：
通过间隔三分序列分词分别对所述ORI序列和非ORI序列进行分词得到第二正样本集和第二负样本集。

3.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法，其特征在于，所述对所述三联核苷酸负采样，包括：
将各三联核苷酸的长度非等距划分至第一[0，1]区间，其中两个节点间的区间为相应三联核苷酸的位置Li＝(Ii-1,Ii),i＝1,2,...,64；
以M＞＞64为节点等距划分第二[0，1]区间；
将投影到所述第一[0，1]区间上，建立与之间的映射关系；
从所述第二[0，1]区间内抽取一随机数根据所述映射关系映射到所述第一[0，1]区间内获得非目标三联核苷酸；
将所述目标三联核苷酸和所述非目标三联核苷酸合并后完成对三联核苷酸的负采样。

4.根据权利要求3所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法，其特征在于，所述将各三联核苷酸的长度非等距划分至第一[0，1]区间，包括：
根据获取各三联核苷酸的长度，其中counter(·)代表某个三联核苷酸出现的次数。

5.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法，其特征在于，所述基于Word2vec迭代训练得到预训练...

【专利技术属性】
技术研发人员：杨润涛，吴峰，张承进，陈金桂，张丽娜，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人