当前位置: 首页 > 专利查询>山东大学专利>正文

基于词向量与卷积神经网络的DNA复制起始区域识别方法技术

技术编号:25443516 阅读:83 留言:0更新日期:2020-08-28 22:30
本申请提供的基于词向量与卷积神经网络的DNA复制起始区域识别方法中,首先通过连续三分序列分词将DNA序列进行分词,得到各个三联核苷酸,然后将分词后的三联核苷酸负采样后通过Word2vec迭代训将三联核苷酸进行向量化得到词向量,所有的词向量合并后得到预训练特征向量矩阵,预训练特征向量矩阵中包括各个三联核苷酸的预训练特征向量,将分词后的各三联核苷酸竖向排列后嵌入各个三联核苷酸的预训练特征向量得到词嵌入层,词嵌入层将三联核苷酸序列特征向量化,然后经过卷积、池化训练得到卷积神经网络,通过加入词嵌入层的卷积神经网络进行ORI特征的深度挖掘和分类识别,最终识别出ORI;本申请的识别准确度大大提高。

【技术实现步骤摘要】
基于词向量与卷积神经网络的DNA复制起始区域识别方法
本申请涉及生物技术和基因工程
,尤其涉及一种基于词向量与卷积神经网络的DNA复制起始区域识别方法。
技术介绍
DNA复制作为传递基因信息的首要步骤,有着很深刻的生物学研究意义。DNA复制指的是DNA双链在细胞分裂之前以一个DNA链作为母链进行半保留复制,从而产生两个与原DNA双链相同的子链的生物学过程。因此,研究DNA复制是研究生物学其他方面的基础,也是研究生命进程的首要任务。众多生物学实验表明,DNA复制时从特殊的区域位置开始的,该位置称为ORI(OriginofReplication,复制起始区域)。基于目前生物技术的发展,利用生物学实验进行测量实验可以检测出某个生物DNA的复制起始区域位置。如染色体免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)、染色质免疫共沉淀-芯片技术(ChIP-chip),以及表面离子共振技术(SurfacePlasmonResonance)。尽管这些方法都能精确地识别ORI,但是在后基因组时代,大量的基因序列被检测出来,试验方法检测凸显出耗时和高成本的缺点。为此,如何脱离生物实验并且使用计算机进行快速准确地识别出ORI是当前研究的热点。为此,人们做出了很多努力来解决ORI识别问题。对于细菌,环状DNA中仅仅只有一个ORI,有很多的算法可以进行识别。但是对于真核生物,为了提高DNA复制效率会同时从多个位置进行复制,这也大大增加了识别的难度。近些年,人们提出了一些方法来解决酵母细胞ORI识别的问题。例如,Chen等发现ORI区域的DNA可弯曲度和可裂解性比非ORI区域要低很多,并基于此提出了一个计算模型来识别酿酒酵母细胞中的ORI。Li等从样本序列中生成k-tuple伪核苷酸组成(PseudoK0tupleNucleotideComposition,PseKNC),将伪氨基酸组成从蛋白质/肽链发展到了DNA/RNA领域。以伪核苷酸组成作为特征并且输入到支持向量机中进行识别,成功开发了“iORI-PseKNC”预测器并且达到了83.72%的准确度。为了剔除冗余特征以及特征维度,Dao等使用F-score和最小冗余-最大相关(minimum-RedundantandMaximum-Relevance,mRMR)进行特征选择并使用支持向量机进行识别,开发了一种名为“iORI-PseKNC2.0”的预测器对酵母基因组进行识别。Xiao等人将二核苷酸位置特异性倾向信息加入到伪核苷酸组成,提出了一种基于随机森林的预测器“iRO-gPseKNC”。Liu等考虑了ORI中GC不对称性以及不定长序列,以3-窗口的形式进行特征提取结合随机森林算法提出了“iRO-3wPseKNC”预测器,从而可以对四种酵母基因组进行更加全面的识别预测,实现对不定长序列的ORI预测。基于iRO-3wPseKNC,计算序列中的GC偏移值并结合PseKNC,将序列中的G和C作为特征进行提取,成功组建了“iRO-PsekGCC”预测器。以上预测器各有优势,对于酵母细胞的ORI识别效果也逐步提升,对于推动ORI识别具有很大的意义,但是这些方法的准确度等指标仍然不能够满足实际要求。此外,这些方法都是基于机器学习的,无法深入挖掘到ORI序列与非ORI序列的特征。
技术实现思路
本申请提供了一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,以解决识别精度低的技术问题。为了解决上述技术问题,本申请实施例公开了如下技术方案:本申请提供了一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,包括:从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列,构建DNA序列样本集;通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,其中所述正样本集和所述负样本集均包括各三联核苷酸;对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵;将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,其中竖向排列后相应的三联核苷酸的独热编码作为输入层;将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层;所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型;将待测DNA序列输入到所述卷积神经网络模型中,输出所述待测DNA序列为ORI序列的概率。可选的,所述通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,还包括:通过间隔三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集。可选的,所述对所述三联核苷酸负采样,包括:将各三联核苷酸的长度非等距划分至第一[0,1]区间,其中两个节点间的区间为相应三联核苷酸的位置Li=(Ii-1,Ii),i=1,2,...,64;以为节点等距划分第二[0,1]区间;将投影到所述第一[0,1]区间上,建立与之间的映射关系;从所述第二[0,1]区间内随机抽取任一目标三联核苷酸根据所述映射关系映射到所述第一[0,1]区间内获得非目标三联核苷酸;将所述目标三联核苷酸和所述非目标三联核苷酸合并后完成对三联核算干的负采样。可选的,所述将各三联核苷酸的长度非等距划分至第一[0,1]区间,包括:根据获取各三联核苷酸的长度,其中counter(·)代表某个三联核苷酸出现的次数。可选的,所述基于Word2vec迭代训练得到预训练特征向量矩阵,包括:根据目标函数得到以上下文中的三联核苷酸最大化概率预测中心三联核苷酸时对应的所述中心三联核苷酸的词向量;通过迭代将所述中心三联核苷酸表示为300维的特征向量;对所有的三联核苷酸进行特征向量训练得到所述预训练特征向量矩阵。可选的,所述根据目标函数得到以上下文中的三联核苷酸预测中心三联核苷酸的最大化概率包括:所述目标函数为其中w表示中心三联核苷酸向量,代表上下文中的各个三联核苷酸向量,代表在处理时对中心三联核苷酸进行负采样后的集合,u代表w与w的负采样集合取并集后的集合中的三联核苷酸向量集合,表示以当前下文中的三联核苷酸去预测中心三联核苷酸的概率。可选的,所述将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,包括:所述独热编码矩阵的结构为可选的,所述将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层,包括:将经过连续三分序列分词后的DNA序列竖向排列后得到自上而下的三联核苷酸组合;对各三联核苷酸一一从所述预训练特征向量中查询对应的特征向量;将查询到的各所述特征向量合并得到不可训练词嵌入层。可选的,所述将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层,还包括:本文档来自技高网
...

【技术保护点】
1.一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,包括:/n从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列,构建DNA序列样本集;/n通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,其中所述正样本集和所述负样本集均包括各三联核苷酸;/n对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵;/n将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,其中竖向排列后相应的三联核苷酸的独热编码作为输入层;/n将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层;/n所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型;/n将待测DNA序列输入到所述卷积神经网络模型中,输出所述待测DNA序列为ORI序列的概率。/n

【技术特征摘要】
1.一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,包括:
从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列,构建DNA序列样本集;
通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,其中所述正样本集和所述负样本集均包括各三联核苷酸;
对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵;
将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,其中竖向排列后相应的三联核苷酸的独热编码作为输入层;
将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层;
所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型;
将待测DNA序列输入到所述卷积神经网络模型中,输出所述待测DNA序列为ORI序列的概率。


2.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,所述通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,还包括:
通过间隔三分序列分词分别对所述ORI序列和非ORI序列进行分词得到第二正样本集和第二负样本集。


3.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,所述对所述三联核苷酸负采样,包括:
将各三联核苷酸的长度非等距划分至第一[0,1]区间,其中两个节点间的区间为相应三联核苷酸的位置Li=(Ii-1,Ii),i=1,2,...,64;
以M>>64为节点等距划分第二[0,1]区间;
将投影到所述第一[0,1]区间上,建立与之间的映射关系;
从所述第二[0,1]区间内抽取一随机数根据所述映射关系映射到所述第一[0,1]区间内获得非目标三联核苷酸;
将所述目标三联核苷酸和所述非目标三联核苷酸合并后完成对三联核苷酸的负采样。


4.根据权利要求3所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,所述将各三联核苷酸的长度非等距划分至第一[0,1]区间,包括:
根据获取各三联核苷酸的长度,其中counter(·)代表某个三联核苷酸出现的次数。


5.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,所述基于Word2vec迭代训练得到预训练...

【专利技术属性】
技术研发人员:杨润涛吴峰张承进陈金桂张丽娜
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1