【技术实现步骤摘要】
基于词向量与卷积神经网络的DNA复制起始区域识别方法
本申请涉及生物技术和基因工程
,尤其涉及一种基于词向量与卷积神经网络的DNA复制起始区域识别方法。
技术介绍
DNA复制作为传递基因信息的首要步骤,有着很深刻的生物学研究意义。DNA复制指的是DNA双链在细胞分裂之前以一个DNA链作为母链进行半保留复制,从而产生两个与原DNA双链相同的子链的生物学过程。因此,研究DNA复制是研究生物学其他方面的基础,也是研究生命进程的首要任务。众多生物学实验表明,DNA复制时从特殊的区域位置开始的,该位置称为ORI(OriginofReplication,复制起始区域)。基于目前生物技术的发展,利用生物学实验进行测量实验可以检测出某个生物DNA的复制起始区域位置。如染色体免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)、染色质免疫共沉淀-芯片技术(ChIP-chip),以及表面离子共振技术(SurfacePlasmonResonance)。尽管这些方法都能精确地识别ORI,但是在后基因组时代,大量的基因序列被检测出来,试验方法检测凸显出耗时和高成本的缺点。为此,如何脱离生物实验并且使用计算机进行快速准确地识别出ORI是当前研究的热点。为此,人们做出了很多努力来解决ORI识别问题。对于细菌,环状DNA中仅仅只有一个ORI,有很多的算法可以进行识别。但是对于真核生物,为了提高DNA复制效率会同时从多个位置进行复制,这也大大增加了识别的难度。近些年,人们提出了一些方法来解决酵母细 ...
【技术保护点】
1.一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,包括:/n从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列,构建DNA序列样本集;/n通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,其中所述正样本集和所述负样本集均包括各三联核苷酸;/n对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵;/n将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,其中竖向排列后相应的三联核苷酸的独热编码作为输入层;/n将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层;/n所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型;/n将待测DNA序列输入到所述卷积神经网络模型中,输出所述待测DNA序列为ORI序列的概率。/n
【技术特征摘要】
1.一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,包括:
从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列,构建DNA序列样本集;
通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,其中所述正样本集和所述负样本集均包括各三联核苷酸;
对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵;
将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,其中竖向排列后相应的三联核苷酸的独热编码作为输入层;
将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层;
所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型;
将待测DNA序列输入到所述卷积神经网络模型中,输出所述待测DNA序列为ORI序列的概率。
2.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,所述通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,还包括:
通过间隔三分序列分词分别对所述ORI序列和非ORI序列进行分词得到第二正样本集和第二负样本集。
3.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,所述对所述三联核苷酸负采样,包括:
将各三联核苷酸的长度非等距划分至第一[0,1]区间,其中两个节点间的区间为相应三联核苷酸的位置Li=(Ii-1,Ii),i=1,2,...,64;
以M>>64为节点等距划分第二[0,1]区间;
将投影到所述第一[0,1]区间上,建立与之间的映射关系;
从所述第二[0,1]区间内抽取一随机数根据所述映射关系映射到所述第一[0,1]区间内获得非目标三联核苷酸;
将所述目标三联核苷酸和所述非目标三联核苷酸合并后完成对三联核苷酸的负采样。
4.根据权利要求3所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,所述将各三联核苷酸的长度非等距划分至第一[0,1]区间,包括:
根据获取各三联核苷酸的长度,其中counter(·)代表某个三联核苷酸出现的次数。
5.根据权利要求1所述的基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,所述基于Word2vec迭代训练得到预训练...
【专利技术属性】
技术研发人员:杨润涛,吴峰,张承进,陈金桂,张丽娜,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。