一种基因序列拼接方法及应用技术

技术编号:27940214 阅读:29 留言:0更新日期:2021-04-02 14:21
本申请属于生物信息技术领域,特别是涉及一种基因序列拼接方法及应用。大多数时候,不同纲目科属种的基因组具有不同的结构特征,科研人员的经验可能不足以准确判断某些基因片段的拼接模式。本申请提供一种基因序列拼接方法,所述方法包括如下步骤:步骤1:对生物信息序列进行特征提取,并将所述特征量化为数据;步骤2:采用所述数据对模型进行训练;步骤3:采用所述训练出的模型进行基因序列拼接。增加了可选计算资源。可以准确判断某些基因片段的拼接模式。

【技术实现步骤摘要】
一种基因序列拼接方法及应用
本申请属于生物信息
,特别是涉及一种基因序列拼接方法及应用。
技术介绍
随着各种基因组测序计划的推进,二十一世纪以来,基因数据量几乎以指数级的速度不断增长,但是目前却存在着一些急需突破的技术问题。由于基因组的长度过大,现有的基因测序技术仍然无法一次性读出整条基因序列,因此现有主流方法是将基因序列复制多条,然后随机地切割为多片可以一次性读取的序列片段,再根据其首尾重叠信息,重新将它们拼接起来。鉴于这类方法缺少对于基因信息的理解,在切割的基因片段存在冗余、污染或者缺失的情况下,可能会存在多种可能性和不确定性,不一定能够完全准确地将基因序列拼接出来。此时,则需要大量专业人员通过经验判断、实际实验来对结果进行进一步的完善和修正。但大多数时候,不同纲目科属种的基因组具有不同的结构特征,科研人员的经验储备可能不足以准确判断某些基因片段的拼接模式。
技术实现思路
1.要解决的技术问题基于由于现有方法缺少对于基因信息的理解,只是基于基因片段的覆盖(overlap)进行判断,在切割的基因片段存在冗余和污染的情况下,可能会存在多种可能性和不确定性,不一定能够完全准确地将基因序列拼接出来。此时,则需要大量专业人员通过经验判断、实际实验来对结果进行进一步的完善和修正。但大多数时候,不同纲目科属种的基因组具有不同的结构特征,科研人员的经验可能不足以准确判断某些基因片段的拼接模式的问题,本申请提供了一种基因序列拼接方法及应用。2.技术方案为了达到上述的目的,本申请提供了一种基因序列拼接方法,所述方法包括如下步骤:步骤1:对生物信息序列进行特征提取,并将所述特征量化为数据;步骤2:采用所述数据对模型进行训练;步骤3:采用所述训练出的模型进行基因序列拼接。本申请提供的另一种实施方式为:所述步骤1中采用基于人工标注的特征进行提取,所述步骤2中模型为seq2seq神经网络模型。本申请提供的另一种实施方式为:所述seq2seq神经网络模型包括词嵌入层、编码器和解码器。本申请提供的另一种实施方式为:所述词嵌入层将一对相邻序列上文编码后的特征转换为矩阵,所述矩阵输入至所述编码器进行编码后,传输至所述解码器进行解码。本申请提供的另一种实施方式为:所述编码器由多个门控单元循环神经网络串连构成,并且是双向流动的,同时从两端输入数据进行编码;所述解码器采用若干多个门控单元循环神经网络连接,所述解码器包括注意力机制和教师强迫。本申请提供的另一种实施方式为:所述步骤2中训练时的解码策略为每次预测一个特征,直到所述序列预测的中止条件;然后通过损失函数“预测序列与训练数据的下文序列”的差异来反向传播更新梯度。本申请提供的另一种实施方式为:所述中止条件包括预测序列片段的长度已经达到了算法限定的序列片段长度;所述中止条件包括算法预测该序列片段已经达到了完整基因序列的末尾,此时会预测特征为“序列结束”信号。本申请提供的另一种实施方式为:所述步骤3包括:测出实际基因序列片段,将所述基因序列片段转换为人工注释信息,将所述注释信息按照特定长度划分为序列片段,将所述序列片段的所有组合可能输入所述模型进行计算,得到序列片段拼接的代价表,根据所述代价表计算哈密尔顿路径得到所述模型的拼接结果。本申请提供的另一种实施方式为:所述哈密尔顿路径为寻找出一条环形路径,使得每个节点都会经过且仅经过一次,同时该路径的“代价”最低。本申请还提供一种基因序列拼接方法的应用,将所述的基因序列拼接方法应用于人工合成基因或者基因测序的拼接。3.有益效果与现有技术相比,本申请提供的一种基因序列拼接方法的有益效果在于:本申请提供的基因序列拼接方法,引入自然语言处理领域的方法,使用深度学习进行基因序列的拼接,并且在拼接的时候引入对序列语义信息的解读。本申请提供的基因序列拼接方法,对基因序列的处理引入了语义理解。本申请提供的基因序列拼接方法,引入了GPU进行计算,此处指的是相对于传统方法只使用了CPU而言,基于深度学习的方法支持使用GPU进行矩阵计算,增加了可选计算资源。附图说明图1是本申请的基因序列拼接方法总体框架示意图;图2是本申请的模型结构与训练过程示意图;图3是本申请的拼接流程示意图。具体实施方式在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。目前对于基因序列拼接的方法主要有两大类:基于Hamiltonian路径的和基于Eulerian路径的拼接算法。Phrap算法是基于Hamiltonian路径的代表算法。它是基于重叠部分(Overlap)计算的。该算法先将所有的片段建立为顶点,然后每一对存在重叠的片段连结为一条边,最后基于这个图构建出一条路径,使得每一个顶点恰好被经过一次。Euler算法是基于Eulerian的代表算法。它会先将所有基因片段进行误差识别和纠正,之后构造DeBrujin图,把每一个序列片段构造为一条边,重复的序列记作同一条,最后找出一条欧拉路径,使得所有的边恰好都经过一次。上述两种方法都没有对基因组片段所蕴含的生物信息进行太多理解,只是从算法层面完成任务。但是,自然语言处理领域,2013年,Google提出了词向量的方法可以对单词进行量化,将一个单词转化为一个N维的向量,然后通过神经网络训练,提取出不同词汇之间的关系,表征在这个N维向量中,进而体现出各种属性,例如性别、年龄、职业等信息,该方法被称为word2vec。2015年,UCB的研究小组将word2vec的方法首次应用到了生物序列领域。现有的将蛋白质序列按照固定长度3划分为单词,之后量化为词向量,发现词向量表示出来了三肽的一些生物信息,比如电荷数、作用力、稳定结构等。最后,该组将这样的词向量方法应用于蛋白质家族分类,取得了比传统方法下SVM要好的效果。可见对生物序列的信息进行解读,能够在一定程度上提升对序列的处理效果。通过我们在实践中的经验,本申请发现自然语言与基因序列存在很多相似的地方,而自然语言处理领域在深度学习的影响下取得了可喜的进步,已经产生了许多行之有效的方法。在这样的背景下,我们尝试引入深度学习的方法,使用大量的训练数据尝试学习到基因序列中的语义和结构问题,使得基因序列可以进行端到端的拼接,为基因序列的拼接提供一个新的可行方案。参见图1~3,本申请提供一种基因序列拼接方法,所述方法包括如下步骤:步骤1:对生物信息序列进行特征提取,并将所述特征量化为数据;步骤2:采用所述数据对模型进行训练;步骤3:采用所述训练出的模型进行基因序列拼接。基因序列的特征提取方法会直接影响到序列信息的表达效果,而基因的特征提取方本文档来自技高网...

【技术保护点】
1.一种基因序列拼接方法,其特征在于:所述方法包括如下步骤:/n步骤1:对生物信息序列进行特征提取,并将所述特征量化为数据;/n步骤2:采用所述数据对模型进行训练;/n步骤3:采用所述训练出的模型进行基因序列拼接。/n

【技术特征摘要】
1.一种基因序列拼接方法,其特征在于:所述方法包括如下步骤:
步骤1:对生物信息序列进行特征提取,并将所述特征量化为数据;
步骤2:采用所述数据对模型进行训练;
步骤3:采用所述训练出的模型进行基因序列拼接。


2.如权利要求1所述的基因序列拼接方法,其特征在于:所述步骤1中采用基于人工标注的特征进行提取,所述步骤2中模型为seq2seq神经网络模型。


3.如权利要求2所述的基因序列拼接方法,其特征在于:所述seq2seq神经网络模型包括词嵌入层、编码器和解码器。


4.如权利要求3所述的基因序列拼接方法,其特征在于:所述词嵌入层将一对相邻序列上文编码后的特征转换为矩阵,所述矩阵输入至所述编码器进行编码后,传输至所述解码器进行解码。


5.如权利要求3所述的基因序列拼接方法,其特征在于:所述编码器由多个门控单元循环神经网络串连构成,并且是双向流动的,同时从两端输入数据进行编码;所述解码器采用若干多个门控单元循环神经网络连接,所述解码器包括注意力机制和教师强迫。


6.如权利要求3所述的基因序列拼接方法,其特征在于...

【专利技术属性】
技术研发人员:周泳屹马迎飞郭顺范小朋
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1