构建对核酸序列进行分类的模型方法及其应用技术

技术编号:27940216 阅读:26 留言:0更新日期:2021-04-02 14:21
本发明专利技术提供一种构建对核酸序列进行分类的模型方法,所述方法包括收集带有准确分类标签的核酸序列构建核酸序列数据库,将核酸序列数据库中所有核酸序列分割成等长度的短序列,从而形成短核酸序列均衡样本,根据所述核酸序列数据库中的核酸序列,提取核酸Kmer,形成核酸序列的Kmer字典;将短核酸序列均衡样本转化成数字信号;使用数字信号训练一个能对核酸序列进行多分类的神经网络分类器。通过本发明专利技术方法构建的模型,能够准确快速地将待测核酸序列与数据库中的核酸序列标签进行对应分类,并展示每个标签的可靠性分值,通过可靠性分值可以判定待检测核酸序列是否由数据库中的序列重组而成,或者根据同一样本基因组上的不同核酸序列片段的检测结果进一步确定样本的标签。

【技术实现步骤摘要】
构建对核酸序列进行分类的模型方法及其应用
本专利技术涉及生物
,具体涉及构建对核酸序列进行分类的模型方法及其应用。
技术介绍
目前核酸序列分类检测主要有三类方法:1)基于序列相似性比对的方法;2)基于统计学的方法;3)基于系统发育树的方法。由于目前数据库均是基于已知分类序列进行构建,通过序列相似性比对方法对新出现的核酸序列则不能准确地进行分类。而基于系统发育树进行分类的方法相比其他两种方法虽然灵敏度和特异性更高,但是会需要更多的运算时间和计算资源。
技术实现思路
为了解决上述问题,本专利技术构建对核酸序列进行分类的模型方法,所述方法包括以下步骤:S0:收集带有准确分类标签的核酸序列构建核酸序列数据库;S1:将核酸序列数据库中所有核酸序列分割成等长度的短序列,从而形成短核酸序列均衡样本,该短序列的长度为4bp~核酸序列数据库中最短序列的长度,短核酸序列均衡样本适合于机器学习,短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量Nmost与最少分类标签数目的短核酸序列数量Nleast的比值不超过5时的短核酸序列样本,优选的所述比值不超过2;S2:根据所述核酸序列数据库中的核酸序列,提取核酸Kmer,核酸Kmer长度为4≤Kmer长度≤所述短序列的长度,形成核酸序列的Kmer字典;S3:使用S2中的Kmer字典将S1中的短核酸序列均衡样本转化成数字信号;S4:使用S3中的数字信号训练一个能对带有分类标签的核酸序列进行多分类的神经网络分类器,该神经网络分类器用于识别和判断待检测核酸序列在核酸数据库中核酸分类。在一种实施方式中,所述S1包括以下步骤:S1-1:判断核酸序列数据库中所有核酸序列是否均衡;S1-2-1:如果均衡,则使用相同分割步长将核酸序列数据库中所有核酸序列分割成等长度的短序列,所述相同分割步长是分割时后移长度,该后移长度不大于所述短序列的长度,分割核酸序列数据库中所有核酸序列获得短序列样本;S1-2-2:如果不均衡,则对核酸序列数据库中每类标签核酸序列使用各自分割步长将每类标签核酸序列分割成等长度的短序列,每类标签核酸序列分割步长为分割各类标签核酸序列时后移步长,该后移长度不大于所述短序列的长度,分割核酸序列数据库中所有核酸序列获得短序列样本;S1-3:判断S1-2-1或者S1-2-2获得短核酸序列的样本是否为均衡并适合于机器学习的样本,如果是,则停止S1-2-1或者S1-2-2,如果不是,则重复S1-2-1或者S1-2-2,直到获得均衡并适合于机器学习的短核酸序列的样本。在一种实施方式中,所述S1-2-2中,包括以下步骤:(1)获得核酸序列数据库中带有准确分类标签的核酸序列中每类核酸序列数目与特定值的比率,特定值的选择范围在核酸序列数据库中核酸序列中最多标签数目的核酸序列数量Nmost与最少标签数目的核酸序列数量Nleast之间的任意值,比率值=特定值÷每类核酸数目,比率值小于1的则人为将比率值设定为1;(2)根据每类核酸的比率值求得此类核酸的分割步长,分割步长=短序列长度÷比率值。在一种实施方式中,S2包括:S2-1:使用软件提取核酸序列数据库中所有的Kmer组成集合;S2-2:构建Kmer字典,将S2-1中的所有Kmer按字母顺序从小到大排序,并且排序好后的Kmer中的第一位置插入<unk>表示字典中不存在的Kmer。5.根据权利要求4所述的方法,其特征在于,所述字典的查询方式为Kmer:Kmer所在字典中的位置。在一种实施方式中,S2-1中软件是jellyfish软件。在一种实施方式中,所述S4包括以下步骤:S4-1:搭建一个含有输入层、Embedding层、最大池化层、平均池化层、中间合并层、全连接层一、全连接层二、输出层的模型;S4-2:把S3得到的数字信号输入到S4-1搭建的模型中进行训练,直到该神经网络成为对输入核酸序列进行多分类的神经网络分类器,分类标签为S0核酸数据库中的分类标签;S4-3:把S4-2中训练好的模型保存,用于后续对待检测核酸序列进行分析。在一种实施方式中,使用S3中50%-90%数字信号作为训练集,S3中10%-50%数字信号作为测试集,将训练集输入S4-2中搭建的神经网络,并对该网络进行反复训练,并利用测试集不断测试,直到该网络的分类表现达到成为对输入核酸序列进行多分类的神经网络分类器的要求,其分类标签为核酸数据库中核酸序列分类标签。在一种实施方式中,本专利技术提供上述方法构建的模型在核酸分类中的应用。在一种实施方式中,所述应用包括以下步骤:F1:将一条或不同样本的多条待检测核酸序列保存到文件中,并且分别命名;F2:使用S2中字典将F1中的待检测核酸序列转化成数字信号;F3:使用S4中已经训练好的网络分类器对F2中的数字信号进行分析,得到每条核酸序列的分类结果;F4:对所述分类结果进行分析,判定待检测核酸序列的标签是由数据库中哪几种标签重组而成。在一种实施方式中,所述应用包括以下步骤:P1:将来源于同一样本基因组的多个基因序列片段或者来源于不同样本基因组的多个基因序列片段作为待检测序列保存到文件中,并且分别命名;P2:使用S2中字典将P1中的待检测核酸序列转化成数字信号;P3:使用S4中已经训练好的网络分类器对P2中的数字信号进行分析,得到每条核酸的分类结果;P4:对所述分类结果进行分析,使用分类结果中同一样本基因组的不同核酸序列片段的结果确定每条核酸序列在数据库中的标签。在本专利技术方法中,在步骤S1中,根据数据库中各类别核酸的数目设定相应的步长对各类别的核酸进行分割,从而获得短序列均衡样本,使其适合于机器学习并得到可靠的神经网络分类器,短序列的长度可根据后续待检测样本的长度灵活选择。在S2步骤中,使用Kmer提取软件直接提取数据库中所有的Kmer组成字典,可以减少后续步骤中与字典对应的Embedding数组的运算量,减少模型的存储空间,增加模型的可移植性。在S4步骤中,训练一个核酸序列分类器并保存,可以快速将待检测核酸序列与数据库中的核酸序列标签进行对应分类。通过本专利技术方法构建的模型,能够准确快速地将待检测核酸序列与数据库中的核酸序列标签进行对应分类,并展示每个标签的可靠性分值,为后续研究提供参考,增加了模型的使用价值。当数据库中核酸序列不均衡时,本专利技术方法对核酸序列数据库中每类标签核酸序列使用各自分割步长将每类标签核酸序列分割成等长度的短序列组成短核酸序列均衡样本,避免因数据库核酸序列不平衡导致数据库不可用或需要付出额外努力增加核酸样本的现象,增加了机器学习对核酸序列进行分类的适用范围。由于某一长度的Kmer的全部数目为4k/2+1(k值为Kmer的长度),因此当k值足够大时,Kmer的全部数目会变得非常大,本地计算机资源难以处理。例如当k=20,Kmer的数目本文档来自技高网...

【技术保护点】
1.构建对核酸序列进行分类的模型方法,其特征在于,所述方法包括以下步骤:/nS0:收集带有准确分类标签的核酸序列构建核酸序列数据库;/nS1:将核酸序列数据库中所有核酸序列分割成等长度的短序列,从而形成短核酸序列均衡样本,该短序列的长度为4bp~核酸序列数据库中最短序列的长度,短核酸序列均衡样本适合于机器学习,短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量N

【技术特征摘要】
1.构建对核酸序列进行分类的模型方法,其特征在于,所述方法包括以下步骤:
S0:收集带有准确分类标签的核酸序列构建核酸序列数据库;
S1:将核酸序列数据库中所有核酸序列分割成等长度的短序列,从而形成短核酸序列均衡样本,该短序列的长度为4bp~核酸序列数据库中最短序列的长度,短核酸序列均衡样本适合于机器学习,短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量Nmost与最少分类标签数目的短核酸序列数量Nleast的比值不超过5时的短核酸序列样本,优选的所述比值不超过2;
S2:根据所述核酸序列数据库中的核酸序列,提取核酸Kmer,核酸Kmer长度为4≤Kmer长度≤所述短序列的长度,形成核酸序列的Kmer字典;
S3:使用S2中的Kmer字典将S1中的短核酸序列均衡样本转化成数字信号;
S4:使用S3中的数字信号训练一个能对带有分类标签的核酸序列进行多分类的神经网络分类器,该神经网络分类器用于识别和判断待检测核酸序列在核酸数据库中核酸分类。


2.根据权利要求1所述的方法,其特征在于,所述S1包括以下步骤:
S1-1:判断核酸序列数据库中所有核酸序列是否均衡;
S1-2-1:如果均衡,则使用相同分割步长将核酸序列数据库中所有核酸序列分割成等长度的短序列,所述相同分割步长是分割时后移长度,该后移长度不大于所述短序列的长度,分割核酸序列数据库中所有核酸序列获得短序列样本;
S1-2-2:如果不均衡,则对核酸序列数据库中每类标签核酸序列使用各自分割步长将每类标签核酸序列分割成等长度的短序列,每类标签核酸序列分割步长为分割各类标签核酸序列时后移步长,该后移长度不大于所述短序列的长度,分割核酸序列数据库中所有核酸序列获得短序列样本;
S1-3:判断S1-2-1或者S1-2-2获得短核酸序列的样本是否为均衡并适合于机器学习的样本,如果是,则停止S1-2-1或者S1-2-2,如果不是,则重复S1-2-1或者S1-2-2,直到获得均衡并适合于机器学习的短核酸序列的样本。


3.根据权利要求2所述的方法,其特征在于,所述S1-2-2中,包括以下步骤:
(1)获得核酸序列数据库中带有准确分类标签的核酸序列中每类核酸序列数目与特定值的比率,特定值的选择范围在核酸序列数据库中核酸序列中最多标签数目的核酸序列数量Nmost与最少标签数目的核酸序列数量Nleast之间的任意值,比率值=特定值÷每类核酸数目,比率值小于1的则人为将比率值设定为1;
(2)根据每类核酸的比率值求得此类核酸的分割步长,分割步长=短序列长度÷比率值。


4.根据权利要求1所述的方法,其特征在于,S2包括:...

【专利技术属性】
技术研发人员:张延明赵增祥杜楠张萱朱政英万丽君王丽娜侯全民
申请(专利权)人:北京诺赛基因组研究中心有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1