使用机器学习对核酸序列进行分类的方法技术

技术编号：29222797 阅读：24 留言：0更新日期：2021-07-10 01:04

本发明专利技术提供一种使用机器学习对核酸序列进行分类的方法，所述方法包括收集带有准确分类标签的核酸序列构建核酸序列数据库，将核酸序列数据库中所有核酸序列分割成等长度的短序列，从而形成短核酸序列均衡样本；提取核酸Kmer，形成核酸序列的Kmer字典；使用Kmer字典将短核酸序列均衡样本转化成数字信号；使用数字信号训练一个能对带有分类标签的核酸序列进行多分类的神经网络分类器；使用Kmer字典将待检测核酸序列转化成数字信号；然后将数字信号输入到训练好的神经网络分类器中，对待检测核酸序列进行分类。通过本发明专利技术的方法，能够准确快速地将待检测核酸序列与构建数据库中核酸序列的标签进行对应分类，并展示每个标签的可靠性分值，为后续研究提供参考，增加了模型的使用价值。的使用价值。的使用价值。

全部详细技术资料下载

【技术实现步骤摘要】
使用机器学习对核酸序列进行分类的方法

[0001]本专利技术涉及生物
，具体涉及使用机器学习对核酸序列进行分类的方法。

技术介绍

[0002]目前对核酸序列进行分类多采用序列比对的方法。首先获取带有明确标签的核酸序列构建数据库，然后将待检测的核酸序列与数据库中的核酸序列进行逐一比对，找出与其相似性最高的序列，最后此相似性最高的序列所属标签将赋予待检测序列作为它的类别。
[0003]序列比对方法虽然使用十分广泛，但是其局限性也十分明显。由于目前数据库均是基于已知分类序列进行构建，通过序列比对方法对新出现的核酸序列则不能正确地进行分类；同时在基因序列测定过程中，受技术和资金所限，获得的核酸序列可能只是其完整基因组序列的一部分，有时长度甚至短于1000bp，而序列比对方法对于短序列的区分度更低；随着数据库中参考序列数目的不断增加，检测目标序列的运算量也会不断加大，甚至在普通计算机上难以完成。

技术实现思路

[0004]为了解决上述问题，本专利技术提供一种使用机器学习对核酸序列进行分类的方法，所述方法包括以下步骤：S0：收集带有准确分类标签的核酸序列构建核酸序列数据库；S1：将核酸序列数据库中所有核酸序列分割成等长度的短序列，从而形成短核酸序列均衡样本，该短序列的长度为4bp～核酸序列数据库中最短序列的长度，短核酸序列均衡样本适合于机器学习，短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量N
most
与最少分类标签数目的短核酸序列数量N
least
的比值...

【技术保护点】

【技术特征摘要】
1.使用机器学习对核酸序列进行分类的方法，其特征在于，所述方法包括以下步骤：S0：收集带有准确分类标签的核酸序列构建核酸序列数据库；S1：将核酸序列数据库中所有核酸序列分割成等长度的短序列，从而形成短核酸序列均衡样本，该短序列的长度为4bp～核酸序列数据库中最短序列的长度，短核酸序列均衡样本适合于机器学习，短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量N
most
与最少分类标签数目的短核酸序列数量N
least
的比值不超过5时的短核酸序列样本，优选的所述比值不超过2；S2：根据所述核酸序列数据库中的核酸序列，提取核酸Kmer，核酸Kmer长度为4≤Kmer长度≤所述短序列的长度，形成核酸序列的Kmer字典；S3：使用S2中的Kmer字典将S1中的短核酸序列均衡样本转化成数字信号；S4：使用S3中的数字信号训练一个能对带有分类标签的核酸序列进行多分类的神经网络分类器，该神经网络分类器用于识别和判断待检测核酸序列在核酸数据库中的核酸分类；S5：使用S2中的Kmer字典将待检测核酸序列转化成数字信号；S6：将S5中的数字信号输入到S4中训练好的神经网络分类器中，对待检测核酸序列进行分类。2.根据权利要求1所述的方法，其特征在于，所述方法还包括步骤S7:展示待检测核酸序列的分类结果。3.根据权利要求2所述的方法，其特征在于，S7中展示部分为每条序列的ID和该ID序列可能的分类标签；并显示可能的分类标签的可靠性分值，分值越高则表明这条ID序列为此分类标签可靠性越高。4.根据权利要求1所述的方法，其特征在于，所述S1包括以下步骤：S1
‑
1：判断核酸序列数据库中所有核酸序列是否均衡；S1
‑2‑
1：如果均衡，则使用相同分割步长将核酸序列数据库中所有核酸序列分割成等长度的短序列，所述相同分割步长是分割时后移长度，该后移长度不大于所述短序列的长度，分割核酸序列数据库中所有核酸序列获得短序列样本；S1
‑2‑
2：如果不均衡，则对核酸序列数据库中每类标签核酸序列使用各自分割步长将每类标签核酸序列分割成等长度的短序列，每类标签核酸序列分割步长为分割各类标签核酸序列时后移长度，该后移长度不大于所述短序列的长度，分割核酸序列数据库中所有核酸序列获得短序列样本；S1
‑
3：判断S1
‑2‑
1或者S1
‑2‑
2获得短核酸序列的样本是否为均衡并适合于机器学习的样本，如果是，则停止S1
‑2‑
1或者S1
‑2‑
2，如果不是，则重复S1

【专利技术属性】
技术研发人员：赵增祥，张延明，杜楠，朱政英，王丽娜，侯全民，
申请(专利权)人：北京诺赛基因组研究中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人