构建对核酸序列进行分类的模型方法及其应用技术

技术编号：27940216 阅读：47 留言：0更新日期：2021-04-02 14:21

本发明专利技术提供一种构建对核酸序列进行分类的模型方法，所述方法包括收集带有准确分类标签的核酸序列构建核酸序列数据库，将核酸序列数据库中所有核酸序列分割成等长度的短序列，从而形成短核酸序列均衡样本，根据所述核酸序列数据库中的核酸序列，提取核酸Kmer，形成核酸序列的Kmer字典；将短核酸序列均衡样本转化成数字信号；使用数字信号训练一个能对核酸序列进行多分类的神经网络分类器。通过本发明专利技术方法构建的模型，能够准确快速地将待测核酸序列与数据库中的核酸序列标签进行对应分类，并展示每个标签的可靠性分值，通过可靠性分值可以判定待检测核酸序列是否由数据库中的序列重组而成，或者根据同一样本基因组上的不同核酸序列片段的检测结果进一步确定样本的标签。

全部详细技术资料下载

【技术实现步骤摘要】
构建对核酸序列进行分类的模型方法及其应用
本专利技术涉及生物
，具体涉及构建对核酸序列进行分类的模型方法及其应用。
技术介绍
目前核酸序列分类检测主要有三类方法：1)基于序列相似性比对的方法；2)基于统计学的方法；3)基于系统发育树的方法。由于目前数据库均是基于已知分类序列进行构建，通过序列相似性比对方法对新出现的核酸序列则不能准确地进行分类。而基于系统发育树进行分类的方法相比其他两种方法虽然灵敏度和特异性更高，但是会需要更多的运算时间和计算资源。
技术实现思路
为了解决上述问题，本专利技术构建对核酸序列进行分类的模型方法，所述方法包括以下步骤：S0：收集带有准确分类标签的核酸序列构建核酸序列数据库；S1：将核酸序列数据库中所有核酸序列分割成等长度的短序列，从而形成短核酸序列均衡样本，该短序列的长度为4bp～核酸序列数据库中最短序列的长度，短核酸序列均衡样本适合于机器学习，短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量Nmost与最少分类标签数目的短核酸序列数量Nleast的...

【技术保护点】
1.构建对核酸序列进行分类的模型方法，其特征在于，所述方法包括以下步骤：/nS0：收集带有准确分类标签的核酸序列构建核酸序列数据库；/nS1：将核酸序列数据库中所有核酸序列分割成等长度的短序列，从而形成短核酸序列均衡样本，该短序列的长度为4bp～核酸序列数据库中最短序列的长度，短核酸序列均衡样本适合于机器学习，短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量N

【技术特征摘要】
1.构建对核酸序列进行分类的模型方法，其特征在于，所述方法包括以下步骤：
S0：收集带有准确分类标签的核酸序列构建核酸序列数据库；
S1：将核酸序列数据库中所有核酸序列分割成等长度的短序列，从而形成短核酸序列均衡样本，该短序列的长度为4bp～核酸序列数据库中最短序列的长度，短核酸序列均衡样本适合于机器学习，短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量Nmost与最少分类标签数目的短核酸序列数量Nleast的比值不超过5时的短核酸序列样本，优选的所述比值不超过2；
S2：根据所述核酸序列数据库中的核酸序列，提取核酸Kmer，核酸Kmer长度为4≤Kmer长度≤所述短序列的长度，形成核酸序列的Kmer字典；
S3：使用S2中的Kmer字典将S1中的短核酸序列均衡样本转化成数字信号；
S4：使用S3中的数字信号训练一个能对带有分类标签的核酸序列进行多分类的神经网络分类器，该神经网络分类器用于识别和判断待检测核酸序列在核酸数据库中核酸分类。

2.根据权利要求1所述的方法，其特征在于，所述S1包括以下步骤：
S1-1：判断核酸序列数据库中所有核酸序列是否均衡；
S1-2-1：如果均衡，则使用相同分割步长将核酸序列数据库中所有核酸序列分割成等长度的短序列，所述相同分割步长是分割时后移长度，该后移长度不大于所述短序列的长度，分割核酸序列数据库中所有核酸序列获得短序列样本；
S1-2-2：如果不均衡，则对核酸序列数据库中每类标签核酸序列使用各自分割步长将每类标签核酸序列分割成等长度的短序列，每类标签核酸序列分割步长为分割各类标签核酸序列时后移步长，该后移长度不大于所述短序列的长度，分割核酸序列数据库中所有核酸序列获得短序列样本；
S1-3：判断S1-2-1或者S1-2-2获得短核酸序列的样本是否为均衡并适合于机器学习的样本，如果是，则停止S1-2-1或者S1-2-2，如果不是，则重复S1-2-1或者S1-2-2，直到获得均衡并适合于机器学习的短核酸序列的样本。

3.根据权利要求2所述的方法，其特征在于，所述S1-2-2中，包括以下步骤：
(1)获得核酸序列数据库中带有准确分类标签的核酸序列中每类核酸序列数目与特定值的比率，特定值的选择范围在核酸序列数据库中核酸序列中最多标签数目的核酸序列数量Nmost与最少标签数目的核酸序列数量Nleast之间的任意值，比率值＝特定值÷每类核酸数目，比率值小于1的则人为将比率值设定为1；
(2)根据每类核酸的比率值求得此类核酸的分割步长，分割步长＝短序列长度÷比率值。

4.根据权利要求1所述的方法，其特征在于，S2包括：...

【专利技术属性】
技术研发人员：张延明，赵增祥，杜楠，张萱，朱政英，万丽君，王丽娜，侯全民，
申请(专利权)人：北京诺赛基因组研究中心有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人