基于机器学习算法的物种鉴定模型制造技术

技术编号:39565948 阅读:7 留言:0更新日期:2023-12-03 19:17
本发明专利技术公开了一种基于机器学习算法的物种鉴定模型的构建方法,所述方法通过将已知真实物种的高通量测序数据酶切后获得的

【技术实现步骤摘要】
基于机器学习算法的物种鉴定模型、物种鉴定方法和物种鉴定系统


[0001]本专利技术属于生物信息学
,涉及一种基于机器学习算法的物种鉴定模型

物种鉴定方法和物种鉴定系统


技术介绍

[0002]在过去的几十年中,高通量测序技术
(
例如扩增子测序和宏基因组测序
)
的进步极大的提升了人类对微生物的理解,并广泛和显著的促进了食品工业

农业

环境修复

药物开发

人体健康等相关领域的发展

病毒的传播和传染疾病在不断的提醒着人类,先发制人地检测致病微生物的重要性毋庸置疑

目前,高通量测序技术越来越多的被用于临床样本的微生物检测,从而解决传统微生物诊断方法如体外培养

血清抗体检测和
PCR
的局限性,且高通量测序技术已经在确定抗生素耐药性

传染病暴发和癌症诊疗等方面发挥了关键作用

[0003]在使用高通量测序技术进行微生物研究中,利用生物信息学工具来准确鉴定物种和评估其丰度对于解构高通量微生物组测序数据至关重要

然而,目前的生物信息学工具却在解析微生物数据时引入了大量的假阳性信号,极大的干扰了微生物的鉴定,以及相关下游分析

工欲善其事必先利其器,可以说好的物种分类器对于发展基于高通量测序数据的微生物研究至关重要

>
技术实现思路

[0004]为了解决现有技术存在的不足,本专利技术的目的是提供一种基于机器学习算法的物种鉴定模型,对微生物组高通量测序数据进行准确的物种鉴定,从而解决高通量测序数据分析过程中假阳性和假阴性物种的鉴定问题,并服务于微生物组大数据分析以及临床致病菌的检测

[0005]本专利技术提出了一种基于机器学习算法的物种鉴定模型,所述模型基于经电子酶切获取的标签序列与第一微生物唯一标签数据库进行比对,获得包括物种信息

实际测得的该物种唯一标签种类数
Sequenced Tag Num、
实际测得的该物种唯一标签数量
Sequenced Reads Num
和该物种的理论唯一标签种类数
Theoretical Tag Num
在内的信息,基于上述信息获取基础特征和复合特征并进行处理,通过选择进行过处理的至少两个特征构成特征组合,对待构建的机器学习模型进行训练,将训练完毕后的机器学习模型保存为文件即获得所述的物种鉴定模型

[0006]本专利技术提出了一种基于机器学习算法的高通量测序物种鉴定方法,包括如下步骤:
[0007]步骤一

构建机器学习模型,具体包括以下步骤:
[0008]步骤
1.1、
基于公开发表的基因组
(
例如包括但不限于从
GTDB
数据库
、RefSeq
数据库
、Ensembl
数据库等下载
)
构建第一微生物唯一标签数据库
(
专利号:
ZL202011355328.7

专利名称:基于
IIB
型限制性内切酶特征的宏基因组测序数据处理系统及处理方法
)。
[0009]步骤
1.2、
将已知真实物种组成的高通量测序数据进行电子酶切,获取
IIB
标签序列,将标签序列比对到第一微生物唯一标签数据库,并统计比对上的物种信息

实际测得的该物种唯一标签种类数
(Sequenced Tag Num)、
实际测得的该物种唯一标签数量
(Sequenced Reads Num)
和该物种的理论唯一标签种类数
(Theoretical Tag Num)
等信息
(
专利号:
ZL202011355328.7
,专利名称:基于
IIB
型限制性内切酶特征的宏基因组测序数据处理系统及处理方法
)。
步骤
1.2
中比对获得的物种信息,含有大量的假阳性,同时步骤
1.2
中使用的是已知真实物种组成的数据,因此步骤
1.2
中还会同时标注物种的存在情况,使用
0、1
对物种是否真实存在进行标记,0表示不存在,1表示存在,用作后续模型训练的判别标签

将步骤
1.2
中获得的物种信息

实际测得的该物种唯一标签种类数
(Sequenced TagNum)、
实际测得的该物种唯一标签数量
(Sequenced Reads Num)
和该物种的理论唯一标签种类数
(Theoretical Tag Num)
以及表示物种是否存在的标签保存成以制表符分隔的文本文件

[0010]步骤
1.3、
计算特征,并将计算得到的特征增加到步骤
1.2
中所述的文本文件中

所述特征包括但不限于如下所列举,其中
(1)

(4)
为基础特征,即直接从步骤
1.2
所述的文本文件中获取,或者经过简单的加和计算得到
(
例如实际测得的全部物种的唯一标签种类数的和
(Total Reads Num))

(5)

(23)
为复合特征,即使用多个基础特征经过运算得到,或者为某个基础特征或复合特征排序后的次序信息

[0011]步骤
1.3
中提出的特征具体如下:
[0012](1)Sequenced Tag Num
:实际测得的属于某物种的唯一标签种类数;
[0013](2)Sequenced Reads Num
:实际测得的属于某物种的唯一标签数量;
[0014](3)Theoretical Tag Num
:某物种的理论唯一标签种类数;
[0015](4)Total Reads Num
:实际测得的全部物种的唯一标签种类数的和;
[0016](5)Coverage
:覆盖度,即实际测得的属于某物种的唯一标签种类数除以该物种的理论唯一标签种类数,公式为该复合特征描述说明了某一微生物基因组在测序数据中的相对完整性;覆盖度越高,则相对完整性越好;
[0017](6)Theoretical Reads Num
:理论测序量,通过基础特征
(
例如“某物种的理论唯一标签种类数”)
复合得到,即实际测得的属于某物种的唯一标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于机器学习算法的物种鉴定模型的构建方法,其特征在于,所述构建方法包括如下步骤:步骤
1、
基于公开发表的基因组构建第一微生物唯一标签数据库;步骤
2、
将已知真实物种组成的高通量测序数据进行电子酶切,获取
IIB
标签序列,将
IIB
标签序列比对到所述第一微生物唯一标签数据库,并统计比对上的包括物种信息

实际测得的该物种唯一标签种类数
Sequenced Tag Num、
实际测得的该物种唯一标签数量
Sequenced Reads Num
和该物种的理论唯一标签种类数
Theoretical Tag Num
在内的信息,同时用0或1标注物种是否真实存在;并将获得的物种信息

实际测得的该物种唯一标签种类数
Sequenced Tag Num、
实际测得的该物种唯一标签数量
Sequenced Reads Num
和该物种的理论唯一标签种类数
Theoretical Tag Num
以及表示物种是否存在的标签保存成以制表符分隔的文本文件;步骤
3、
获取基础特征和复合特征;其中,所述基础特征从所述步骤2中的文本文件中获取或经过简单加和得到;所述复合特征是指使用多个所述基础特征经过运算得到或者为某个基础特征或复合特征排序后的次序信息;步骤
4、
对所述步骤3中获得的未经过对数处理的基础特征或复合特征进行数据处理;步骤
5、
选择所述步骤4中进行过数据处理的或在步骤3前已经过对数处理的至少两个基础特征或复合特征构成特征组合,用于训练初步建立的机器学习模型,将训练完成的机器学习模型保存为文件,即获得物种鉴定模型
。2.
如权利要求1所述的构建方法,其特征在于,所述公开发表的基因组来源包括
GTDB
数据库
、RefSeq
数据库
、Ensembl
数据库
。3.
如权利要求1所述的构建方法,其特征在于,步骤3中,所述基础特征包括:实际测得的属于某物种的唯一标签种类数;实际测得的属于某物种的唯一标签数量

某物种的理论唯一标签种类数

实际测得的全部物种的唯一标签种类数的和;所述复合特征包括:覆盖度

理论测序量

第一标签深度

第二标签深度

物种深度

物种测序量

物种测序量的算术平方根

物种理论测序量的算术平方根
、G
分数
、G
分数的秩

覆盖度的对数

理论测序量的对数

第一标签深度的对数

第二标签深度的对数

物种深度的对数

物种测序量的对数

物种测序量的算数平方根的对数

物种理论测序量的算数平方根的对数
、G
分数的对数
。4.
如权利要求3所述的构建方法,其特征在于,在所述复合特征中,所述覆盖度的计算公式为:所述理论测序量的计算公式为:所述第一标签深度的计算公式为:所述第二标签深度的计算公式为:所述物种深度的计算公式为:
所述物种测序量的计算公式为:所述物种测序量的算数平方根的计算公式为:所述物种理论测序量的算数平方根的计算公式为:所述
G
分数的计算公式为:所述
G
分数的秩是将
G
分数按照从大到小的顺序排列,取排序后的次序;所述覆盖度的对数的计算公式为:所述理论测序量的对数的计算公式为:所述第一标签深度的对数的计算公式为:所述第二标签深度的对数的计算公式为:所述物种深度的对数的计算公式为:所述物种测序量的对数的计算公式为:所述物种测序量的算数平方根的对数的计算公式为:所述物种理论测序量的算数平方根的对数的计算公式为:所述
G
分数的对数的计算公式为:其中,
Sequenced Tag Num
为实际测得的属于某物种的唯一标签种类数;
Sequenced Reads Num
为实际测得的属于某物种的唯一标签数量;
Theoretical Tag Num
为某物种的理论唯一标签种类数;
Total Reads Num
为实际测得的全部...

【专利技术属性】
技术研发人员:刘江周丽沙王修评张荣超
申请(专利权)人:青岛欧易生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1