一种结合参考库先验知识的宏基因组学分箱方法及系统技术方案

技术编号:33924869 阅读:26 留言:0更新日期:2022-06-25 21:35
本发明专利技术涉及宏基因组学和数据科学技术领域,提供了一种结合参考库先验知识的宏基因组学分箱方法及系统,所述方法包括:获取目标序列数据集,对其中的每个序列样本进行特征提取,经特征变换后得到分箱特征向量集;将所述目标序列数据集与参考库进行对比,得到物种数量估算值和各序列样本属于不同物种的置信度,进而得到分箱数量可行区间和各物种的置信聚类中心,并以此作为先验知识;对所述分箱数量可行区间的每个可行分箱数量,采用聚类方法对分箱特征向量集进行聚类,选取最优聚类结果,由最优聚类结果实现对目标序列数据集的分箱。与现有技术相比,本发明专利技术解决了现有宏基因组分箱不能处理未知物种序列或分箱精度不足等问题。题。题。

【技术实现步骤摘要】
一种结合参考库先验知识的宏基因组学分箱方法及系统


[0001]本申请涉及宏基因组学和数据科学
,特别是涉及结合参考库先验知识的宏基因组学分箱方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本申请相关的
技术介绍
,并不必然构成现有技术。
[0003]宏基因组学直接从自然环境样本中研究微生物的遗传物质,提供了一种研究真实微生物世界的有效方法,避免了实验室培养产生的偏差。宏基因组学分箱是将基因序列进行分类来区分不同的微生物物种或亚种,其分箱结果将直接影响宏基因组学研究的准确度,因而宏基因组学分箱已成为宏基因组学研究中的一个关键问题。
[0004]目前,宏基因组学分箱研究主要分为重叠群(contig)分箱和长读段(long read)分箱两大类。其中,重叠群是由短读段(short read)通过末端的重叠序列相互连接形成的长基因片段;而长读段则是伴随第三代测序技术(TGS)产生的长基因序列。此两类皆因序列更长、包含更多基因特征而比短读段更适合分箱。
[0005]就分箱方法而言,已有的宏基因组学分箱方法大致分为基于参考库(Reference

based)的分箱和参考库无关(Reference

free)的分箱两大类。其中,基于参考库的分箱通过将目标序列数据集与已知物种参考库(Reference database)进行比对来实现对目标序列数据集的分类,这种分箱方法对于已知物种基因序列可以达到很高的分箱精度,但无法处理未知物种;参考库无关的分箱则不依赖参考库,而是基于基因序列的区分性特征,采用特征工程和聚类方法来实现分箱。此类分箱方法可对未知物种进行分类,但其分箱精度通常较低,尤其是当区分特征差异较小或者物种数量较大时。
[0006]近年来,随着新物种的不断发现和登记,参考库得到很大补充和完善,能够对目标序列数据集的物种信息提供便捷的评估,尽管此评估结果还不够准确,但却是非常有价值的先验知识,充分利用这些先验信息能够极大提升分箱的精度。目前已有学者组合两种分箱方法实现宏基因组分箱,其分箱过程分为两个相对独立的阶段,首先采用特征库无关的分箱方法对进行初次分箱,然后对分箱质量不足的序列采用基于特征库的方法进行重新分箱;其本质是将基于特征库分箱作为特征库无关分箱的一种补充策略,并未将两种分箱方法真正融合。当区分特征差异较小或者物种数量较大时,这种方法的分箱效果将依赖基于参考库的重新分箱,因此会影响对未知物种序列的识别。

技术实现思路

[0007]为了解决现有技术的不足,本申请提供了一种结合参考库先验知识的宏基因组学分箱方法及系统,充分利用已有参考库所提供的先验知识,将此先验知识纳入特征无关的宏基因组学分箱。与现有技术相比,此方法从实质上实现了此两类分箱方法的融合,解决了现有宏基因组分箱不能处理未知物种序列或分箱精度不足等问题,既能对未知物种基因序列进行分箱,也比参考库无关的分箱方法具有更优的分箱性能。
[0008]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0009]一种结合参考库先验知识的宏基因组学分箱方法,所述参考库存储已知物种的标准基因序列,包括以下步骤:
[0010]获取目标序列数据集,对其中的每个序列样本进行特征提取,得到其初始区分特征向量,经特征变换后,得到该序列的分箱特征向量;
[0011]将目标序列数据集与参考库进行对比,得到所述目标序列数据集包含的物种数量估算值和各序列样本属于不同物种的置信度;根据所述物种数量估算值生成分箱数量可行区间,在此区间内,每个可行分箱数量均大于等于物种数量估算值;根据所述各序列样本属于不同物种的置信度,得到先验聚类中心集,将所述分箱数量可行区间和先验聚类中心集作为先验知识;
[0012]对所述分箱数量可行区间中的每个分箱数量,确定相应聚类中心集,所述聚类中心集包括先验聚类中心集和扩增聚类中心集;对于每个可行分箱数量,基于相应聚类中心集,对分箱特征向量集进行聚类分析,选取最优聚类结果,获取所述最优聚类结果中各簇对应的序列样本集,即为分箱结果。
[0013]进一步地,所述特征变换用于获取所述初始区分特征向量的低维表示,即分箱特征向量。
[0014]进一步地,所述特征变换采用以下任一方法:
[0015](1)深度学习模型VAE;(2)降维模型UMAP;(3)先采用深度学习模型VAE,再对得到的隐向量进一步采用降维模型UMAP。
[0016]进一步地,根据所述各序列样本属于不同物种的置信度,得到先验聚类中心集包括:
[0017]对于其中的每类物种,根据各序列样本属于该类物种的置信度,选择此物种的多个标杆序列样本,并基于分箱特征向量集获取这些标杆样本的分箱特征向量,这些分箱特征向量的中心即该类物种的先验聚类中心。
[0018]进一步地,所述扩增聚类中心采用在分箱特征向量集中随机方式选取,且保证每两个扩增聚类中心之间、以及扩增聚类中心与各先验聚类中心之间的距离均不小于设定阈值。
[0019]进一步地,根据轮廓系数或CH指数,对所有可行分箱数量对应的聚类结果进行对比,选择最优聚类结果。
[0020]进一步地,获取所述最优聚类结果中各簇对应的序列样本集包括:
[0021]假设X为目标序列数据集,对任意序列样本x∈X,记为x对应的分箱特征向量,若最优聚类结果为则计算B
j
={x|x∈X且j=1,2,

,K
*
,得到由各簇所对应的序列样本集即为分箱结果。
[0022]一个或多个实施例提供了一种结合参考库先验知识的宏基因组学分箱系统,所述参考库存储已知物种的标准基因序列,包括:
[0023]特征提取模块,用于获取目标序列数据集,对其中的每个序列样本进行特征提取,得到其初始区分特征向量,经特征变换后,得到该序列的分箱特征向量;
[0024]先验知识获取模块,用于将目标序列数据集与参考库进行对比,得到所述目标序
列数据集包含的物种数量估算值和各序列样本属于不同物种的置信度;根据所述物种数量估算值生成分箱数量可行区间,在此区间内,每个可行分箱数量均大于等于物种数量估算值;根据所述各序列样本属于不同物种的置信度,得到先验聚类中心集,将所述分箱数量可行区间和先验聚类中心集作为先验知识;
[0025]分箱模块,用于对所述分箱数量可行区间中的每个可行分箱数量,确定相应聚类中心集,所述聚类中心集包括先验聚类中心集和扩增聚类中心集;对于每个可行分箱数量,基于相应聚类中心集,对分箱特征向量集进行聚类分析,选取最优聚类结果,获取所述最优聚类结果中各簇对应的序列样本集,即为分箱结果。
[0026]一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述结合参考库先验知识的宏基因组学分箱方法。
[0027]一个或多个实施例提供了一种计算机可读存储介质本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合参考库先验知识的宏基因组学分箱方法,所述参考库存储已知物种的标准基因序列,其特征在于,包括以下步骤:获取目标序列数据集,对其中的每个序列样本进行特征提取,得到其初始区分特征向量,经特征变换后,得到该序列的分箱特征向量;将目标序列数据集与参考库进行对比,得到所述目标序列数据集包含的物种数量估算值和各序列样本属于不同物种的置信度;根据所述物种数量估算值生成分箱数量可行区间,在此区间内,每个可行分箱数量均大于等于物种数量估算值;根据所述各序列样本属于不同物种的置信度,得到先验聚类中心集,将所述分箱数量可行区间和先验聚类中心集作为先验知识;对所述分箱数量可行区间中的每个分箱数量,确定相应聚类中心集,所述聚类中心集包括先验聚类中心集和扩增聚类中心集;对于每个可行分箱数量,基于相应聚类中心集,对分箱特征向量集进行聚类分析,选取最优聚类结果,获取所述最优聚类结果中各簇对应的序列样本集,即为分箱结果。2.如权利要求1所述的一种结合参考库先验知识的宏基因组学分箱方法,其特征在于,所述特征变换用于获取所述初始区分特征向量的低维表示,即分箱特征向量。3.如权利要求2所述的一种结合参考库先验知识的宏基因组学分箱方法,其特征在于,所述特征变换采用以下任一方法:(1)深度学习模型VAE;(2)降维模型UMAP;(3)先采用深度学习模型VAE,再对得到的隐向量进一步采用降维模型UMAP。4.如权利要求1所述的一种结合参考库先验知识的宏基因组学分箱方法,其特征在于,根据所述各序列样本属于不同物种的置信度,得到先验聚类中心集包括:对于每类物种,根据各序列样本属于该类物种的置信度,选择此物种的多个标杆样本,并基于分箱特征向量集获取这些标杆样本的分箱特征向量,这些分箱特征向量的中心即该类物种对应的先验聚类中心。5.如权利要求1所述的一种结合参考库先验知识的宏基因组学分箱方法,其特征在于,所述扩增聚类中心采用在分箱特征向量集中随机方式选取,且保证每两个扩增聚类中心之间、以及扩增聚类中心与各先验聚类中心之间的距离均不小于设...

【专利技术属性】
技术研发人员:宋闻欢
申请(专利权)人:威海新元果业技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1