当前位置: 首页 > 专利查询>清华大学专利>正文

一种微生物组识别方法和装置、设备制造方法及图纸

技术编号:18426760 阅读:50 留言:0更新日期:2018-07-12 02:05
一种微生物组识别方法和装置、设备,该微生物组识别方法包括:获取多个生物个体的微生物组特征信息生成多个样本,计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度,根据该多个相似度建立所述第一样本的相似度概率分布模型;获取待测样本,计算所述待测样本与所述第一样本的相似度,根据所述待测样本与所述第一样本的相似度以及所述第一样本的相似度概率分布模型确定所述待测样本的第一概率值,根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体。本实施例提供的方案,能有效的对微生物组进行识别。

A method and device and equipment for identification of microbiome

A method and device for identification of microorganism group and device. The method of identifying the microbial group includes: obtaining a plurality of samples from the feature information of the microorganism group of a plurality of organisms, calculating the similarity degree of the first sample in the plurality of samples with the other samples to obtain a number of similarities, and establishing the first one according to the plurality of similarities. The similarity degree probability distribution model of the sample is obtained, the similarity degree of the sample to be measured and the first sample is calculated, and the first probability value of the sample is determined according to the similarity degree of the sample to be measured and the first sample and the similarity probability distribution model of the first sample, and the first probability value is determined according to the first probability. The rate value determines whether the sample to be tested belongs to the same biological individual as the first sample. The scheme provided by this embodiment can effectively identify the microbial group.

【技术实现步骤摘要】
一种微生物组识别方法和装置、设备
本专利技术涉及生物识别技术,尤指一种微生物组识别方法和装置、设备。
技术介绍
微生物遍布于自然环境各个地方,在人体身上也不例外,从内部肠道到外部皮肤,微生物中的主要成员细菌的数量甚至与人体细胞数量相当。微生物不单独出现,常以微生物群落的形式存在,由于现有的实验条件还是很难分离培养所有的微生物,因此就有了通过DNA测序的方法间接获得微生物基础构成的组学,即微生物组学。微生物组是微生物群落所有遗传物质的总和,由于通过高通量测序得到的是混合基因组片段数据,因此用宏基因组来表示微生物组的测序数据。个体的微生物组有很高的特异性,在很多宏基因组测序数据中都得到了证实。一些方法通过对序列进行特征提取来唯一地表征一个人的微生物组,在一定时间内能被作为该人特定的分子标签,并在小样本量的实验中得到了应用。但是,由于个体的微生物组时刻变化,宏基因组测序数据并不像基因组一样稳定,将其作为分子标签并不能持续有效。
技术实现思路
本专利技术至少一实施例提供了一种微生物组识别方法和装置、设备,能有效对微生物组进行识别。为了达到本专利技术目的,本专利技术至少一实施例提供了一种微生物组识别方法,包括:获取多个生物个体的微生物组特征信息生成多个样本,计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度,根据该多个相似度建立所述第一样本的相似度概率分布模型;获取待测样本,计算所述待测样本与所述第一样本的相似度,根据所述待测样本与所述第一样本的相似度以及所述第一样本的相似度概率分布模型确定所述待测样本的第一概率值,根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体。本专利技术至少一实施例提供一种微生物组识别装置,包括:信息采集模块,用于获取多个生物个体的微生物组特征信息生成多个样本,以及,获取待测样本;相似度计算模块,用于计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度;以及,计算所述待测样本与所述第一样本的相似度;相似度分布建立模块,用于根据该多个相似度建立第一样本的相似度概率分布模型;识别模块,用于根据所述待测样本与所述第一样本的相似度在所述第一样本的相似度概率分布模型中的位置,判断所述待测样本与所述第一样本是否属于同一生物个体。本专利技术一实施例提供一种微生物组识别设备,包括存储器和处理器,所述存储器存储有程序,所述程序在被所述处理器读取执行时,实现上述任一实施例所述的微生物组识别方法。与相关技术相比,本专利技术一实施例中,通过建立样本的相似度概率分布模型,根据待测样本与该样本的相似度在该相似度概率分布模型中的概率值,进而判断待测样本是否和该样本属于同一生物个体。本申请的方案,能实现对微生物组的识别。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术一实施例提供的微生物组识别方法流程图;图2为本专利技术一实施例提供的微生物组识别装置框图;图3为本专利技术一实施例提供的识别模块框图;图4为本专利技术另一实施例提供的识别模块框图;图5为本专利技术一实施例提供的微生物组识别方法示意图;图6为本专利技术一实施例提供的微生物组识别方法流程图;图7为本专利技术一实施例提供的微生物组识别方法与其他方法的成功率比较图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。除非另外定义,本公开使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。本申请中通过构建个体间的微生物组特征信息的相似度分布模型对个体进行识别,不同于寻找固定的标签,而是从个体的微生物组相似度要显著大于其他人这一点出发。如果两个宏基因组样本的相似度显著地高,就认为来自一个生物个体。对于一个分布来说,如果取值落在极少出现的位置就可以看作是某种程度的显著,因此本申请也寻求类似的概念,通过生成个体间的相似度分布来进行个体样本的识别。对于个体间相似度的分布,如果说把微生物群落特异性描述为一个生物个体的不同样本可以分成一类的分类问题的话,对于剩下的样本都将是另外一类。因此一个生物个体某个时间点的样本与其他生物个体的样本生成的分布,自己的另一个时间点的采样应该不属于这个分布,也就是p-value(概率值)会足够的小。如图1所示,本专利技术一实施例提供一种微生物组识别方法,包括:步骤101,获取多个生物个体的微生物组特征信息生成多个样本,计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度,根据该多个相似度建立所述第一样本的相似度概率分布模型;其中,第一样本是该多个样本中的任一样本。每个样本对应一个生物个体的微生物组特征信息。其中,该多个生物个体是已知的,比如,生物个体为人时,已知各样本对应的人。另外,多个样本中可以包含一个生物个体的不同时间采集的微生物组特征信息。另外,样本数越多,相似度概率分布模型越准确,因此,尽可能获取大量样本。该多个生物个体包含不同的生物个体。生物个体可以是人,也可以是动物,或者其他生物。微生物组比如肠道微生物(可以从粪便中提取)、口腔微生物等等。需要说明的是,在其他实施例中,也可以计算该多个样本中除第一样本外的其他样本的相似度概率分布模型。步骤102,获取待测样本,计算所述待测样本与所述第一样本的相似度;其中,待测样本是一个未知的生物个体的微生物组特征信息。步骤103,根据所述待测样本与所述第一样本的相似度以及所述第一样本的相似度概率分布模型确定所述待测样本的第一概率值,根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体。本实施例提供的微生物组识别方法,通过建立第一样本的相似度概率分布模型,通过待测样本的相似度在相似度概率分布模型中的概率值,判断待测样本和第一样本是否来自同一生物个体。在一实施例中,所述步骤101中,所述微生物组特征信息包括:微生物组的宏基因组测序数据,或者,微生物组的基因芯片数据,或者,微生物组的染色信息。在一实施例中,所述微生物组的特征信息为微生物数组的宏基因组测序数据时,对所述宏基因组测序数据进行k-mer分割,所述k大于1。在一实施例子中,所述k大于15,比如k取值为18。需要说明的是,可以不进行k-mer分割,直接基于宏基因组测序数据计算相似度。进行k-mer分割再计算相似度,可以大大减小运算量。在其他实施例中,也本文档来自技高网...

【技术保护点】
1.一种微生物组识别方法,包括:获取多个生物个体的微生物组特征信息生成多个样本,计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度,根据该多个相似度建立所述第一样本的相似度概率分布模型;获取待测样本,计算所述待测样本与所述第一样本的相似度,根据所述待测样本与所述第一样本的相似度以及所述第一样本的相似度概率分布模型确定所述待测样本的第一概率值,根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体。

【技术特征摘要】
1.一种微生物组识别方法,包括:获取多个生物个体的微生物组特征信息生成多个样本,计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度,根据该多个相似度建立所述第一样本的相似度概率分布模型;获取待测样本,计算所述待测样本与所述第一样本的相似度,根据所述待测样本与所述第一样本的相似度以及所述第一样本的相似度概率分布模型确定所述待测样本的第一概率值,根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体。2.如权利要求1所述的微生物组识别方法,其特征在于,所述微生物组特征信息包括:微生物组的宏基因组测序数据,或者,微生物组的基因芯片数据,或者,微生物组的染色信息。3.如权利要求2所述的微生物组识别方法,其特征在于,计算相似度时,如果所述微生物组的特征信息为微生物数组的宏基因组测序数据,对所述宏基因组测序数据进行k-mer分割后基于进行k-mer分割后的宏基因组测序数据进行相似度计算,k大于1。4.如权利要求1所述的微生物组识别方法,其特征在于,所述相似度基于MinHash算法获得。5.如权利要求1至4任一所述的微生物组识别方法,其特征在于,所述根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体包括:当所述第一概率值小于第一预设阈值时,所述待测样本与所述第一样本属于同一生物个体,当所述第一概率值大于等于第一预设阈值时,所述待测样本与所述第一样本不属于同一生物个体。6.如权利要求1至4任一所述的微生物组识别方法,其特征在于,所述方法还包括,建立所述多个样本中除所述第一样本外的其他样本的相似度概率分布模型,获取所述待测样本与所述其他样本的相似度,根据所述待测样本与所述其他样本的相似度以及所述其他样本的相似度概率分布模型确定所述待测样本的其他概率值;所述根据所述第一概率值判断所述待测样本与所述第一样本是否属于同一生物个体包括:对所述第一概率值和所述其他概率值进行错误发现率校正,得到校正后的第一概率值,当所述校正后的第一概率值小于第二预设阈值时,所述待测样本与所述第一样本属于同一生物个体,当所述校正后的第一概率值大于等于第二预设阈值时,所述待测样本与所述第一样本不属于同一生物个体。7.一种微生物组识别装置,其特征在于,包括:信息采集模块,用于获取多个生物个体的微生物组特征信息生成多个样本,以及,获取待测样本;相似度计算模块,用于计算该多个样本中第一样本分别与其他样本的相似度以获得多个相似度;以及,计算所述待测样本与所述第一样本的相似度;相似度分布建立模块,用于根据该多个相似度建立第一样本的相似度概率分布模型;识别模块,用于根据所述待测样本与所述第一...

【专利技术属性】
技术研发人员:王子承江瑞陈挺
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1