一种微生物的检测识别方法和系统技术方案

技术编号:15048950 阅读:173 留言:0更新日期:2017-04-05 20:04
本发明专利技术适用于生物工程领域,提供了一种微生物的检测识别方法和系统,所述方法包括下述步骤:采用高通量的测序技术对从环境样本中提的DNA进行测序,得到DNA标签序列;去除所述DNA标签序列中存在的载体污染;将所述DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列的所属分类。本发明专利技术实施例可以检测到环境样本中可能存在哪些微生物物种或哪一类微生物物种。

【技术实现步骤摘要】

本专利技术属于生物工程领域,尤其涉及一种微生物的检测识别方法和系统。
技术介绍
决定生物性状的蛋白质和RNA分子都是以DNA四种碱基的编码序列形式,将信息储存于生物细胞中。这种DNA分子包含了生物体的全套遗传信息。为了从整体角度去了解遗传信息的功能和作用,最重要的一步是将该生物的全套遗传信息测定出来,即知道该生物所有的DNA碱基排列顺序。传统的基因组测序主要采用“sanger”法测序技术,也称作“末端终止法”测序技术。这种测序方法的最大缺点是:成本高、产量低。近年来,以solexa为代表的“新一代高通量测序技术”悄然兴起。以“边合成边测序”为原理的solexa测序技术,有效地改进了传统sanger测序法的不足,具有成本低、通量高、时间短、测序准确率高、操作简便等诸多优点。微生物在自然界中是无处不在,无处不有的,数目巨大。微生物对于地球上的生命是至关重要的,它们可以将重要的元素转换为能量,保持大气中的化学平衡,为植物和动物提供养分。微生物还可以用于实现许多商业目的,如制造抗生素、提高农业效率以及生产生物燃料。此外还有一小部分微生物对人有害,导致各种疾病的发生。从历史观点来看,微生物研究主要集中于研究个体物种。但大多数微生物是以群落的形式存在于各种环境中(生物内环境、外环境、极端环境等),而无法在实验室里单独培养。对于环境中复杂的微生物群落,传统的研究方法是针对特定的保守基因(如16SrRNA等)使用PCR技术扩增后进行测序。通过对这些保守基因的进化分类分析,从而将环境微生物进行分类。这是从物种、甚至较高的分类级别来对环境微生物进行检测的方法。这种方法可以检测出环境中未知的微生物,并且具有操作简单、技术完备、成本低廉等优点。但是随着微生物研究的不断深入、已公布的微生物基因组数目日益增多,我们发现基于保守基因测序的检测方法存在如下局限性:1、无法识别痕量的物种。通过PCR扩增测序得到的都是丰度较高物种的基因序列。对于丰度较低的物种,需要大量的Sanger测序才能发现。2、不能简单地由几个基因来对物种进行检测。通过对现有703种细菌基因组序列的比较分析和对真实环境样品的16SrRNA测序分析后发现:很多近缘物种的16SrRNA基因非常保守,几乎不存在差异,但是在表型上、功能上却差异显著。3、检测只能在物种或更高的分类级别上,所得到较高级别的分类信息对以后的功能研究没有太大的作用。而即使是同一种细菌,不同菌株之间也会存在很大差异。
技术实现思路
本专利技术的目的在于提供一种微生物的检测识别方法和系统,旨在解决现有的环境微生物检测方法难以识别痕量的物种的问题。本专利技术是这样实现的,一种环境微生物检测方法,所述方法包括下述步骤:采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列;去除所述DNA标签序列中存在的载体污染;将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。作为一个实施例,该方法还包括下述步骤:对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度;计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度。本专利技术的另一目的在于提供一种环境微生物检测系统,所述系统包括:DNA测序单元,用于采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列;载体污染去除单元,用于去除所述DNA标签序列中存在的载体污染;所属分类确定单元,用于将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。作为一个实施例,该系统还包括:已知序列预处理单元,用于对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;测序深度计算单元,用于计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;覆盖度计算单元,用于计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度,并计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;可信度判断单元,用于根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的高低。本专利技术提供的环境微生物检测方法和系统,在对环境样本中提取的DNA进行测序过程中引入了高通量的测序技术,并在序列比对时,首先去除载体污染,再将该DNA标签序列与已知数据库中的已知序列进行全面比对,可以对环境采样中更多的DNA测序,甚至能够实现对全部DNA进行测序,并更加全面地对DNA序列进行比对,从而能够有效地识别痕量的物种。可以检测到环境样本中可能存在哪些微生物物种或哪一类微生物物种。进一步通过在已知数据库中对更多的,甚至所有特有序列进行处理得到平均测序深度、覆盖度以及整条序列的覆盖度来确定特有序列代表的物种被发现的可信度的高低,从而将检测精度细致到可以区分近缘物种、甚至不同菌株。附图说明图1是本专利技术实施例提供的环境微生物检测方法的实现流程图;图2是本专利技术实施例提供的将DNA标签序列与已知序列进行比对,确定DNA标签序列的所述分类的示意图;图3是本专利技术实施例提供的连续的映射到唯一位置的模拟标签序列确定特有序列的示意图;图4是本专利技术实施例提供的环境微生物检测系统的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本专利技术实施例中,采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列,去除该DNA标签序列中可能存在的载体污染后,将该DNA标签序列与已知数据库中的已知序列进行比对,从而得到该DNA标签序列的所属分类。图1示出了本专利技术实施例提供的环境微生物检测方法的实现流程,详述如下:在步骤S101中,采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列。其中高通量的测序技术为以Solexa、Solid等为代表的第二代测序技术。由于采高通量的测序技术对DNA进行测序的具体过程是现有技术,因此,在本专利技术实施例中,仅简述采用高通量的测序技术对从环境样本中提取的DNA进行测序的过程:A.从环境样本中提取DNA样品。在提取DNA样品时,需要保证样品中DNA的高质量和微生物的多样性。B、对上述DNA样品进行文库制备。在本专利技术实施例中,如果需要构建双向测序文库,则为了有效的解决高含量物种的测序难题,在文库制备过程中,插入片段的长度一般小于200恥较为合适。C、进行高通量的DNA测序反应,得到大量的DNA标签序列。本步骤中,为提高检测的精确性,优选可以对从环境样本中提取的全部DNA进行测序。在步骤S102中,去除步骤S101得到的该DNA标本文档来自技高网
...

【技术保护点】
一种环境微生物检测方法,其特征在于,所述方法包括下述步骤:输入从环境样本中提取的DNA数据,采用高通量的测序方法对从环境样本中提取的DNA进行测序,得到DNA标签序列;去除所述DNA标签序列中存在的载体污染;将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。

【技术特征摘要】
1.一种环境微生物检测方法,其特征在于,所述方法包括下述步骤:输入从环境样本中提取的DNA数据,采用高通量的测序方法对从环境样本中提取的DNA进行测序,得到DNA标签序列;去除所述DNA标签序列中存在的载体污染;将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。2.如权利要求1所述的方法,其特征在于,将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类的步骤还包括:采用短串序列的映射方法将所述DNA标签序列与已知数据库中的已知序列进行比对,将所述DNA标签序列与已知序列之间的最佳匹配序列所属的分类确定为所述DNA标签序列的所属分类,所述DNA标签序列与已知序列之间的最佳匹配序列为所述DNA标签序列比对到已知序列上具有最少喊基错配的序列。3.如权利要求2所述的方法,其特征在于,当所述DNA标签序列与已知序列之间的最佳匹配序列有多个时,将该多个最佳匹配序列的最近的共同所属分类确定为所述DNA标签序列的所述分类。4.如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度;计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度。5.如权利要求4所述的方法,其特征在于,所述对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段的步骤包括:根据从已知序列的每一位碱基开始,取预设长度的DNA序列作为模拟标签序列;将所述模拟标签序列映射到已知序列上,并记录映射到唯一位置的模拟标签序列;查找连续的映射到唯一位置的模拟标签序列区域,并将所述区域的头尾两部分各去掉模拟标签...

【专利技术属性】
技术研发人员:李寿乐
申请(专利权)人:天津福德信泰生物科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1