确定异常状态相关生物标志物的方法及系统技术方案

技术编号:11412008 阅读:88 留言:0更新日期:2015-05-06 12:00
本发明专利技术提出了确定对象中异常状态相关生物标记物的方法和系统,包括:对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物。

【技术实现步骤摘要】
【国外来华专利技术】确定异常状态相关生物标志物的方法及系统优先权信息本专利技术专利申请要求于2012年8月1日提交的PCT专利申请NO.PCT/CN2012/079524的权益,该专利申请在此全部引用作为参考。
本专利技术涉及生物
具体地,本专利技术涉及确定异常状态相关生物标志物的方法及系统。
技术介绍
宏基因组学(metagenomics)又称为环境基因组学,元基因组学,生态基因组学,或者群落基因组学,这是一门直接研究自然状态下微生物群落,包含了可培养的和不可培养的细菌、真菌和病毒的基因组总和的学科。1998年,威斯康辛大学植物病理学部门的Handelsman等人在研究土壤微生物时,最早提出了“宏基因组学”这一概念。传统的微生物研究受到微生物分离和纯培养技术限制。然而,宏基因组学研究是基于特定环境下的微生物群落,其研究目的是微生物多样性、种群结构、进化关系、功能活性、相互协作关系及新微生物之间的环境关系。宏基因组学的基本研究策略包括:环境基因组大片段DNA的提取和纯化、文库构建、目的基因筛选和/或大规模测序分析。宏基因组文库中包含了可培养的和不可培养的微生物基因和基因组。将某个自然环境中的DN本文档来自技高网...
确定异常状态相关生物标志物的方法及系统

【技术保护点】
一种确定对象中异常状态生物相关标志物的方法,包括:对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物。

【技术特征摘要】
【国外来华专利技术】2012.08.01 CN PCT/CN2012/0795241.一种确定对象中异常状态生物相关标志物的方法,包括:对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物;所述基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与参考基因集进行比对;基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度;以及对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验;以及确定在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的基因为基因标志物,对所述基因标志物进行聚类分析,获得宏基因组连锁群,作为物种标志物。2.根据权利要求1所述的方法,其特征在于,所述异常状态为疾病。3.根据权利要求2所述的方法,其特征在于,所述疾病为选自肿瘤性疾病、自身免疫性疾病、遗传性疾病和代谢性疾病中的至少一种。4.根据权利要求1所述的方法,其特征在于,所述异常状态为糖尿病。5.根据权利要求1所述的方法,其特征在于,所述第一对象和所述第二对象为人。6.根据权利要求1所述的方法,其特征在于,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本分别分离自所述第一对象和第二对象的排泄物。7.根据权利要求1所述的方法,其特征在于,利用第二代测序方法或第三代测序方法对来自所述第一对象的核酸样本和来自所述第二对象的核酸样本进行测序。8.根据权利要求1所述的方法,其特征在于,利用选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行所述测序步骤。9.根据权利要求1所述的方法,其特征在于,获得所述相对丰度后,使用泊松分布对所述相对丰度的精确度进行统计检验。10.根据权利要求1所述的方法,其特征在于,在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,采用过滤步骤以便去除污染序列,其中,所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。11.根据权利要求1所述的方法,其特征在于,利用选自SOAP2和MAQ的至少一种进行所述比对步骤,将所述第一测序结果和所述第二测序结果与参考基因集进行比对,或者,与人类肠道微生物群落非冗余基因集进行比对。12.根据权利要求1所述的方法,进一步包括:对来自所述第一测序结果和所述第二测序结果的高质量测序序列,进行从头组装和宏基因组的基因预测,其中,不能与参考基因集比对上的所述基因被定义为新基因;以及将所述新基因整合至所述参考基因集中以便获得一个更新的基因集;以及进行物种分类和功能注释。13.根据权利要求12所述的方法,其特征在于,所述物种分类是通过将所述参考基因集中每个基因与IMG数据库进行比对而进行的。14.根据权利要求13所述的方法,其特征在于,利用BLASTP方法将所述参考基因集中每个基因与IMG数据库进行比对,以便确定所述基因的物种分类水平,利用85%相似性和80%比对覆盖度作为属水平的分类阈值,对于每个基因,超过所述两个阈值的最高得分结果被选择为属水平的分类;以及对于门水平的物种分类,用65%相似性代替。15.根据权利要求12所述的方法,其特征在于,功能注释是通过将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。16.根据权利要求15所述的方法,其特征在于,根据E-Value值小于1e-5的函数,利用BLASTP方法将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。17.根据权利要求1所述的方法,其特征在于,基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与经功能注释后的参考基因集进行比对;以及基于比对结果,分别确定来自所述第一对象和所述第二对象的核酸样本中功能相对丰度;以及对来自所述第一对象和所述第二对象的核酸样本中功能相对丰度进行统计检验;以及分别确定在来自所述第一对象和所述第二对象的核酸样本之间相对丰度存在显著差异的功能标志物。18.根据权利要求1所述的方法,其特征在于,所述统计检验选自StudentT检验、Wilcox轶和检验的至少一种进行。19.根据权利要求1所述的方法,进一步包括肠型鉴定。20.根据权利要求1所述的方法,进一步包括:对所述宏基因组连锁群进行深度组装,构建所述异常状态的相关生物基因组,并进行MLG物种分类。21.根据权利要求1所述的方法,进一步包括对所述生物标志物进行验证的步骤。22.一种确定对象中异常状态生物相关标志物的方法,包括:对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物,其中,基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与参考基因集进行比对;基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度;以及对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验;以及确定在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的基因为基因标志物,进一步包括对所述基因标志物进行聚类分析,获得宏基因组连锁群,作为物种标志物,还包括对所述宏基因组连锁群进行深度组装,构建所述异常状态的相关生物基因组,并进行MLG物种分类。23.根据权利要求22所述的方法,其特征在于,获得所述相对丰度后,使用泊松分布对所述相对丰度的精确度进行统计检验。24.根据权利要求22所述的方法,其特征在于,所述异常状态为疾病。25.根据权利要求24所述的方法,其特征在于,所述疾病为选自肿瘤性疾病、自身免疫性疾病、遗传性疾病和代谢性疾病中的至少一种。26.根据权利要求22所述的方法,其特征在于,所述异常状态为糖尿病。27.根据权利要求22所述的方法,其特征在于,所述第一对象和所述第二对象为人。28.根据权利要求22所述的方法,其特征在于,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本分别分离自所述第一对象和第二对象的排泄物。29.根据权利要求22所述的方法,其特征在于,利用第二代测序方法或第三代测序方法对来自所述第一对象的核酸样本和来自所述第二对象的核酸样本进行测序。30.根据权利要求22所述的方法,其特征在于,利用选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行所述测序步骤。31.根据权利要求22所述的方法,其特征在于,在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,采用过滤步骤以便去除污染序列,其中,所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。32.根据权利要求22所述的方法,其特征在于,利用选自SOAP2和MAQ的至少一种进行所述比对步骤,将所述第一测序结果和所述第二测序结果与参考基因集进行比对,或者,与人类肠道微生物群落非冗余基因集进行比对。33.根据权利要求22所述的方法,进一步包括:对来自所述第一测序结果和所述第二测序结果的高质量测序序列,进行从头组装和宏基因组的基因预测,其中,不能与参考基因集比对上的所述基因被定义为新基因;以及将所述新基因整合至所述参考基因集中以便获得一个更新的基因集;以及进行物种分类和功能注释。34.根据权利要求33所述的方法,其特征在于,所述物种分类是通过将所述参考基因集中每个基因与IMG数据库进行比对而进行的。35.根据权利要求34所述的方法,其特征在于,利用BLASTP方法将所述参考基因集中每个基因与IMG数据库进行比对,以便确定所述基因的物种分类水平,利用85%相似性和80%比对覆盖度作为属水平的分类阈值,对于每个基因,超过所述两个阈值的最高得分结果被选择为属水平的分类;以及对于门水平的物种分类,用65%相似性代替。36.根据权利要求33所述的方法,其特征在于,功能注释是通过将假定氨基酸序列与egg...

【专利技术属性】
技术研发人员:李胜辉冯强覃俊杰朱剑锋张东亚揭著业王俊汪建杨焕明
申请(专利权)人:深圳华大基因研究院深圳华大基因科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1