当前位置: 首页 > 专利查询>张磊专利>正文

从全转录基因组数据中挖掘微生物数据的方法技术

技术编号:37569817 阅读:31 留言:0更新日期:2023-05-15 07:48
本发明专利技术涉及微生物组学技术领域,具体涉及一种从全转录基因组数据中挖掘微生物数据的方法。所述方法包括以下步骤:步骤1.提取原始测序数据中的非人序列并对其进行质量控制;步骤2.微生物比对及微生物序列过滤:使用kraken2构建标准微生物参考数据库,使用kraken2将步骤1提取的序列与参考数据库进行比对,获得序列的注释信息;基于序列的注释信息将未比对至微生物的序列进行过滤去除,进一步获取微生物序列和微生物物种丰度;步骤3.微生物基因和功能分析。本发明专利技术提供了一种更为标准、可靠、完整的从全转录基因组数据中挖掘微生物数据的方法。生物数据的方法。生物数据的方法。

【技术实现步骤摘要】
从全转录基因组数据中挖掘微生物数据的方法


[0001]本专利技术涉及微生物组学
,具体涉及一种从全转录基因组数据中挖掘微生物数据的方法。

技术介绍

[0002]微生物组学是指对微生物群体进行高通量测序,通过分析测序序列的构成以分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境中微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定微生物功能基因。肿瘤内微生物是近年来备受关注的新兴领域,目前与该领域相关的技术存在以下缺陷和不足:
[0003]1.目前肿瘤组织的宏基因组和宏转录组数据有限,且大多为小样本研究,如果想对瘤内微生物进行大规模研究需要进行大规模的测序,耗时费力。之前的研究积攒了大量的肿瘤和癌旁正常样本的全转录组和全基因组数据,尤其是癌症基因组图谱(TCGA)项目收集了来自33种肿瘤的1万多份样本,并进行了全转录组和全基因组测序和持续更新。
[0004]2.现有从全转录组和全基因组数据中挖掘微生物数据的研究仅对原始测序数据进行简单的过滤和比对,缺少对原始序列和比对结果的质量控制及对微生物基因和功能的分析。

技术实现思路

[0005]本专利技术主要目的是提供一种从全转录基因组数据中挖掘微生物数据的方法。本专利技术通过对序列质量控制、比对结果的去污及微生物基因和功能分析,形成了一种更为标准、可靠、完整的从全转录基因组数据中挖掘微生物数据的方法。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]本专利技术提供一种从全转录基因组数据中挖掘微生物数据的方法,所述方法包括以下步骤:
[0008]步骤1.提取原始测序数据中的非人序列并对其进行质量控制;
[0009]步骤2.微生物比对及微生物序列过滤:使用kraken2构建标准微生物参考数据库,使用kraken2将步骤1提取的序列与参考数据库进行比对,获得序列的注释信息;基于序列的注释信息将未比对至微生物的序列进行过滤去除,进一步获取微生物序列和微生物物种丰度;
[0010]步骤3.微生物基因和功能分析:根据获得的微生物序列生成非冗余基因集,基于非冗余基因集,获得样本的微生物基因丰度表和功能丰度表。
[0011]以上所述参考数据库为非冗余数据库,包括人类、真菌、细菌、病毒和古菌基因组。
[0012]进一步地,步骤1中,基于转录组/基因组测序数据的BAM文件中的注释信息,使用SAMtools提取文件中未比对至人类参考基因组的序列,使用bedools(v2.30.0)将BAM文件转换成FASTQ格式的文件。
[0013]更进一步地,使用FastQC和MultiQC对FASTQ文件进行质量评估后,用Trimmomatic对非人序列去除引物并进行滑窗质量过滤,切掉碱基质量平均值低于20的滑窗。
[0014]进一步地,在步骤2中,所述注释信息包括三个文件:
[0015]1)Standard Kraken Output文件:包括每条序列的ID、是否比对至参考数据库、用于标记序列的Kraken 2分类ID、序列长度信息及序列的比对信息;
[0016]2)Sample Report Output文件:含有序列比对结果的详细信息,包括比对的等级代码、NCBI的分类ID号及学名;
[0017]3)比对至参考数据库的序列的FASTQ文件,该部分每条序列的序列名后都带有比对至物种的NCBI分类ID号;
[0018]基于获得的FASTQ文件的分类ID号,使用linux的文本处理功能进一步过滤掉比对至人类基因组的序列,即得微生物序列。
[0019]更进一步地,基于Sample Report Output文件所得比对结果,使用Bracken对其进行定量,获得样本在界、门、纲、目、科、属、种七个水平的微生物物种丰度数据。
[0020]更进一步地,使用Bracken对所得比对结果进行定量后,采用“decontam”R包的“isContaminant”函数对微生物比对结果进行去污。使用默认阈值(P=0.1)结合TCGA提供的样本测序批次和cDNA浓度信息,可以控制潜在污染物对结果的影响。
[0021]进一步地,步骤3中,根据步骤2中获得的微生物序列,使用MEGAHIT将获得的微生物序列组装成contig;使用Prodigal预测contig中的蛋白编码基因;用CD

HIT生成非冗余基因集;基于非冗余基因集,利用salmon估计样本的基因丰度;使用eggNOG

mapper和diamond对非冗余基因集进行功能注释,从而获得样本的微生物基因丰度表和功能丰度表。
[0022]与现有技术相比,本专利技术具有以下优势:
[0023]本专利技术所述的方法可从全转录/基因组数据中挖掘有效、可靠的微生物信息,包括微生物物种组成和基因信息。本专利技术所述方法包括序列过滤、质量控制、物种比对、功能分析等步骤,形成了一种更为标准、可靠、完整的从全转录基因组数据中挖掘微生物数据的方法,弥补了相关领域分析方法的不足。
[0024]肿瘤组织全转录组数据中未比对上人类基因组的序列大多为测序质量很差的序列,之前的研究未对这些序列进行处理,会严重降低微生物比对结果的可靠性。本专利技术使用Trimmomatic(v0.39)对非人序列进行处理,根据FastQC提供的引物信息去除引物并进行滑窗质量过滤,对序列质量进行控制。通过质量控制后重新使用FastQC和MultiQC对序列进行测序质量评估,发现此时所有样本的测序质量大幅提升,平均测序质量提高到20分以上,而且引物也去除干净,可以保证下游分析的质量。
[0025]即使是原始的未比对上人类基因组的序列中,仍有大量来自宿主的基因片段,在构建kraken2参考数据库时,人类基因组也被纳入其中。在进行比对时,进一步控制了宿主基因对比对结果的影响,进一步保证了微生物比对结果的可靠性。
[0026]对于肿瘤组织这种低生物量样本,微生物污染会影响下游分析的结果。本专利技术方法对比对结果进行了污染控制,进一步保障了下游分析的质量。
[0027]不同于其他比对和研究方法仅关注微生物的物种组成,本方法对微生物基因和功能信息进行充分挖掘,为瘤内微生物研究提供了更多的信息。
附图说明
[0028]图1为本专利技术实施例所述一种从全转录基因组数据中挖掘微生物数据的方法的流程图。
具体实施方式
[0029]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0030]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.从全转录基因组数据中挖掘微生物数据的方法,其特征在于,所述方法包括以下步骤:步骤1.提取原始测序数据中的非人序列并对其进行质量控制;步骤2.微生物比对及微生物序列过滤:使用kraken2构建标准微生物参考数据库,使用kraken2将步骤1提取的序列与参考数据库进行比对,获得序列的注释信息;基于序列的注释信息将未比对至微生物的序列进行过滤去除,进一步获取微生物序列和微生物物种丰度;步骤3.微生物基因和功能分析:根据获得的微生物序列生成非冗余基因集,基于非冗余基因集,获得样本的微生物基因丰度表和功能丰度表。2.根据权利要求1所述的方法,其特征在于,步骤1中,基于转录组/基因组测序数据的BAM文件中的注释信息,使用SAMtools提取文件中未比对至人类参考基因组的序列,使用bedools(v2.30.0)将BAM文件转换成FASTQ格式的文件。3.根据权利要求2所述的方法,其特征在于,使用FastQC和MultiQC对FASTQ文件进行质量评估后,用Trimmomatic对非人序列去除引物并进行滑窗质量过滤,切掉碱基质量平均值低于20的滑窗。4.根据权利要求1所述的方法,其特征在于,在步骤2中,所述注释信息包括三个文件:1)Standard Kraken Output文件:包括每条序列的ID、是否比对至参考数据库、用于标记序列的Kraken 2分类ID、序列长度信息及序列的比对信...

【专利技术属性】
技术研发人员:张磊靳传娣生大双岳凯乐薛鑫鑫梁益嘉岳敏李平福
申请(专利权)人:张磊
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1