宏基因组数据的分析方法技术

技术编号:32247625 阅读:24 留言:0更新日期:2022-02-09 17:51
本发明专利技术提供了宏基因组数据的分析方法。本发明专利技术提供了一种宏基因组数据的分析方法,所述方法包括:1)对原始数据预处理,获得具有期望质量的数据集;2)对步骤1)的数据集中的每一条read序列进行N次的K

【技术实现步骤摘要】
宏基因组数据的分析方法


[0001]本专利技术属于宏基因组分析
,尤其涉及一种宏基因组数据的分析方法,更具体地,本专利技术涉及一种基于三代测序的宏基因组数据的分析方法。

技术介绍

[0002]宏基因组(Metagenome),也称微生物环境基因组,即环境中全部微小生物遗传物质的总和,目前主要指环境样品中的细菌和真菌的基因组总和。宏基因组学(Metagenomics),是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和/或测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法,一般包括从环境样品中提取基因组DNA进行高通量测序分析。
[0003]近年来,科研人员针对宏基因组学的研究越来越广泛,尤其是针对人体宏基因组学的研究更是如日中天,例如肠道菌群的宏基因组学研究以及肿瘤宏基因组学的研究,研究者不仅把宏基因组序列进行了测序及分类,而且还分析研究了其与人类疾病之间重要的相关性。例如2017年,《科学》杂志发表的一项研究表明了微生物如何侵入大多数胰腺癌本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种宏基因组数据的分析方法,其特征在于,所述方法包括以下步骤:1)对原始数据预处理,获得具有期望质量的数据集,所述具有期望质量的数据集包括多条read序列;2)对步骤1)的数据集中的所述多条read序列中的每一条read序列进行N次的K

mer滑动提取,针对每一条read序列,获得N个K

mer序列;其中,在所述的N次滑动提取中增加约束条件,使滑动提取的K

mer序列的起始位置在目标序列read上随机均匀分布,滑动提取的K

mer序列之间有碱基重合,并且最终N次提取后的所有K

mer序列覆盖其目标序列read至少80%的区域;其中,所述N为整数;3)将所有的read序列中同一次K

mer滑动提取获得的K

mer序列归为一个K

mer序列子集,得到N个K

mer序列子集;4)将步骤3)得到的每个K

mer序列子集分别进行宏基因组物种分析,最终得到N个数据分析结果;5)将步骤4)得到的N个数据分析结果合并,分析并获得宏基因组中各种微生物的信息。2.根据权利要求1所述的宏基因组数据的分析方法,其特征在于,在步骤1)中,所述原始数据为原始三代测序数据或长读长测序数据。3.根据权利要求1所述的宏基因组数据的分析方法,其特征在于,在步骤1)中,所述原始数据为经纳米孔测序获得的长读长数据。4.根据权利要求1所述的宏基因组数据的分析方法,其特征在于,在步骤1)中,对原始数据的预处理包括去除其中的接头序列及条形码序列,过滤质量低于Q7的read序列以及长度低于100bp的read序列。5.根据权利要求1所述的宏基因组数据的分析方法,其特征在于,所述步骤2)包括以下步骤:
①ꢀ
对每一条read序列,根据长度K进行N次滑动提取且不分割read序列,长度K为任意整数,若滑动提取后的长度小于预设长度则过滤掉该提取序列;

增加约束条件,其中所述约束条件包含:滑动提取的K

mer序列在目标read序列上的位置随机;滑动提取的K

mer序列分布在目标read序列的上游、中游及下游位点;滑动提取的K

mer序列的起始位置在目标read序列上均匀分布;以及最终N次提取后的所有K

mer序列有碱基重合地覆盖目标read序列至少80%的区域;

针对每一条read序列,获得N个K

mer序列。6.根据权利要求5所述的宏基因组数据的分析方法,其特征在于,所述K的取值范围为75bp≤K≤500bp。7.根据权利要求5所述的宏基因组数据的分析方法,其特征在于,所述K的取值范围为100bp≤K≤200bp。8.权利要求1所述的宏基因组数据的分析方法,其特征在于,在步骤2)中,所述N的取值范围为10≤N≤50。9.根据权利要求1所述的宏基因组数据的分析方法,其特征在于,在步骤2)...

【专利技术属性】
技术研发人员:郎继东孙继国
申请(专利权)人:成都齐碳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1