【技术实现步骤摘要】
去除宏基因组测序数据中人源基因序列的方法
本专利技术涉及基因工程领域,尤其涉及一种去除宏基因组测序数据中人源基因序列的方法。
技术介绍
宏基因组测序目前可应用于肠道菌群状态监测、感染病原微生物检测等方面,相对于其他技术,其具有检测通量高,检测覆盖面广,不需要提前预知微生物种类等优点。随着高通量基因测序成本的快速下降,测序速度的快速提升,宏基因组测序在微生物检测方面的应用会越来越广泛。宏基因组测序样品的主要来源为人体上不同部位的体液或组织,一般在提取样品中的DNA后,对提取出的DNA进行全基因组或基因组部分区域的基因测序(下文中的宏基因组测序只指微生物全基因组测序)。由于样品来源于人体组织,提取的DNA中往往含有一定比例的人源DNA。在部分组织的样本中,如血浆游离DNA、肺泡灌洗液DNA中,人源DNA往往占有很高的比例,通常可达90%以上,人源DNA的存在会对微生物DNA的分析造成干扰,因此在分析微生物DNA之前通常会使用生物信息学方法将人源DNA去除。现有去除人源DNA的方法主要是将测序得到基因序列(read)比对到人参考基因组序列上,目前使用的参考基因组为GRCh37或GRCh38,若比对成功则认为该read来源于人的基因组,将其舍去不进行后续的微生物相关分析。但现有方法存在一些不足:不足1:由于参考现有的参考基因组(GRCh37或GRCh38)仅来源于数个个体的基因组数据,而人的基因组具有种族特异性,每个种族的个体都存在其特有的基因突变,绝大部分未包含于现有的参考基因组中。另外,除了MHC区域等高度变异的区域,现有参考基因组上的绝大多数区域都为单倍体, ...
【技术保护点】
1.一种去除宏基因组测序数据中人源基因序列的方法,其特征在于,包括以下步骤:步骤1,通过千人基因组计划样本的原始测序数据构建参考基因集,将其下载后,先对数据进行质量控制及低质量值数据的过滤后得到高质量的数据,用于测序read的比对,从而将人源read更好地去除;步骤2,在得到千人基因组数据的高质量的测序read后,使用基因组组装软件将其组装成较长的基因片段,后续作为参考序列与测序read进行比对,组装完成后,挑选出长度大于150bp的基因片段作为千人基因组的基因片段进行后续处理;步骤3,提取来源于NCBI数据库中所有非肿瘤样本中的基因片段数据作为NCBI Bioproject的基因片段数据用作后续处理;步骤4,对千人基因组的数据和NCBI Bioproject的数据均进行去冗余处理后,再将千人基因组的数据与NCBI Bioproject的数据合并,去冗余后变成非冗余的基因片段数据集;步骤5,将非冗余的基因片段数据集中的的病毒基因组序列找出,从基因片段序列中去除;步骤6,将病毒基因序列组去除后的基因片段序列作为去除宏基因组测序数据中人源序列的参考基因组。
【技术特征摘要】
1.一种去除宏基因组测序数据中人源基因序列的方法,其特征在于,包括以下步骤:步骤1,通过千人基因组计划样本的原始测序数据构建参考基因集,将其下载后,先对数据进行质量控制及低质量值数据的过滤后得到高质量的数据,用于测序read的比对,从而将人源read更好地去除;步骤2,在得到千人基因组数据的高质量的测序read后,使用基因组组装软件将其组装成较长的基因片段,后续作为参考序列与测序read进行比对,组装完成后,挑选出长度大于150bp的基因片段作为千人基因组的基因片段进行后续处理;步骤3,提取来源于NCBI数据库中所有非肿瘤样本中的基因片段数据作为NCBIBioproject的基因片段数据用作后续处理;步骤4,对千人基因组的数据和NCBIBioproject的数据均进行去冗余处理后,再将千人基因组的数据与NCBIBioproject的数据合并,去冗余后变成非冗余的基因片段数据集;步骤5,将非冗余的基因片段数据集中的的病毒基因组序列找出,从基因片段序列中去除;步骤6,将病毒基因序列组去除后的基因片段序列作为去除宏基因组测序数据中人源序列的参考基因组。2.根据权利要求1所述的去除宏基因组测序数据中人源基因序列的方法,其特征在于,所述步骤1的具体方法为:使用公开的千人基因组计划的pilot研究中180个样本低深度全基因组测序数据,并以之构建了参考基因组,来解决现有参考基因组未包含足够的人群与个体差异的基因突变信息的问题;构建参考基因集使用的是千人基因组计划样本的原始测序数据,将其下载后,先对数据进行质量控制及低质量值数据的过滤,以保证数据的可靠性。3.根据权利要求2所述的去除宏基因组测序数据中人源基因序列的方法,其特征在于,所述在进行质量控制的过程中需要进行参数设置:允许的序列标签的最小长度为上机测序设定长度的0.7倍;允许的最小GC含量为25%;允许的最大GC含量为75%;序列标签所有碱基中最小质量值至少为10;序列标签所有碱基平均质量值至少为20;最多允许10%的碱基序列为'N';其他参数使用默认值,其中read_length为上机测序设置的read的读长。4.根据权利要求1所述的去除宏基因组测序数据中人源基因序列的方法,其特征在于,所述步骤2中基因组组装软件为公开的SOAPdenovo2,该过程中需要的基因片段文件中的参数设置为:最大的序列标签(read)长度为200bp;只进行基因片段的组装(asm_flags=1)定位基因片段需要的最少的双末端序列标签数为3;定位序列标签所需的最小的比对长度为32;而长如片段平均长度与是否取反向互补序列进行组装则根据文库的情况具体设置,随后运行SOAPdenovo2命令进行序列组装,kmer大小设置为25。5.根据权利要求1所述的去除宏基因组测序数据中人源基因序列的方法,其特征在于,所述步骤3中为避免数据特点和分析方法单一造成的数据偏向性,使用公开的多个不同来源并由不同分析方法处理的数据作为参考数据集,其中包括来源于NCBI数据...
【专利技术属性】
技术研发人员:苏政,肖卫民,苏闻,赵崇涛,黄瑞坤,
申请(专利权)人:深圳市泰康吉音生物科技研发服务有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。