System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于寄生虫鉴定的基因组的处理方法和处理装置制造方法及图纸_技高网

用于寄生虫鉴定的基因组的处理方法和处理装置制造方法及图纸

技术编号:40642745 阅读:6 留言:0更新日期:2024-03-13 21:23
本发明专利技术提供了一种用于寄生虫鉴定的基因组的处理方法和处理装置,涉及生物技术领域。本发明专利技术提供了一种用于寄生虫鉴定的基因组的处理方法,包括以下步骤:获取寄生虫基因组和宿主基因组;对宿主基因组进行打断,构建与待处理样本测序数据相同reads长度、平均覆盖深度至少为1X的模拟样本数据;将所述模拟样本数据与寄生虫基因组进行比对,获得比对一致性大于等于90%的序列区域A,然后对寄生虫基因组上的序列区域A的碱基进行屏蔽,获得用于寄生虫鉴定的基因组。该处理方法操作简单、处理迅速,能够减少序列的冗余、提高序列利用率,可以用来改进寄生虫比对鉴定的可靠性,降低比对噪音。

【技术实现步骤摘要】

本专利技术涉及生物,尤其是涉及一种用于寄生虫鉴定的基因组的处理方法和处理装置


技术介绍

1、基于二代高通量测序平台的病原宏基因组测序分析技术(metagenomics nextgeneration sequencing, mngs)具有病原谱覆盖范围广、不依赖微生物分离培养、检测无偏倚等优势,可满足临床快交付、广范围、高灵敏的检测需求,在临床微生物感染检测领域中的应用日渐普及。适用于临床场景的感染检测产品对测序时间要求较高,一般使用短读长策略来进行测序(如单端测序,读长50bp或75bp;记为se50或se75),以满足24小时内的交付时效性。mngs的可检测范围取决于分析流程依赖的微生物基因组数据库构成:物种收录范围决定了mngs可提供的检测范围,一般包含数千至数万种病原微生物,涉及细菌、病毒、真菌、寄生虫等多种类群;该微生物基因组数据库构建质量对mngs的检测性能有重要影响。不同的微生物类群其基因组有不同的特点,仅从基因组大小来说,病毒、细菌基因组较小,一般在几兆以内;真菌、寄生虫类群基因组较大,尤其是寄生虫基因组可能在几十甚至上百兆大小。考虑到样本在进行临床宏基因组测序的时效性,一般选择短读长来达到时间要求。短片段在物种比对鉴定过程中会受到数据库收录信息的影响,收录更多的特异性片段、排除更多的非特异性片段能够提高物种比对鉴定的性能。因此在构建微生物基因组数据库时,需要选择高质量的基因组序列,以提高mngs分析鉴定物种的准确性。

2、一般情况下,构建微生物基因组数据库的序列都来源于ncbi等公共数据库。考虑到分析的性能和资源要求,具体构建数据库的策略和方式会不同。但一般会选择一种策略对基因组序列进行统一处理来构建比对数据库,而忽略各类群之间本身序列的差异。因此,mngs分析得到微生物初步鉴定结果后,会针对不同类群设置不同过滤阈值来减少假阳性结果。具有更大基因组的物种类群,如寄生虫、真菌,在短读长的条件下更容易被比对上,从而会有更高的本底噪音,容易带来假阳性的鉴定结果。此外,由于寄生虫类群的生活史和进化特点,其基因组序列中还会存在一些和宿主基因组相似性很高的序列,即使分析流程中预先有去宿主序列的处理,在微生物比对环节也会出现较多的寄生虫比对信号,这也是造成寄生虫比对鉴定结果噪音高的原因之一。为了降低比对的背景噪音,提高寄生虫鉴定可靠性,需要构建一种方法来处理原始寄生虫序列。使用处理过的序列进行寄生虫单物种鉴定,或者将处理过的序列整合进数据库进行mngs分析,都能够给出低噪音的比对结果,从而降低假阳性信号出现的可能性。

3、目前尚未检索到单独处理寄生虫基因组序列用于提高比对分析可靠性的相关专利及文献。目前查询到的微生物基因数据库构建方式,对于序列的处理都没有单独区分寄生虫类群。由于寄生虫基因组自身的特点——与宿主协同进化带来的高序列同源性,以及公共数据库收录寄生虫序列来源的不确定性——寄生虫样本本身难以与宿主完全分离,测序组装可能有天然的污染,都导致一个共同结果:从公共数据库来源收集的寄生虫基因组序列,和宿主序列有高度的相似性。直接使用公共数据库来源的序列,或者使用以上参考方案中通用的序列处理方式,都没有考虑到寄生虫与宿主高相似性对序列比对鉴定带来的影响,都会有较高的假阳性风险。

4、有鉴于此,特提出本专利技术。


技术实现思路

1、本专利技术的第一目的在于提供一种用于寄生虫鉴定的基因组的处理方法,以解决上述问题。

2、本专利技术的第二目的在于提供上述处理方法在寄生虫鉴定中的应用。

3、本专利技术的第三目的在于提供一种用于寄生虫鉴定的基因组的处理装置。

4、为了实现上述目的,提出以下技术方案:

5、第一方面,本专利技术提供了一种用于寄生虫鉴定的基因组的处理方法,包括以下步骤:

6、a. 获取寄生虫基因组和宿主基因组;

7、b. 对宿主基因组进行打断,构建与待处理样本测序数据相同reads长度、平均覆盖深度至少为1x的模拟样本数据;

8、c. 将所述模拟样本数据与寄生虫基因组进行比对,获得比对一致性大于等于90%的序列区域a,然后对寄生虫基因组上的序列区域a的碱基进行屏蔽,获得用于寄生虫鉴定的基因组。

9、作为进一步技术方案,所述获取寄生虫基因组为获取寄生虫基因组序列文件;

10、所述寄生虫基因组序列文件至少为1个。

11、作为进一步技术方案,b步骤中,采用art_illumina软件构建模拟样本数据;

12、c步骤中,采用比对软件进行比对,所述比对软件包括bwa工具。

13、作为进一步技术方案,还包括:

14、d. 将寄生虫阴性的宿主测序数据与c步骤获得的基因组进行比对,获得比对一致性大于等于90%的序列区域b,然后对c步骤获得的基因组上的序列区域b的碱基进行屏蔽,获得用于寄生虫鉴定的基因组。

15、作为进一步技术方案,所述寄生虫阴性的宿主测序数据的reads长度与待处理样本测序数据的reads长度相同。

16、第二方面,本专利技术提供了上述处理方法在寄生虫鉴定中的应用。

17、第三方面,本专利技术提供了一种用于寄生虫鉴定的基因组的处理装置,包括基因组获取模块、模拟样本数据获取模块和比对模块a;

18、所述基因组获取模块用于获取寄生虫基因组和宿主基因组;

19、所述模拟样本数据获取模块用于对宿主基因组进行打断,构建与待处理样本测序数据相同reads长度、平均覆盖深度至少为1x的模拟样本数据;

20、所述比对模块a用于将所述模拟样本数据与寄生虫基因组进行比对,获得比对一致性大于等于90%的序列区域a,然后对寄生虫基因组上的序列区域a的碱基进行屏蔽,获得用于寄生虫鉴定的基因组。

21、作为进一步技术方案,所述获取寄生虫基因组为获取寄生虫基因组序列文件;

22、所述寄生虫基因组序列文件至少为1个。

23、作为进一步技术方案,采用art_illumina软件构建模拟样本数据;

24、采用比对软件进行比对,所述比对软件包括bwa工具。

25、作为进一步技术方案,还包括对比模块b;

26、所述比对模块b用于将寄生虫阴性的宿主测序数据与比对模块a获得的基因组进行比对,获得比对一致性大于等于90%的序列区域b,然后对比对模块a获得的基因组上的序列区域b的碱基进行屏蔽,获得用于寄生虫鉴定的基因组。

27、与现有技术相比,本专利技术具有如下有益效果:

28、本专利技术提出的用于寄生虫鉴定的基因组的处理方法,操作简单、处理迅速。该方法针对寄生虫这一特定类群,通过处理目标序列与宿主序列的相似性,减少序列的冗余、提高序列利用率,可以用来改进寄生虫比对鉴定的可靠性,降低比对噪音;使用本方法处理过的寄生虫序列文件,可以用于混合样本中寄生虫序列的单独比对鉴定,也可以汇总起来作为mngs比对数据库的一部分进行下游分析,产出可靠性本文档来自技高网...

【技术保护点】

1.一种用于寄生虫鉴定的基因组的处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的处理方法,其特征在于,所述获取寄生虫基因组为获取寄生虫基因组序列文件;

3.根据权利要求1所述的处理方法,其特征在于,b步骤中,采用ART_Illumina软件构建模拟样本数据;

4.根据权利要求1所述的处理方法,其特征在于,还包括:

5.根据权利要求4所述的处理方法,其特征在于,所述寄生虫阴性的宿主测序数据的reads长度与待处理样本测序数据的reads长度相同。

6.权利要求1-5任一项所述的处理方法在寄生虫鉴定中的应用。

7.一种用于寄生虫鉴定的基因组的处理装置,其特征在于,包括基因组获取模块、模拟样本数据获取模块和比对模块A;

8.根据权利要求7所述的处理装置,其特征在于,所述获取寄生虫基因组为获取寄生虫基因组序列文件;

9.根据权利要求7所述的处理装置,其特征在于,采用ART_Illumina软件构建模拟样本数据;

10.根据权利要求7所述的处理装置,其特征在于,还包括对比模块B;

...

【技术特征摘要】

1.一种用于寄生虫鉴定的基因组的处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的处理方法,其特征在于,所述获取寄生虫基因组为获取寄生虫基因组序列文件;

3.根据权利要求1所述的处理方法,其特征在于,b步骤中,采用art_illumina软件构建模拟样本数据;

4.根据权利要求1所述的处理方法,其特征在于,还包括:

5.根据权利要求4所述的处理方法,其特征在于,所述寄生虫阴性的宿主测序数据的reads长度与待处理样本测序数据的reads长...

【专利技术属性】
技术研发人员:于洋
申请(专利权)人:北京诺禾致源科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1