System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种高效利用微生物扩增子二代测序数据的处理方法、装置、存储介质及设备制造方法及图纸_技高网
当前位置: 首页 > 专利查询>石河子大学专利>正文

一种高效利用微生物扩增子二代测序数据的处理方法、装置、存储介质及设备制造方法及图纸

技术编号:40021828 阅读:14 留言:0更新日期:2024-01-16 16:52
本发明专利技术属于高通量测序数据处理领域,具体涉及一种高效利用微生物扩增子二代测序数据的处理方法、装置、存储介质及设备。包括:获取原始序列文件、元数据文件和参考序列文件;对原始序列末尾碱基进行质控;合并序列并切除序列引物与接头碱基,进行质控过滤和去除低丰度序列;筛选出特征序列后再剔除嵌合体序列;将低质量序列和低丰度序列回收并与特征序列进行比对,生成ASV表;根据参考序列文件对特征序列进行比对注释,得到注释结果;使用近邻法构建系统发育树。本处理方法提供了一个完整而高效的流程,可以在确保数据准确性的同时,显著提高扩增子二代测序数据的利用率。它解决了以往在处理扩增子序列数据时利用效率低和假阴性过高的问题。

【技术实现步骤摘要】

本专利技术属于高通量测序数据处理领域,具体涉及一种高效利用微生物扩增子二代测序数据的处理方法、装置、存储介质及设备


技术介绍

1、扩增子二代测序(next generation sequencing)是微生物组分析中最为广泛使用的测序技术,能够快速揭示研究对象中的微生物多样性,几乎适用于所有类型的样品。其利用pcr引物扩增基因组的特定区域,有针对性地捕获目标区域的dna,从而实现目的dna片段的富集;然后针对扩增产物(也称为扩增子)进行高通量测序,分析其中的遗传变异等信息。在扩增子测序中,主要使用的标记基因包括用于原核生物的16s rdna、用于真核生物的18srdna和转录间隔区(internal transcribed spacers,its)。

2、扩增子二代测序数据处理方法是对从微生物组测序中获得的原始序列进行一系列的处理,以提高数据质量和可靠性,并进一步分析微生物的多样性和功能。这些处理方法包括序列双端合并、去除两端接头(barcode)和引物、质量检测、序列去重复、嵌合体检测、构建asv表、物种注释和系统发育分析等。

3、目前的扩增子二代测序数据处理方法普遍采用更为严格的处理手段和聚类算法,以校正由于引物偏差、嵌合体和拷贝数变异等原因所导致的测序结果失真。然而,令人遗憾的是,在这些方法致力于筛选错误序列以提高准确度的同时,却忽视了测序数据的利用效率。这导致了分析结果中出现统计学第一类错误,继而使得研究人员无法完全掌握微生物的真实情况。


技术实现思路

1、基于此,本专利技术公开了一种高效利用微生物扩增子二代测序数据的处理方法、装置、存储介质及设备。该处理方法具有完整的处理流程,可以实现在提高处理数据准确度的同时,显著提高扩增子二代测序数据的利用率,并能够极大的缩短数据处理时间。具体包括如下内容:

2、第一方面,本专利技术提供可了一种高效利用微生物扩增子二代测序数据的处理方法。所述方法包括以下步骤:

3、(1)获取数据文件:收集微生物扩增子二代测序所需的数据文件,包括原始序列文件、存储有序列引物和接头信息的元数据文件、目标扩增区域序列的参考序列文件;

4、(2)碱基质控:根据步骤(1)中目标扩增区域序列的长度获取正、反向序列末尾碱基的质量值,并设置质量阈值,根据质量值对步骤(1)所述原始序列文件的正、反向序列进行筛选,将质量值低于质量阈值的末尾碱基定义为末尾低质量碱基,在保证序列能够正常合并的前提下,剔除正、反向序列的末尾低质量碱基;

5、(3)合并序列:将步骤(2)获得的剔除末尾低质量碱基的正、反向序列进行匹配合并,输出合并后的序列;

6、(4)切除引物序列与接头碱基:根据步骤(1)所述元数据文件中的序列引物和接头信息,将步骤(3)合并后的序列的前后引物与接头碱基剔除;

7、(5)序列质控:确定步骤(4)所述剔除前后引物与接头碱基后序列的质量值,设置质量阈值,根据质量值对序列进行质控过滤,将低于质量阈值的序列过滤掉,得到质控后的序列;过滤掉的序列存储为低质量序列文件;

8、(6)去低丰度序列:统计步骤(5)所述质控后的序列的丰度,设置丰度阈值,去除丰度低于丰度阈值的序列,获得去低丰度后的序列;去除的低丰度序存储为低丰度序列文件;

9、(7)挑选特征序列:将步骤(6)所述去低丰度后的序列去重,确保非重复序列只保留一个,然后依次比对查找碱基差异并定义其位置,每个不同的序列变体定义为一个asv作为特征序列;

10、(8)去嵌合体序列:将步骤(7)所述的特征序列与步骤(1)所述的参考序列文件进行比对,去除嵌合体序列,得到去嵌合体后的特征序列;所述嵌合体序列是指单个序列中存在多个微生物物种序列的序列;

11、(9)序列回收:回收步骤(5)所述的低质量序列和步骤(6)所述的低丰度序列,与步骤(6)所述的去低丰度后序列整合到一起,形成待比对序列;

12、(10)生成asv表:将步骤(9)所述的待比对序列与步骤(8)所述去嵌合体后的特征序列进行比对,根据序列之间的差异挑选出asvs;并将所述的asvs序列的编号和相对丰度信息记录生成asv表;

13、(11)物种注释:将步骤(8)所述去嵌合体后的特征序列与步骤(1)所述的参考序列文件进行比对注释,确定所述特征序列对应的物种注释信息;

14、(12)构建系统发育树:将步骤(8)所述去嵌合体后的特征序列进行多序列比对,所述特征序列的相似性信息转化为进化关系数据,然后使用近邻法根据序列的进化关系构建系统发育树。

15、优选地,所述步骤(1)中原始序列文件为采用pe300的建库方式进行扩增建库,获得的原始下机序列文件。

16、优选地,所述步骤(1)中存储有序列引物和接头信息的元数据文件中只包含样本名称、序列文件地址、序列类型、引物序列和接头碱基数据,所述序列类型用于区别正、反向序列;所述步骤(1)中目标扩增区域序列的参考序列文件指silva132数据库中符合目标扩增区域的序列文件。

17、优选地,所述步骤(1)中原始序列文件为fastq格式,元数据文件为文本文件或表格文件,参考序列文件为fasta格式。

18、优选地,所述步骤(2)中对所述正、反向序列数据的末尾碱基按照从前到后的顺序检查质量值,当某个碱基的质量值不符合要求时,不对后续碱基的质量值进行检查,直接剪切当前碱基之后包括当前碱基的序列。

19、优选地,所述步骤(2)中的质量值和步骤(5)中的质量值是每个碱基的phred质量分数;所述步骤(6)中的丰度表示每个序列在样本中的出现频率或数量;所述步骤(2)中的质量阈值、步骤(5)中的质量阈值、步骤(6)中的丰度阈值根据实验需求或研究要求设置。

20、优选地,所述步骤(11)中的物种注释信息包括物种名称、分类水平以及相似性分数。

21、第二方面,本专利技术提供了一种高效利用微生物扩增子二代测序数据的处理装置,包括:

22、获取数据模块:用于获取上述第一方面所述方法中的步骤(1)所述的数据文件,所述数据文件包括原始序列文件、存储有序列引物和接头信息的元数据文件、目标扩增区域序列的参考序列文件;

23、序列合并模块:用于实现上述第一方面所述方法中的步骤(2)和(3),输出合并后的序列;

24、切除引物与质控模块:用于实现上述第一方面所述方法中的步骤(4)和(5),所述元数据文件中的引物序列和接头碱基信息,将所述合并后序列前后的引物与接头碱基剔除;确定剔除引物与接头碱基后序列的质量值,根据质量值对序列进行质控过滤,得到质控后的序列;

25、去低丰度序列模块:用于实现上述第一方面所述方法中的步骤(6),统计所述质控后序列的丰度,去除低丰度的序列,获得去低丰度后的序列;然后将去除的低丰度序列存储为低丰度序列文件;

26、挑选特征序列模块:用于实现上述第一方面所述方法中的步骤(7本文档来自技高网...

【技术保护点】

1.一种高效利用微生物扩增子二代测序数据的处理方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的方法,其特征在于,所述步骤(1)中原始序列文件为采用PE300的建库方式进行扩增建库,获得的原始下机序列文件。

3.如权利要求1所述的方法,其特征在于,所述步骤(1)中存储有序列引物和接头信息的元数据文件中只包含样本名称、序列文件地址、序列类型、引物序列和接头碱基数据,所述序列类型用于区别正、反向序列;所述步骤(1)中目标扩增区域序列的参考序列文件指SILVA132数据库中符合目标扩增区域的序列文件。

4.如权利要求1所述的方法,其特征在于,所述步骤(1)中原始序列文件为FASTQ格式,元数据文件为文本文件或表格文件,参考序列文件为FASTA格式。

5.如权利要求1所述的方法,其特征在于,所述步骤(2)中对所述正、反向序列数据的末尾碱基按照从前到后的顺序检查质量值,当某个碱基的质量值不符合要求时,不对后续碱基的质量值进行检查,直接剪切当前碱基之后包括当前碱基的序列。

6.如权利要求2所述的方法,其特征在于,所述步骤(2)中的质量值和步骤(5)中的质量值是每个碱基的Phred质量分数;所述步骤(6)中的丰度表示每个序列在样本中的出现频率或数量;所述步骤(2)中的质量阈值、步骤(5)中的质量阈值、步骤(6)中的丰度阈值根据实验需求或研究要求设置。

7.如权利要求1所述的方法,其特征在于,所述步骤(11)中的物种注释信息包括物种名称、分类水平以及相似性分数。

8.一种高效利用微生物扩增子二代测序数据的处理装置,包括:

9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-7任一所述方法。

10.一种计算机设备,包括存储器与处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任一所述方法。

...

【技术特征摘要】

1.一种高效利用微生物扩增子二代测序数据的处理方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的方法,其特征在于,所述步骤(1)中原始序列文件为采用pe300的建库方式进行扩增建库,获得的原始下机序列文件。

3.如权利要求1所述的方法,其特征在于,所述步骤(1)中存储有序列引物和接头信息的元数据文件中只包含样本名称、序列文件地址、序列类型、引物序列和接头碱基数据,所述序列类型用于区别正、反向序列;所述步骤(1)中目标扩增区域序列的参考序列文件指silva132数据库中符合目标扩增区域的序列文件。

4.如权利要求1所述的方法,其特征在于,所述步骤(1)中原始序列文件为fastq格式,元数据文件为文本文件或表格文件,参考序列文件为fasta格式。

5.如权利要求1所述的方法,其特征在于,所述步骤(2)中对所述正、反向序列数据的末尾碱基按照从前到后的顺序检查质量值,当某个碱基的质量值不符合要求时,不对后续碱基...

【专利技术属性】
技术研发人员:倪永清卢严砖黄健孙海龙张慧敏罗宝龙
申请(专利权)人:石河子大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1