System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于比对方法的测序数据下采样方法及应用技术_技高网

基于比对方法的测序数据下采样方法及应用技术

技术编号:41140032 阅读:2 留言:0更新日期:2024-04-30 18:10
本发明专利技术提供一种基于比对方法的测序数据下采样方法及应用,将每条测序数据同参考基因组序列进行比对得到每条测序数据比对到参考基因组序列的比对位置,基于比对位置按照排序规则对多条测序数据进行排序,对参考基因组序列根据设定的进程数量进行分组,根据排序后的测序数据的顺序按照累加终止规则逐条累加对应每组参考基因组序列的测序数据得到对应每组参考基因组序列的下采样数据,合并所有参考基因组序列的下采样数据得到下采样测序数据,采用同测序物种的参考基因组序列进行比对的方式进行下采样,保证了下采样过程中不会损失原有的基因组覆盖度,解决了以往下采样方法中存在的随机下采样导致病毒基因组覆盖度降低的情况。

【技术实现步骤摘要】

本申请涉及测序数据处理领域,特别是涉及一种基于比对方法的测序数据下采样方法及应用


技术介绍

1、测序技术是指对多聚体中单体排列顺序进行测定的方法,目前测序技术越来越广泛地应用到各种样本的测序检测中,尤其在微生物样本的测序检测有着广泛且实际的应用。

2、病原微生物是指可以侵犯人体,引起感染甚至传染病的微生物,或称病原体。在针对病原微生物测序过程中,由于病原微生物的基因组非常小,常规测序方式往往会产生大量的测序数据,尤其在病毒靶向扩增测序过程中往往存在多重扩增的不均一性。具体来说,针对病毒全基因组测序扩增方案目前大部分是采用多重pcr扩增,在整个病毒全基因组的测序数据中,每一对引物根据病毒的结构、样本降解情况不同会导致整个基因组覆盖深度出现严重的不均一情况。因此,为了更好的拿到全基因组测序数据,需要测到更多的数据以保证整个基因组能够测序完整,然而大量的测序数据会使得后续的基因组比对,变异检测以及基因组组装需要比较久的分析时间,且甚至大数据量对于病毒的变异检测和组装也会带来一定的困扰,导致变异检测时发生分析失败的情况。

3、现有针对测序数据的下采样方式主要都是基于非比对的形式进行,也就是采用随机抽样的方式进行下采样:一种方式是基于总数据量按比例进行随机下采样,另外一种方式是基于抽样序列的数量进行下采样,然后不论是哪种测序数据下采样方法,往往使得下采样的测序数据依旧会存在整个基因组覆盖度不完整的问题,严重影响后续分析。


技术实现思路

1、本申请实施例提供了一种基于比对方法的测序数据下采样方法及应用,采用同测序物种的参考基因组序列进行比对的方式进行下采样,保证了下采样过程中不会损失原有的基因组覆盖度,解决了以往下采样方法中存在的随机下采样导致病毒基因组覆盖度降低的情况。

2、第一方面,本申请实施例提供了一种基于比对方法的测序数据下采样方法,包括以下步骤:

3、获取测序物种的参考基因组序列以及多条测序数据;

4、将每条测序数据同参考基因组序列进行比对得到每条测序数据比对到参考基因组序列的比对位置,基于比对位置按照排序规则对多条测序数据进行排序,其中排序规则为:根据比对位置的比对起始位置同参考基因组序列的前置位碱基位置的关系自前向后依次排序测序数据,若多条测序数据的比对起始位置相同,根据测序数据的序列长度自长到短依次排序测序数据,若多条测序数据的比对起始位置相同且测序数据的序列长度相同时,根据测序数据的序列名称自前向后依次排序测序数据;

5、对参考基因组序列根据设定的进程数量进行分组,根据排序后的测序数据的顺序按照累加终止规则逐条累加对应每组参考基因组序列的测序数据得到对应每组参考基因组序列的下采样数据,合并所有参考基因组序列的下采样数据得到下采样测序数据,其中累加终止规则为所有位点达到设定的下采样深度阈值,或者所有测序数据已遍历完毕。

6、第二方面,本申请实施例提供了一种基于比对方法的测序数据下采样装置,包括:

7、数据获取单元,用于获取测序物种的参考基因组序列以及多条测序数据;

8、排序单元,用于将每条测序数据同参考基因组序列进行比对得到每条测序数据比对到参考基因组序列的比对位置,基于比对位置按照排序规则对多条测序数据进行排序,其中排序规则为:根据比对位置的比对起始位置同参考基因组序列的前置位碱基位置的关系自前向后依次排序测序数据,若多条测序数据的比对起始位置相同,根据测序数据的序列长度自长到短依次排序测序数据,若多条测序数据的比对起始位置相同且测序数据的序列长度相同时,根据测序数据的序列名称自前向后依次排序测序数据;

9、下采样单元,用于对参考基因组序列根据设定的进程数量进行分组,根据排序后的测序数据的顺序按照累加终止规则逐条累加对应每组参考基因组序列的测序数据得到对应每组参考基因组序列的下采样数据,合并所有参考基因组序列的下采样数据得到下采样测序数据,其中累加终止规则为所有位点达到设定的下采样深度阈值,或者所有测序数据已遍历完毕。

10、第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述的基于比对方法的测序数据下采样方法。

11、第四方面,本申请实施例提供了一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括所述的基于比对方法的测序数据下采样方法。

12、本专利技术的主要贡献和创新点如下:

13、本申请实施例通过将测序数据同参考基因组序列进行比对的方式,基于比对位置对测序数据进行排序,再对排序后的测序数据根据指定的下采样深度阈值进行下采样,充分地解决了病毒全基因组分析过程中,由于多重扩增引物导致的深度不均一情况,在保证了不会对低于指定覆盖深度的区域进行进一步下采样的同时,能够进一步的对扩增深度高于指定下采样深度阈值的区域进行下采样到不低于指定下采样深度阈值,充分解决了病毒基因组测序过程中数据量过大导致的分析时间久,后续分析过程容易报错的情况,即达到了下采样的目的,又保证了整体病毒基因组的整体完整性不会因为下采样而丢失。

14、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

本文档来自技高网...

【技术保护点】

1.一种基于比对方法的测序数据下采样方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于比对方法的测序数据下采样方法,其特征在于,将比对起始位置为参考基因组序列的前置位碱基位置的测序数据排序在比对起始位置为参考基因组序列的后置位碱基位置的测序数据之前,若多条测序数据的比对起始位置相同时,将测序数据的序列长度长的测序数据排序在测序数据的序列长度短的测序数据之前,若多条测序数据的比对起始位置相同且测序数据的序列长度也相同时,将序列名称的字母或数字靠前的测序数据排序在序列名称的字母或数字靠后的测序数据之后。

3.根据权利要求1所述的基于比对方法的测序数据下采样方法,其特征在于,获取设定的正整数数值的进程数量,根据进程数量对参考基因组序列的位点进行等份划分得到多组参考基因组序列,且每组参考基因组序列对应一组测序数据。

4.根据权利要求1所述的基于比对方法的测序数据下采样方法,其特征在于,对于每组参考基因组序列,按照排序后的测序数据的顺序依次逐条读取累加测序数据,每累加一条测序数据则统计每一位点的覆盖深度,当第一个位点达到设定的下采样深度阈值时触发累加终止条件的判断。

5.根据权利要求1所述的基于比对方法的测序数据下采样方法,其特征在于,关于累加终止规则的内容具体如下;

6.根据权利要求5所述的基于比对方法的测序数据下采样方法,其特征在于,对每一新累加的测序数据重新计算每一位点的累加数值,若仅有高于下采样深度阈值的位点的累加数值增加则舍弃该新累加的测序数据。

7.一种基于比对方法的测序数据下采样方法的应用方法,其特征在于,将权利要求1到6任一所述的基于比对方法的测序数据下采样方法应用于对病毒微生物的全基因组测序数据进行下采样。

8.一种基于比对方法的测序数据下采样装置,其特征在于,包括:

9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1到7任一所述的基于比对方法的测序数据下采样方法。

10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1到7任一所述的基于比对方法的测序数据下采样方法。

...

【技术特征摘要】

1.一种基于比对方法的测序数据下采样方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于比对方法的测序数据下采样方法,其特征在于,将比对起始位置为参考基因组序列的前置位碱基位置的测序数据排序在比对起始位置为参考基因组序列的后置位碱基位置的测序数据之前,若多条测序数据的比对起始位置相同时,将测序数据的序列长度长的测序数据排序在测序数据的序列长度短的测序数据之前,若多条测序数据的比对起始位置相同且测序数据的序列长度也相同时,将序列名称的字母或数字靠前的测序数据排序在序列名称的字母或数字靠后的测序数据之后。

3.根据权利要求1所述的基于比对方法的测序数据下采样方法,其特征在于,获取设定的正整数数值的进程数量,根据进程数量对参考基因组序列的位点进行等份划分得到多组参考基因组序列,且每组参考基因组序列对应一组测序数据。

4.根据权利要求1所述的基于比对方法的测序数据下采样方法,其特征在于,对于每组参考基因组序列,按照排序后的测序数据的顺序依次逐条读取累加测序数据,每累加一条测序数据则统计每一位点的覆盖深度,当第一个位点达到设定的下采样深度阈值时触发累加...

【专利技术属性】
技术研发人员:毛凌峰徐兴宇倪莉丽
申请(专利权)人:杭州柏熠科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1