System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 测序数据读段重新比对的方法技术_技高网

测序数据读段重新比对的方法技术

技术编号:40222864 阅读:4 留言:0更新日期:2024-02-02 22:28
本发明专利技术涉及测序数据读段重新比对的方法。一种方法是从序列比对数据集获得读段序列与参考序列的初始比对,并对所述初始比对进行重新比对处理。重新比对处理包含鉴定候选插入缺失,所述候选插入缺失包含比对读段中的零或多个插入缺失以及在比对读段近端比对的零或多个插入缺失,如序列比对数据集指示;至少基于从比对读段中去除由初始比对指示的任何插入缺失来创建扁平化比对读段;并基于针对候选重新比对中的每个候选重新比对将候选插入缺失中的至少一个相应候选插入缺失引入扁平化比对读段来确定读段序列与参考序列的候选重新比对。所述方法进一步基于选择标准来提供初始比对或候选重新比对中的所选候选重新比对。

【技术实现步骤摘要】

本申请涉及一种测序数据读段重新比对的方法


技术介绍

1、下一代测序数据分析的持续挑战是插入和缺失(“插入缺失”)的准确调用。这种困难的原因包含较低的发生率、难以作图到基因组中的正确位置以及基因组中存在阻止唯一作图的重复区域。另一个原因是当前的比对工具无法正确地鉴定在读段的末端处的变异体或鉴定准确性不够。这是由于缺少调用变异体的双侧位置信息(two-sided context)而造成的。


技术实现思路

1、通过提供计算机实现方法、计算机系统和计算机程序产品,克服了现有技术的缺点并提供了另外的优点。

2、根据一个实施例,一种用于测序数据读段(read)重新比对的计算机实现方法包含:从序列比对数据集获得读段序列与参考序列的初始比对,所述初始比对包括比对读段;对所述初始比对进行重新比对处理,所述重新比对处理将所述读段序列与所述参考序列重新比对以产生一或多个候选重新比对,并且所述重新比对处理包括:鉴定一或多个候选插入缺失,所述一或多个候选插入缺失包括所述比对读段中的零或多个插入缺失以及在所述比对读段近端比对的零或多个插入缺失,如由所述序列比对数据集指示;至少基于从所述比对读段中去除由所述初始比对指示的任何插入缺失来创建扁平化比对读段;和基于针对所述一或多个候选重新比对中的每个候选重新比对将所述一或多个候选插入缺失中的相应至少一个候选插入缺失引入所述扁平化比对读段来确定所述读段序列与所述参考序列的一或多个候选重新比对;和基于一或多个选择标准来提供所述初始比对或所述一或多个候选重新比对中的所选候选重新比对。

3、所述一或多个候选插入缺失可以包括多个候选插入缺失,并且所述确定所述一或多个候选重新比对可以包括开始迭代地将所述多个候选插入缺失引入所述扁平化比对读段,其中通过将所述候选重新比对的所述相应至少一个候选插入缺失引入所述扁平化比对读段,所述迭代地引入的每次迭代提供了所述一或多个候选重新比对中的候选重新比对。

4、所述迭代地引入可以将所述多个候选插入缺失中的一或多个候选插入缺失的排列引入所述扁平化比对读段,以针对所述排列中的每个排列获得所述一或多个候选比对中的不同候选重新比对。

5、所述重新比对处理可以进一步包括:检查所述一或多个候选重新比对中的所提供候选重新比对,以确定所提供候选重新比对的比对读段(即具有所引入的一或多个相应候选插入缺失的所提供候选重新比对的所述比对读段)是否与所述参考序列比对并且所提供候选重新比对的所述比对读段和所述参考序列之间不存在错配碱基;基于确定所提供候选重新比对的所述比对读段与所述参考序列比对并且不存在错配碱基来停止所述迭代地引入;和选择所提供候选重新比对作为所选候选重新比对,其中所述提供基于所提供候选重新比对的所述比对读段与所述参考序列比对来输出所选候选重新比对。

6、所述重新比对处理可以进一步包括针对所述迭代地引入对所述多个插入缺失进行优先级排序,其中所述迭代地引入基于所述优先级排序按优先级顺序引入所述多个插入缺失。

7、所述优先级排序可以使由参考插入缺失数据集指示为预知插入缺失的插入缺失优先于未由所述参考插入缺失数据集指示为预知插入缺失的插入缺失。另外或可替代地,所述优先级排序可以使较长长度的插入缺失优先于较短长度的插入缺失。另外或可替代地,所述优先级排序可以使以所述序列比对数据集的较大数量的比对读段指示的插入缺失优先于以所述序列比对数据集的较小数量的比对读段指示的插入缺失。另外或可替代地,所述优先级排序可以使对应于所述插入缺失相对于所述参考序列的位置以所述序列比对数据集的较大比例的比对读段指示的插入缺失优先于以所述序列比对数据集的较小比例的比对读段指示的插入缺失。另外或可替代地,在以所述序列比对数据集的相同数量的比对读段指示的不同插入缺失之间,所述优先级排序可以使相对于由所述序列比对数据集指示的参考基因组序列的位置(相较于针对另一插入缺失指示的相对于所述参考基因组序列的位置)处于上游的插入缺失优先。

8、所述选择标准可以至少部分地基于以下中的一或多个:错配碱基的数量、插入缺失的数量、插入缺失相对于由所述序列比对数据集指示的参考基因组序列的位置、和软切碱基的数量。

9、所述选择标准可以对以下中的一或多个进行优先级排序:针对所述提供,没有插入缺失且仅有一个错配碱基的比对优先于具有一或多个插入缺失的比对;针对所述提供,具有较小数量的错配碱基的比对优先于具有较大数量的错配碱基的比对;在具有相同数量的错配碱基的不同比对之间,针对所述提供,具有较小数量的特定类型的软切的比对优先于具有较大数量的所述特定类型的软切的比对;和在具有相同数量的错配碱基的不同比对之间,针对所述提供,具有较小数量的插入缺失的比对优先于具有较大数量的插入缺失的比对。

10、所述重新比对处理可以进一步包括基于所述一或多个选择标准中的第一标准来选择所述一或多个候选重新比对中的最佳候选重新比对,其中所选候选重新比对是所选最佳候选重新比对,并且其中所述输出基于所述一或多个选择标准中的第二标准在所述初始比对和所述最佳重新比对候选之间进行选择。

11、计算机实现方法的一个实施例可以进一步包括确定所获得初始比对是否适合于重新比对,所述确定至少部分地基于以下中的一或多个:鉴定所述初始比对的所述比对读段和所述参考序列之间是否存在一或多个错配碱基;鉴定所述比对读段是否包括软切;鉴定所述初始比对是否不是二次比对;和鉴定所述序列比对数据集的参考基因组序列的碱基区域中的所述比对读段周围是否存在候选插入缺失。

12、计算机实现方法的一个实施例可以进一步包括确定所获得初始比对是否适合于重新比对,并且基于确定所获得初始比对适合于重新比对来进行所述重新比对处理和所述提供所述初始比对或所选候选重新比对;针对所述序列比对数据集的一或多个另外的初始比对中的每个另外的初始比对,重复所述获得和所述确定所获得另外的初始比对是否适合于重新比对;和针对所述一或多个另外的初始比对中的每个另外的初始比对进行处理,所述进行处理包括(i)按原样提供所述另外的初始比对,不进行所述重新比对处理,或(ii)进行所述重新比对处理和所述提供所述另外的初始比对或所选候选重新比对。

13、此外,一种用于测序数据读段重新比对的计算机系统,其包括存储器和至少一个处理器,可以被配置成执行程序指令以进行根据本文描述的各个方面的方法。

14、此外,一种用于测序数据读段重新比对的计算机程序产品,其包括存储供执行的程序指令的有形存储介质,可以进行根据本文描述的各个方面的方法。

15、通过本文描述的概念实现了另外的特征和优点。本文公开了许多专利技术方面和特征,并且除非不一致,否则每个公开的方面或特征可与特定应用所期望的任何其它公开的方面或特征组合,例如以促进检测图像障碍。

本文档来自技高网...

【技术保护点】

1.一种用于测序数据读段重新比对的计算机实施方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述迭代引入是将所述多个候选插入缺失中的一或多个候选插入缺失的排列引入所述扁平化比对读段,以针对所述排列中的每个排列获得所述一或多个候选比对中的不同候选重新比对。

3.根据权利要求2所述的方法,其中所述重新比对处理进一步包括:

4.根据权利要求1所述的方法,其中所述重新比对处理进一步包括针对所述迭代引入对所述多个插入缺失进行优先级排序,其中所述迭代引入是基于所述优先级排序按优先级顺序引入所述多个插入缺失。

5.根据权利要求4所述的方法,其中所述优先级排序包括以下一者或多者:

6.根据权利要求1所述的方法,其中所述选择标准至少部分地基于以下中的一或多个:错配碱基的数量、插入缺失的数量、插入缺失相对于所述序列比对数据集所指示的参考基因组序列的位置,和软切碱基的数量。

7.根据权利要求1、2、3、4或6所述的方法,其中所述选择标准对以下中的一或多个进行优先级排序:

8.根据权利要求1、2、3、4或6所述的方法,其中所述重新比对处理进一步包括基于所述一或多个选择标准中的第一标准来选择所述一或多个候选重新比对中的最佳候选重新比对,其中所选候选重新比对是所选最佳候选重新比对,并且其中所述提供是基于所述一或多个选择标准中的第二标准在所述初始比对和所述最佳候选重新比对之间进行选择。

9.根据权利要求1、2、3、4或6所述的方法,其进一步包括确定所得初始比对是否适合于重新比对,所述确定至少部分地基于以下中的一或多个:

10.根据权利要求1、2、3、4或6所述的方法,其进一步包括:

11.一种用于测序数据读段重新比对的计算机系统,所述计算机系统包括存储器和至少一个处理器,所述计算机系统被配置成执行程序指令以执行包括以下的方法:

12.根据权利要求11所述的计算机系统,其中所述迭代引入是将所述多个候选插入缺失中的一或多个候选插入缺失的排列引入所述扁平化比对读段,以针对所述排列中的每个排列获得所述一或多个候选比对中的不同候选重新比对。

13.根据权利要求12所述的计算机系统,其中所述重新比对处理进一步包括:

14.根据权利要求12或13所述的计算机系统,其中所述重新比对处理进一步包括针对所述迭代引入对所述多个插入缺失进行优先级排序,其中所述迭代引入是基于所述优先级排序按优先级顺序引入所述多个插入缺失。

15.根据权利要求14所述的计算机系统,其中所述优先级排序包括以下一者或多者:

...

【技术特征摘要】

1.一种用于测序数据读段重新比对的计算机实施方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述迭代引入是将所述多个候选插入缺失中的一或多个候选插入缺失的排列引入所述扁平化比对读段,以针对所述排列中的每个排列获得所述一或多个候选比对中的不同候选重新比对。

3.根据权利要求2所述的方法,其中所述重新比对处理进一步包括:

4.根据权利要求1所述的方法,其中所述重新比对处理进一步包括针对所述迭代引入对所述多个插入缺失进行优先级排序,其中所述迭代引入是基于所述优先级排序按优先级顺序引入所述多个插入缺失。

5.根据权利要求4所述的方法,其中所述优先级排序包括以下一者或多者:

6.根据权利要求1所述的方法,其中所述选择标准至少部分地基于以下中的一或多个:错配碱基的数量、插入缺失的数量、插入缺失相对于所述序列比对数据集所指示的参考基因组序列的位置,和软切碱基的数量。

7.根据权利要求1、2、3、4或6所述的方法,其中所述选择标准对以下中的一或多个进行优先级排序:

8.根据权利要求1、2、3、4或6所述的方法,其中所述重新比对处理进一步包括基于所述一或多个选择标准中的第一标准来选择所述一或多个候选重新比对中的最佳候选重新比对,其中所选候选...

【专利技术属性】
技术研发人员:G·贝里庄瀚宇J·戈登陈晓S·坦纳
申请(专利权)人:宜曼达股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1