【技术实现步骤摘要】
【国外来华专利技术】测序数据读段重新比对的方法
技术介绍
下一代测序数据分析的持续挑战是插入和缺失(“插入缺失”)的准确调用。这种困难的原因包含较低的发生率、难以作图到基因组中的正确位置以及基因组中存在阻止唯一作图的重复区域。另一个原因是当前的比对工具无法正确地鉴定在读段的末端处的变异体或鉴定准确性不够。这是由于缺少调用变异体的双侧位置信息(two-sidedcontext)而造成的。
技术实现思路
通过提供计算机实现方法、计算机系统和计算机程序产品,克服了现有技术的缺点并提供了另外的优点。根据一个实施例,一种用于测序数据读段(read)重新比对的计算机实现方法包含:从序列比对数据集获得读段序列与参考序列的初始比对,所述初始比对包括比对读段;对所述初始比对进行重新比对处理,所述重新比对处理将所述读段序列与所述参考序列重新比对以产生一或多个候选重新比对,并且所述重新比对处理包括:鉴定一或多个候选插入缺失,所述一或多个候选插入缺失包括所述比对读段中的零或多个插入缺失以及在所述比对读段近端比对的零或多个插入缺失,如由所述序列比对数据集指示;至少基于从所述比对读段中去除由所述初始比对指示的任何插入缺失来创建扁平化比对读段;和基于针对所述一或多个候选重新比对中的每个候选重新比对将所述一或多个候选插入缺失中的相应至少一个候选插入缺失引入所述扁平化比对读段来确定所述读段序列与所述参考序列的一或多个候选重新比对;和基于一或多个选择标准来提供所述初始比对或所述一或多个候选重新比对中的所选候选重新比对。所述一或多个候选插入缺失可以包括多个候选插入缺失,并且所述确定所述一或多个候选重新比对可以包括开始迭代地 ...
【技术保护点】
1.一种用于测序数据读段重新比对的计算机实施方法,所述方法包括:从序列比对数据集获得读段序列与参考序列的初始比对,所述初始比对包括比对读段;对所述初始比对进行重新比对处理,所述重新比对处理将所述读段序列与所述参考序列重新比对以产生一或多个候选重新比对,并且所述重新比对处理包括:鉴定一或多个候选插入缺失,所述一或多个候选插入缺失包括所述比对读段中的零或多个插入缺失以及在所述比对读段近端比对的零或多个插入缺失,如所述序列比对数据集指示;至少基于从所述比对读段中去除由所述初始比对指示的任何插入缺失来创建扁平化比对读段;和基于针对所述一或多个候选重新比对中的每个候选重新比对将所述一或多个候选插入缺失中的至少一个相应候选插入缺失引入所述扁平化比对读段来确定所述读段序列与所述参考序列的所述一或多个候选重新比对;和基于一或多个选择标准来提供所述初始比对或所述一或多个候选重新比对中的所选候选重新比对。
【技术特征摘要】
【国外来华专利技术】2016.11.16 US 62/422,841;2017.01.17 US 62/447,103;1.一种用于测序数据读段重新比对的计算机实施方法,所述方法包括:从序列比对数据集获得读段序列与参考序列的初始比对,所述初始比对包括比对读段;对所述初始比对进行重新比对处理,所述重新比对处理将所述读段序列与所述参考序列重新比对以产生一或多个候选重新比对,并且所述重新比对处理包括:鉴定一或多个候选插入缺失,所述一或多个候选插入缺失包括所述比对读段中的零或多个插入缺失以及在所述比对读段近端比对的零或多个插入缺失,如所述序列比对数据集指示;至少基于从所述比对读段中去除由所述初始比对指示的任何插入缺失来创建扁平化比对读段;和基于针对所述一或多个候选重新比对中的每个候选重新比对将所述一或多个候选插入缺失中的至少一个相应候选插入缺失引入所述扁平化比对读段来确定所述读段序列与所述参考序列的所述一或多个候选重新比对;和基于一或多个选择标准来提供所述初始比对或所述一或多个候选重新比对中的所选候选重新比对。2.根据权利要求1所述的方法,其中所述一或多个候选插入缺失包括多个候选插入缺失,并且其中所述确定所述一或多个候选重新比对包括开始迭代地将所述多个候选插入缺失引入所述扁平化比对读段,其中所述迭代引入的每次迭代是通过将所述候选重新比对的所述至少一个相应候选插入缺失引入所述扁平化比对读段来提供所述一或多个候选重新比对中的候选重新比对。3.根据权利要求2所述的方法,其中所述迭代引入是将所述多个候选插入缺失中的一或多个候选插入缺失的排列引入所述扁平化比对读段,以针对所述排列中的每个排列获得所述一或多个候选比对中的不同候选重新比对。4.根据权利要求3所述的方法,其中所述重新比对处理进一步包括:检查所述一或多个候选重新比对中的所提供候选重新比对,以确定所提供候选重新比对中的比对读段,即具有所引入的一或多个相应候选插入缺失的所提供候选重新比对中的所述比对读段,是否与所述参考序列比对并且所提供候选重新比对中的所述比对读段和所述参考序列之间不存在错配碱基;基于确定所提供候选重新比对中的所述比对读段与所述参考序列比对并且不存在错配碱基来停止所述迭代引入;和选择所提供候选重新比对作为所选候选重新比对,其中所述提供是基于所提供候选重新比对中的所述比对读段与所述参考序列比对来输出所选候选重新比对。5.根据权利要求2所述的方法,其中所述重新比对处理进一步包括针对所述迭代引入对所述多个插入缺失进行优先级排序,其中所述迭代引入是基于所述优先级排序按优先级顺序引入所述多个插入缺失。6.根据权利要求5所述的方法,其中所述优先级排序使参考插入缺失数据集指示为预知插入缺失的插入缺失优先于所述参考插入缺失数据集未指示为预知插入缺失的插入缺失。7.根据权利要求5所述的方法,其中所述优先级排序使较长长度的插入缺失优先于较短长度的插入缺失。8.根据权利要求5所述的方法,其中所述优先级排序使所述序列比对数据集的较大数量的比对读段中所指示的插入缺失优先于所述序列比对数据集的较小数量的比对读段中所指示的插入缺失,或者所述优先级排序使所述序列比对数据集中的与所述插入缺失相对于所述参考序列的位置对应的较大比例的比对读段中所指示的插入缺失优先于所述序列比对数据集中的较小比例的比对读段中所指示的插入缺失。9.根据权利要求5所述的方法,其中在所述序列比对数据集中的相同数量的比对读段中所指示的不同插入缺失之间,所述优先级排序使相对于所述序列比对数据集中所指示的参考基因组序列的位置在相对于所述参考基因组序列的针对另一插入缺失指示的位置上游的插入缺失优先。10.根据权利要求1所述的方法,其中所述选择标准至少部分地基于以下中的一或多个:错配碱基的数量、插入缺失的数量、插入缺失相对于所述序列比对数据集所指示的参考基因组序列的位置,和软切碱基的数量。11.根据权利要求1、2、3、4、5或10所述的方法,其中所述选择标准对以下中的一或多个进行优先级排序:针对所述提供,没有插入缺失且仅有一个错配碱基的比对优先于具有一或多个插入缺失的比对;针对所述提供,错配碱基数量较小的比对优先于错配碱基数量较大的比对;在错配碱基数量相同的不同比对之间,针对所述提供,特定类型的软切数量较小的比对优先于所述特定类型的软切数量较大的比对;和在错配碱基数量相同的不同比对之间,针对所述提供,插入缺失数量较小的比对优先于插入缺失数量较大的比对。12.根据权利要求1、2、3、4、5或10所述的方法,其中所述重新比对处理进一步包括基于所述一或多个选择标准中的第一标准来选择所述一或多个候选重新比对中的最佳候选重新比对,其中所选候选重新比对是所选最佳候选重新比对,并且其中所述输出是基于所述一或多个选择标准中的第二标准在所述初始比对和所述最佳候选重新比对之间进行选择。13.根据权利要求1、2、3、4、5或10所述的方法,其进一步包括确定所得初始比对是否适合于重新比对,所述确定至少部分地基于以下中的一或多个:鉴定所述初始比对中的所述比对读段和所述参考序列之间是否存在一或多个错配碱基;鉴定所述比对读段是否包括软切;鉴定所述初始比对是否并非二次比对;和鉴定所述序列比对数据集中的参考基因组序列的碱基区域中的所述比对读段周围是否存在候选插入缺失。14.根据权利要求1、2、3、4、5或10所述的方法,其进一步包括:确定所得初始比对是否适合于重新比对,并且基于确定所得初始比对适合于重新比对来对所述初始比对或所选候选重新...
【专利技术属性】
技术研发人员:G·贝里,庄瀚宇,J·戈登,陈晓,S·坦纳,
申请(专利权)人:宜曼达股份有限公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。