基因组测序选择系统技术方案

技术编号:29417726 阅读:15 留言:0更新日期:2021-07-23 23:08
本文讨论的系统和方法可以计算测序统计,诸如,测序数据的覆盖深度。本解决方案可以确定变异频率并且识别临床相关变异。本解决方案可以读取BAM和VCF输入文件以及Phred缩放质量得分。本解决方案可以基于所述质量得分来选择相对高质量的读取,并且可以计算SNP、插入和缺失(INDEL)以及结构变异的参照和替代等位基因计数。

【技术实现步骤摘要】
【国外来华专利技术】基因组测序选择系统相关申请的交叉引用本申请要求于2018年10月17日提交的标题为“基因组测序选择系统[GENOMICSEQUENCINGSELECTIONSYSTEM]”的美国临时专利申请号62/766,432的优先权和权益,所述申请通过引用以其全文结合在此用于所有目的。
技术介绍
包括新一代测序(NGS)系统(有时被称为大规模平行测序系统或类似的术语)的基因组测序系统可以产生大量可变质量的测序数据。具体地,在许多实现方式中,NGS系统可以将基因组分割成多个小片段。这些小片段可以平行测序,相对于将整个基因组作为整体进行测序降低了处理要求,并且然后可以重组以产生全序列。可以对测序数据计算序列度量。与第一代测序技术(诸如,Sanger测序)相比,NGS系统提供了更快且更便宜的测序。然而,NGS系统遭受由于碱基序列的识别或碱基判读的错误或在样品制备过程中引入的错误而引起的不准确性或噪声。碱基读取中的错误率可以是10%或更多,有时高达25%或更多。鉴于可由NGS系统在短时间内获得的大量数据,即使中等错误率也可能导致具有数以万计或甚至数以百万计的不正确碱基对的数据。
技术实现思路
本文公开的系统和方法提供基于逐个读取的错误率和读取质量的测量,并且在一些实现方式中可以过滤或排除低质量读取或提取高质量读取并提供详细度量。与分析包括低质量或错误数据的整个数据集相比,这可降低处理要求,并且可以通过减少花费在可能提供不准确结果的数据上的计算时间量来增加确定序列度量的计算速度。在许多实现方式中,这些系统和方法还可以相对于处理或传输具有高错误率的数据集来减少存储器和带宽消耗。在一些实现方式中,本解决方案可以计算测序统计,诸如,覆盖深度。本解决方案可以确定读取统计(诸如,变异频率)并且识别临床相关变异。本解决方案可以读取BAM和VCF输入文件以及Phred缩放质量得分。本解决方案可以基于所述质量得分来选择相对高质量的读取,并且可以计算单核苷酸多态性(SNP)、插入和缺失(INDEL)以及结构变异的参照和替代等位基因计数。本解决方案可以计算不同链的测序度量以测量链偏向性。本解决方案还可以确定序列数据的每个区域的最小、最大和均值深度。根据本公开文本的至少一个方面,一种用于过滤测序数据的方法可以包括由数据处理系统接收可以包括多个基因序列的数据。所述多个基因序列中的每一个基因序列可以包括染色体的指示、位置的指示、碱基值和质量得分。所述方法可以包括由所述数据处理系统选择所述多个基因序列的子集。所述多个基因序列的所述子集中的每一个基因序列可以具有相同的染色体的指示。所述方法可以包括由所述数据处理系统从所述多个基因序列的所述子集中过滤包括具有高于预定阈值的质量得分的碱基值的基因序列。所述方法可以包括由所述数据处理系统确定经过滤的基因序列的每个位置的聚合计数。所述方法可以包括由所述数据处理系统确定经过滤的基因序列的每个位置的替代碱基计数。所述方法可以包括由所述数据处理系统基于每个位置的替代碱基计数与每个位置的聚合计数的比率超过阈值来生成基因序列变异的标识。在一些实现方式中,所述方法可以包括确定所述多个基因序列的经过滤的子集中的缺失序列的替代计数,其中所述碱基值具有高于所述预定阈值的质量得分。所述缺失序列可以开始于邻近所述位置的索引处。所述方法可以包括确定所述多个基因序列的经过滤的子集中的插入序列的替代计数,其中所述碱基值具有高于所述预定阈值的质量得分。所述方法可以包括进一步通过识别替代序列匹配来确定所述插入序列的替代计数。所述方法可以包括识别经过滤的多个基因序列中的结构变异。在一些实现方式中,所述替代碱基计数可以基于所述多个基因序列中识别的所述结构变异来确定。确定所述聚合计数可以包括对所述多个基因序列中的经过滤的子集中的每一个基因序列与CIGAR字符串的匹配进行计数。在一些实现方式中,确定所述聚合计数可以包括对所述多个基因序列的经过滤的子集的每一个基因序列中的缺失、插入、参照跳跃(referenceskip)、软剪切(softclip)或硬剪切(hardclip)进行计数。所述方法可以包括基于所述聚合计数和所述替代碱基计数来计算经过滤的多个基因序列的均值读取覆盖、最大值读取覆盖或最大读取覆盖中的至少一项。在一些实现方式中,所述方法可以包括基于所述聚合计数和所述替代碱基计数来计算所述多个基因序列的链偏向性。根据本公开文本的至少一个方面,一种用于过滤测序数据的系统可以包括数据处理系统。所述系统可以接收可以包括多个基因序列的数据。所述多个基因序列中的每一个基因序列可以包括染色体的指示、位置的指示、碱基值和质量得分。所述系统可以选择所述多个基因序列的子集。所述多个基因序列的所述子集中的每一个基因序列可以具有相同的染色体的指示。所述系统可以从所述多个基因序列的所述子集中过滤其中所述碱基值具有高于预定阈值的质量得分的基因序列。所述系统可以确定所述多个基因序列的经过滤的子集的每个位置的聚合计数,其中所述碱基值具有高于所述预定阈值的质量得分。所述系统可以确定经过滤的多个基因序列的每个位置的替代碱基计数,其中所述碱基值具有高于所述预定阈值的质量得分。所述系统可以基于每个位置的替代碱基计数与每个位置的聚合计数的比率来识别基因序列变异,并且可以生成所述基因序列变异的标识符。在一些实现方式中,所述系统可以确定所述多个基因序列的所述子集中的缺失序列的替代计数,其中所述碱基值具有高于所述预定阈值的质量得分。所述系统可以确定所述多个基因序列的经过滤的子集中的插入序列的替代计数,其中所述碱基值具有高于所述预定阈值的质量得分。在一些实现方式中,所述系统可以通过识别替代序列匹配来确定所述插入序列的替代计数。所述系统可以识别所述多个基因序列中的结构变异。所述系统可以通过对所述多个基因序列中的经过滤的子集中的每一个基因序列与CIGAR字符串的匹配进行计数来确定所述聚合计数。所述系统可以通过对所述多个基因序列的所述子集中的每一个基因序列中的缺失、插入、参照跳跃、软剪切或硬剪切进行计数来确定所述聚合计数。所述系统可以基于所述聚合计数和所述替代碱基计数来计算所述多个基因序列的均值读取覆盖、最大值读取覆盖或最大读取覆盖中的至少一项。所述系统可以基于所述聚合计数和所述替代碱基计数来计算所述多个基因序列的链偏向性。前述总体描述以及以下附图描述和详细描述是示例性和解释性的,并且旨在提供对所要求保护的本专利技术的进一步解释。从以下附图简要描述和详细描述中,其他的目的、优点和新颖特征对于本领域技术人员将是显而易见的。附图说明附图不旨在按比例绘制。在各个附图中相同的附图标记和名称指示相同的元件。为了清楚起见,并非每个组件都可以在每个附图中被标记。在附图中:图1展示了用于计算NGS读取深度统计的示例系统的框图。图2展示了使用图1中所展示的系统确定测序数据的覆盖度量的示例方法的框图。图3展示了给定染色体的示例序列表。图4展示了示例计算机系统的框图。具体实施方式本文档来自技高网...

【技术保护点】
1.一种用于过滤测序数据的方法,其包括:/n由数据处理系统接收包括多个基因序列的数据,其中所述多个基因序列中的每一个基因序列包括染色体的指示、位置的指示、碱基值和质量得分;/n由所述数据处理系统选择所述多个基因序列的子集,其中所述多个基因序列的所述子集中的每一个基因序列具有相同的染色体的指示;/n由所述数据处理系统从所述多个基因序列的所述子集中过滤包括具有高于预定阈值的相关联质量得分的碱基值的基因序列;/n由所述数据处理系统确定经过滤的基因序列的每个位置的聚合计数;/n由所述数据处理系统确定经过滤的基因序列的每个位置的替代碱基计数;/n由所述数据处理系统响应于每个位置的替代碱基计数与每个位置的聚合计数的比率超过阈值来生成基因序列变异的标识符。/n

【技术特征摘要】
【国外来华专利技术】20181017 US 62/766,4321.一种用于过滤测序数据的方法,其包括:
由数据处理系统接收包括多个基因序列的数据,其中所述多个基因序列中的每一个基因序列包括染色体的指示、位置的指示、碱基值和质量得分;
由所述数据处理系统选择所述多个基因序列的子集,其中所述多个基因序列的所述子集中的每一个基因序列具有相同的染色体的指示;
由所述数据处理系统从所述多个基因序列的所述子集中过滤包括具有高于预定阈值的相关联质量得分的碱基值的基因序列;
由所述数据处理系统确定经过滤的基因序列的每个位置的聚合计数;
由所述数据处理系统确定经过滤的基因序列的每个位置的替代碱基计数;
由所述数据处理系统响应于每个位置的替代碱基计数与每个位置的聚合计数的比率超过阈值来生成基因序列变异的标识符。


2.根据权利要求1所述的方法,其进一步包括确定经过滤的基因序列中的缺失序列的替代计数。


3.根据权利要求2所述的方法,其中所述缺失序列开始于邻近所述位置的索引处。


4.根据权利要求1所述的方法,其进一步包括确定经过滤的基因序列中的插入序列的替代计数。


5.根据权利要求4所述的方法,其中确定所述插入序列的替代计数进一步包括识别替代序列匹配。


6.根据权利要求1所述的方法,其进一步包括识别所述多个基因序列中的结构变异。


7.根据权利要求6所述的方法,其进一步包括基于所述多个基因序列中识别的所述结构变异来确定所述替代碱基计数。


8.根据权利要求6所述的方法,其中确定所述聚合计数进一步包括对经过滤的基因序列中的每一个基因序列与CIGAR字符串的匹配进行计数。


9.根据权利要求6所述的方法,其中确定所述聚合计数进一步包括对所述多个基因序列的所述子集中的每一个基因序列中的缺失、插入、参照跳跃、软剪切或硬剪切进行计数。


10.根据权利要求1所述的方法,其进一步包括基于所述聚合计数和所述替代碱基计数来计算所述多个基因序列的均值读取覆盖、最大值读取覆盖或最大读取覆盖中的至少一项。


11.根据权利要求1所述的方法,其进一步包括基于所述聚合计数和所述替代碱基计数来计算...

【专利技术属性】
技术研发人员:A·巴塔查里亚A·杰拉西莫娃Q·阮C·埃尔津加E·莫勒
申请(专利权)人:奎斯特诊断投资有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1