基因组测序选择系统技术方案

技术编号：29417726 阅读：15 留言：0更新日期：2021-07-23 23:08

本文讨论的系统和方法可以计算测序统计，诸如，测序数据的覆盖深度。本解决方案可以确定变异频率并且识别临床相关变异。本解决方案可以读取BAM和VCF输入文件以及Phred缩放质量得分。本解决方案可以基于所述质量得分来选择相对高质量的读取，并且可以计算SNP、插入和缺失(INDEL)以及结构变异的参照和替代等位基因计数。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基因组测序选择系统相关申请的交叉引用本申请要求于2018年10月17日提交的标题为“基因组测序选择系统[GENOMICSEQUENCINGSELECTIONSYSTEM]”的美国临时专利申请号62/766,432的优先权和权益，所述申请通过引用以其全文结合在此用于所有目的。
技术介绍
包括新一代测序(NGS)系统(有时被称为大规模平行测序系统或类似的术语)的基因组测序系统可以产生大量可变质量的测序数据。具体地，在许多实现方式中，NGS系统可以将基因组分割成多个小片段。这些小片段可以平行测序，相对于将整个基因组作为整体进行测序降低了处理要求，并且然后可以重组以产生全序列。可以对测序数据计算序列度量。与第一代测序技术(诸如，Sanger测序)相比，NGS系统提供了更快且更便宜的测序。然而，NGS系统遭受由于碱基序列的识别或碱基判读的错误或在样品制备过程中引入的错误而引起的不准确性或噪声。碱基读取中的错误率可以是10％或更多，有时高达25％或更多。鉴于可由NGS系统在短时间内获得的大量数据，即使中等错误率也可能导致具有数以万计或甚至数以百万计的不正确碱基对的数据。
技术实现思路
本文公开的系统和方法提供基于逐个读取的错误率和读取质量的测量，并且在一些实现方式中可以过滤或排除低质量读取或提取高质量读取并提供详细度量。与分析包括低质量或错误数据的整个数据集相比，这可降低处理要求，并且可以通过减少花费在可能提供不准确结果的数据上的计算时间量来增加确定序列度量的计算速度。在许多实现方式中，这些系统和方法还可以相对于处...

【技术保护点】
1.一种用于过滤测序数据的方法，其包括：/n由数据处理系统接收包括多个基因序列的数据，其中所述多个基因序列中的每一个基因序列包括染色体的指示、位置的指示、碱基值和质量得分；/n由所述数据处理系统选择所述多个基因序列的子集，其中所述多个基因序列的所述子集中的每一个基因序列具有相同的染色体的指示；/n由所述数据处理系统从所述多个基因序列的所述子集中过滤包括具有高于预定阈值的相关联质量得分的碱基值的基因序列；/n由所述数据处理系统确定经过滤的基因序列的每个位置的聚合计数；/n由所述数据处理系统确定经过滤的基因序列的每个位置的替代碱基计数；/n由所述数据处理系统响应于每个位置的替代碱基计数与每个位置的聚合计数的比率超过阈值来生成基因序列变异的标识符。/n

【技术特征摘要】
【国外来华专利技术】20181017 US 62/766,4321.一种用于过滤测序数据的方法，其包括：
由数据处理系统接收包括多个基因序列的数据，其中所述多个基因序列中的每一个基因序列包括染色体的指示、位置的指示、碱基值和质量得分；
由所述数据处理系统选择所述多个基因序列的子集，其中所述多个基因序列的所述子集中的每一个基因序列具有相同的染色体的指示；
由所述数据处理系统从所述多个基因序列的所述子集中过滤包括具有高于预定阈值的相关联质量得分的碱基值的基因序列；
由所述数据处理系统确定经过滤的基因序列的每个位置的聚合计数；
由所述数据处理系统确定经过滤的基因序列的每个位置的替代碱基计数；
由所述数据处理系统响应于每个位置的替代碱基计数与每个位置的聚合计数的比率超过阈值来生成基因序列变异的标识符。

2.根据权利要求1所述的方法，其进一步包括确定经过滤的基因序列中的缺失序列的替代计数。

3.根据权利要求2所述的方法，其中所述缺失序列开始于邻近所述位置的索引处。

4.根据权利要求1所述的方法，其进一步包括确定经过滤的基因序列中的插入序列的替代计数。

5.根据权利要求4所述的方法，其中确定所述插入序列的替代计数进一步包括识别替代序列匹配。

6.根据权利要求1所述的方法，其进一步包括识别所述多个基因序列中的结构变异。

7.根据权利要求6所述的方法，其进一步包括基于所述多个基因序列中识别的所述结构变异来确定所述替代碱基计数。

8.根据权利要求6所述的方法，其中确定所述聚合计数进一步包括对经过滤的基因序列中的每一个基因序列与CIGAR字符串的匹配进行计数。

9.根据权利要求6所述的方法，其中确定所述聚合计数进一步包括对所述多个基因序列的所述子集中的每一个基因序列中的缺失、插入、参照跳跃、软剪切或硬剪切进行计数。

10.根据权利要求1所述的方法，其进一步包括基于所述聚合计数和所述替代碱基计数来计算所述多个基因序列的均值读取覆盖、最大值读取覆盖或最大读取覆盖中的至少一项。

11.根据权利要求1所述的方法，其进一步包括基于所述聚合计数和所述替代碱基计数来计算...

【专利技术属性】
技术研发人员：A·巴塔查里亚，A·杰拉西莫娃，Q·阮，C·埃尔津加，E·莫勒，
申请(专利权)人：奎斯特诊断投资有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人