基于新上下文的经比对的测序数据中的改进质量值压缩框架制造技术

技术编号:34991743 阅读:13 留言:0更新日期:2022-09-21 14:38
一种用于压缩信息的方法,包括:访问基因组测序数据的读段;将所述读段与参考进行比对;基于所述读段的比对来生成比对数据;基于所述比对数据来获得一组上下文;并且基于所述一组上下文来压缩与所述比对数据相对应的质量值。所述比对数据可以提供对所述基因组测序数据的错误的指示,并且所述质量值中的每个可以提供对所述基因组测序数据中的一个或多个碱基处的错误的概率的指示。碱基处的错误的概率的指示。

【技术实现步骤摘要】
【国外来华专利技术】基于新上下文的经比对的测序数据中的改进质量值压缩框架


[0001]本公开总体上涉及处理信息,并且更具体地但非排他地涉及处理与基因组有关的信息。

技术介绍

[0002]基因组测序通常以读段的形式产生大量的数据(例如,基因组的有噪声的子串和对应的质量值,其提供了读段序列的可靠性或置信度的指示)。然而,现有的用于压缩基因组测序数据的质量值的方法具有缺陷。

技术实现思路

[0003]下面呈现了各种示例实施例的简要总结。在下面的摘要中可以进行一些简化和省略,这旨在突出和介绍各种示例实施例的一些方面,但不限制本专利技术的范围。对足以允许本领域普通技能人员制作和使用专利技术概念的示例实施例的详细描述将跟随在后面的部分中。
[0004]根据一个或多个实施例,一种用于压缩信息的方法,包括:(a)访问基因组测序数据的读段;(b)将所述读段与参考进行比对;(c)基于所述读段的比对来生成比对数据;(d)基于所述比对数据来获得一组上下文;(e)基于所述一组上下文来压缩与所述比对数据相对应的质量值,其中,所述比对数据提供对所述基因组测序数据的错误的指示,并且其中,所述质量值中的每个质量值提供对所述基因组测序数据中的一个或多个碱基处的错误的概率的指示。所述一组上下文可以包括至少一个上下文。
[0005]比对的基因组测序数据可以在(e)中基于根据计数的自适应算术编码被压缩。比对的基因组测序数据可以在(e)中基于根据神经网络预测的算术编码被压缩。所述一组上下文可以包括读段与参考碱基之间的匹配。所述一组上下文可以包括以下各项中的至少一项:不匹配的存在和不匹配的类型。所述一组上下文可以包括围绕所述质量值中的一个或多个质量值的参考序列中的多个碱基。所述一组上下文可以包括跨一个或多个基因组坐标处的多个碱基的平均质量值。所述一组上下文可以包括使用映射到相同基因组坐标的读段的堆积来测量的当前和附近碱基处的错误。操作(d)可以包括:基于一个或多个准则来选择所述一组上下文,其中,所述一个或多个准则包括:数据集类型、数据集大小、上下文大小、上下文的预测能力或要压缩的数据量。
[0006]根据一个或多个实施例,一种用于压缩信息的系统,包括:存储器,其被配置为存储指令;以及处理器,其被配置为运行用于执行以下操作的指令:(a)访问基因组测序数据的读段;(b)将所述读段与参考进行比对;(c)基于所述读段的比对来生成比对数据;(d)基于所述比对数据来获得一组上下文;(e)基于所述一组上下文来压缩与所述比对数据相对应的质量值,其中,所述比对数据提供对所述基因组测序数据的错误的指示,并且其中,所述质量值中的每个质量值提供对所述基因组测序数据中的一个或多个碱基处的错误的概率的指示。所述一组上下文可以包括至少一个上下文。
[0007]所述处理器可以基于根据计数的自适应算术编码来压缩比对的基因组测序数据。
所述处理器可以在(e)中基于根据神经网络预测的算术编码来压缩比对的基因组测序数据。所述一组上下文可以包括所述读段与参考碱基之间的匹配。所述一组上下文可以包括以下各项中的至少一项:不匹配的存在,以及不匹配的类型。所述一组上下文可以包括围绕所述质量值中的一个或多个质量值的参考序列中的多个碱基。所述一组上下文可以包括一个或多个基因组坐标处的多个碱基的平均质量值。所述一组上下文可以包括使用映射到相同基因组坐标的读段的堆积来测量的当前和附近碱基处的错误。操作(d)可以包括:基于一个或多个准则来选择所述一组上下文,其中,所述一个或多个准则包括:数据集类型、数据集大小、上下文大小、上下文的预测能力或要压缩的数据量。
附图说明
[0008]附图连同下面的详细描述一起并入说明书中并形成说明书的部分,并且用于说明在权利要求中找到的构思的示例实施例,并且解读这些实施例的各种原理和优点,在附图中,相同的附图标记在各幅视图中指代完全相同或功能相似的元件。
[0009]参考附图,在下面的说明中更全面地公开了这些和其他更详细且具体的特征,在附图中:
[0010]图1图示了序列比对图文件的示例;
[0011]图2图示了具有对应的质量值的比对的基因组数据的示例;
[0012]图3图示了具有对应的质量值的比对的基因组数据的示例;
[0013]图4图示了用于压缩基因组数据的方法的实施例;
[0014]图5图示了用于压缩基因组数据的方法的实施例;
[0015]图6图示了用于基因组数据的算术编码器的实施例;并且
[0016]图7图示了用于压缩基因组数据的系统的实施例。
具体实施方式
[0017]应当理解,这些附图仅仅是示意性的且并未按比例绘制。还应当理解,在整个附图中,使用相同的附图标记来指示相同或相似的部分。
[0018]说明书和附图说明了各种示例实施例的原理。因此,将意识到,本领域技术人员将能够设计出如下的各种布置,所述各种布置虽然在本文中未明确描述或示出,但是体现了本专利技术的原理并且被包括在本专利技术的范围内。此外,在本文中记载的所有示例主要是明确旨在用于教学目的以帮助读者理解专利技术的原理和由(一个或多个)专利技术人对本领域进一步做出贡献的构思,并且被解释为不限于这样的具体记载的示例和条件。另外,如在本文中所使用的术语“或”是指非排他性的或(即,和/或),除非另有说明(例如,“或否则”或“或者在替代方案中”)。而且,本文描述的各种示例实施例不一定是相互排斥的,因为一些示例实施例能够与一个或多个其他示例实施例组合以形成新的示例实施例。诸如“第一”、“第二”、“第三”等描述符并不意味着限制所讨论的元件的顺序,而是用于彼此区分这些元件,并且通常是可互换的。可以预先确定诸如最大值或最小值之类的值并且基于应用将这些值设置为不同的值。
[0019]用于对基因组数据进行测序的两个平台是:(i)Illumina测序和(ii)牛津纳米孔(ONT)测序。Illumina测序提供了高通量、固定长度和短读取测序,其具有非常低的错误率
(<1%

大部分是替换)。ONT测序提供实时、可变长度和长读取测序,其具有很高的错误率(10

15%

插入、缺失和替换)。
[0020]从实施上述平台之一或两者的测序器获得的原始测序数据可以与参考基因组比对以用于进一步分析,诸如变体调用。比对使用标准工具来执行,所述标准工具尝试依据诸如汉明距离或编辑距离的相似性度量找到基因组中与每个测序读段最相似的部分。典型的比对工具包括针对短读取Illumina测序数据的bwa和针对纳米孔测序数据的minimap2。这两个比对器都使用索引策略,以实现与基因组中测序读段的匹配的快速搜索。
[0021]比对的基因组数据可以使用序列比对图(SAM)格式的文件(或其压缩的表示)来表示。图1图示了SAM文件的示例。该文件包括关于读段中的核碱基(A/C/G/T)的序列、比对的位置、比对期间的替换/插入/缺失以及相关联的质量值的信息。质量值可以例如表示为ASCII字符,但可以等效地视为表示对数尺度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于压缩信息的方法,包括:(a)访问基因组测序数据的读段;(b)将所述读段与参考进行比对;(c)基于所述读段的比对来生成比对数据;(d)基于所述比对数据来获得一组一个或多个上下文;(e)基于所述一组上下文来压缩与所述比对数据相对应的质量值,其中,所述比对数据提供对所述基因组测序数据中的错误的指示,并且其中,所述质量值中的每个质量值提供对所述基因组测序数据中的一个或多个碱基处的错误的概率的指示。2.根据权利要求1所述的方法,其中,经比对的基因组测序数据在(e)中基于根据计数的自适应算术编码被压缩。3.根据权利要求1所述的方法,其中,经比对的基因组测序数据在(e)中基于根据神经网络预测的算术编码被压缩。4.根据权利要求1所述的方法,其中,经比对的基因组测序数据在(e)中基于算术编码被压缩,其中,算术编码模式和训练流程是基于一个或多个准则来选择的,其中,所述一个或多个准则包括:数据大小、预测能力、处理效率、训练数据的可用性或与其他系统或用途的兼容性。5.根据权利要求1所述的方法,其中,所述一组上下文包括所述读段与参考碱基之间的匹配。6.根据权利要求1所述的方法,其中,所述一组上下文包括以下各项中的至少一项:不匹配的存在和不匹配的类型。7.根据权利要求1所述的方法,其中,所述一组上下文包括围绕所述质量值中的一个或多个质量值的参考序列中的若干碱基。8.根据权利要求1所述的方法,其中,所述一组上下文包括跨当前或附近的基因组坐标处的多个碱基的平均质量值。9.根据权利要求1所述的方法,其中,所述一组上下文包括使用映射到相同基因组坐标的读段的堆积来测量的当前和附近的错误。10.根据权利要求1所述的方法,其中,(d)包括:基于一个或多个准则来选择所述一组上下文,其中,所述一个或多个准则包括:数据集类型、数据集大小、上下文大小、上下文的预测能力或要压缩的数据的量。11.一种用于压缩信息的系统,包括:存储器,其被配置为存储指令;以及处理器,其被配...

【专利技术属性】
技术研发人员:S
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1