通过基于可配置机器学习的算术编码进行的基因组信息压缩制造技术

技术编号:37363400 阅读:26 留言:0更新日期:2023-04-27 07:11
一种用于对基因组信息的MPEG

【技术实现步骤摘要】
【国外来华专利技术】通过基于可配置机器学习的算术编码进行的基因组信息压缩


[0001]本文公开的各种示例性实施例总体上涉及用于MPEG

G的上下文选择、模型训练和基于机器学习的算术编码的可扩展框架的系统和方法。
[0002]背景领域
[0003]高通量测序已经使得以不断降低的成本扫描遗传物质成为可能,从而使得遗传数据量不断增加,并且需要有效地压缩这些数据,但是优选地以与设想的用途相兼容的方式来有效地压缩这些数据。应用发生在例如医学(疾病检测)和人口监测(例如,SARS

COV

2检测)、法医学等领域中。
[0004]由于DNA(脱氧核糖核酸)和RNA(核糖核酸)仅由4种不同的核酸碱基组成(针对DNA分别为胞嘧啶[C]、鸟嘌呤[G]、腺嘌呤[A]和胸腺嘧啶[T],而针对RNA分别为腺嘌呤、胞嘧啶、鸟嘌呤和尿嘧啶[U]),人们可能天真地认为编码会很容易。然而,遗传信息以新的不同形式出现。例如,原始数据可能来自不同的测序技术(例如,第二代测序vs长读段测序),这引起不同长度的阅读,但也具有不同的碱基调用确定性,碱基调用确定性作为质量信息(如质量分数)被添加到一个或多个碱基序列中,质量信息也必须被编码。此外,在DNA的下游分析中,可以生成关于DNA的性质的信息,例如,与参考序列相比的差异。然后,人们能够注释,例如,与参照相比,一个或多个碱基缺失。已知单核苷酸变体可能导致疾病或某种其他遗传决定的性质,并且能够以某种方式注释这种情况,使得编码数据的另一用户能够容易地找到该信息。表观遗传学(其研究对DNA序列的外部修饰)同样产生大量的额外数据,如甲基化、揭示细胞中的染色质的空间组织形式的染色体接触矩阵等。所有这些应用在未来都将创建丰富的数据集,这些数据集需要强大的编码技术。
[0005]MPEG

G是移动图像专家组最近的一项倡议,其旨在基于对用户的各种需求的彻底辩论来实现对遗传信息的通用表示。当前使用上下文自适应二进制算术编码(CABAC)作为用于MPEG

G中的描述符压缩的熵编码机制。然而,在大多数案例中,当前标准仅允许先前的符号作为上下文。

技术实现思路

[0006]下文呈现了对各种示例性实施例的概述。在下面的概述中可以进行一些简化和省略,这旨在突出和介绍各种示例性实施例的一些方面,而并不旨在限制本专利技术的范围。在后面的章节中将详细描述足以允许本领域普通技术人员实践和使用本专利技术构思的示例性实施例。
[0007]各种实施例涉及一种用于对MPEG

G编码数据进行解码的方法,包括:接收MPEG

G编码数据;从所述编码数据中提取编码参数;基于所提取的编码参数来选择算术编码类型;基于所提取的编码参数来选择预测器类型;基于所提取的编码参数来选择上下文;并且使用所选择的预测器和所选择的上下文对所述编码数据进行解码。编码参数的技术元素包括接收解码器以确定其解码过程所需的参数,并且特别地可以包括控制对各种替代解码算法的选择或配置的参数。编码数据可以特指算术编码数据。算术编码基于符号(例如,A、T、C、
G)的出现概率将这些符号的序列映射到范围[0.0

1.0]内的区间。基于概率的编码的一个性质是:能够通过在编码的比特串中给不太可能出现的符号较多的比特并且给更可能出现的符号较少的比特来优化所需的比特量,即,使用概率估计来指导这个原理。概率能够随时间(即,在运行解码过程期间)变化。上下文自适应算术编码能够基于对不同情况(即,不同上下文)的识别来进一步优化概率(当使用词语上下文时,我们在算术编码的意义上表示它,即,算术编码上下文)。常规地,上下文由先前解码的符号的结果形成。例如,如果对于先前的碱基发现了一组低质量分数,则可以合理地假定:对于当前的阅读碱基,阅读仍然不是非常确定的,即,在基因组信息中它也将具有低质量分数。因此,可以将低分数值的概率设置为高,其中,高分数值指示关于当前碱基的高确定性。然而,根据本专利技术人,可以定义更多不同的上下文,这些上下文也能够考虑其他数据,例如,除了质量分数之外的其他量的解码值,如当前正被解码的染色体的基因组位置。
[0008]算术编码类型向解码器指定(如在传送的编码MPEG

G数据信号中存在的编码参数中传送的)生成编码数据的编码器使用了数据的各种可能的算术编码方式的类型。描述了各种实施例,其中,算术编码类型是二进制编码和多符号编码中的一项。在多符号编码中,定义了在未编码信号中会遇到的符号的字母表。例如,对于DNA核酸碱基,这些符号可以包含针对肯定的阅读碱基的符号(例如,针对胸腺嘧啶的T)或者针对不肯定的阅读碱基的符号,并且对于质量分数,能够定义一组针对分数的量化值。在二进制算术编码中,作为预处理步骤,通过选择的二进制化方案将这N个字母符号变换成二进制数,例如,N个符号能够由一组递增的二进制一后跟一个零来表示,例如,T=0,C=10,G=110,A=1110。
[0009]本专利技术人还发现,在与更好的上下文的选择和传送一起或分开的情况下,还可以通过选择若干不同预测器类型中的一种预测器类型来进行优化,例如通过modelType参数来进行优化,该modelType参数指示正在使用的预测器是基于计数的类型还是机器学习模型类型中的一项(例如,特定的神经网络(正被传送的拓扑和/或优化权重)),以基于正在使用的任何上下文来预测各种符号的固定或不断变化的概率。这些内容能够用作针对神经网络的输入,或者选择若干替代神经网络中的一个神经网络,或者影响神经网络的性质。替代地,可以使用其他机器学习技术来预测概率,即,形成预测器模型或类型。因此,预测器类型能够指示主要类型(神经网络vs常规的基于计数的概率重新估计)以及具有更多细节的子类型(特别是对于神经网络)。
[0010]描述了各种实施例,其中,当所述预测器类型识别机器学习模型时,所述编码参数还包括所述机器学习模型的定义。通过传送定义机器学习模型的参数(例如,指定拓扑(如具有隐藏层的连接、针对连接的固定或初始权重等)的参数,编码器能够选择一个非常好的模型并将其传送给解码器,解码器然后能够在开始对传入的编码数据进行解码前配置该模型。编码数据信号中的参数也可以重复重置或重新配置该模型。
[0011]描述了各种实施例,其中,所提取的编码参数包括训练模式数据。训练模式是指模型将如何动态地调整自身以适应变化的数据(即,训练自身以适应如在编码数据中所使用的原始未编码数据的变化的概率),或者保持相对固定(例如,具有权重的神经网络,该权重由编码器针对整个数据集优化一次并且被传送到解码器以在整个解码期间使用)。例如,可以在前2000个符号上在外部处理环中训练神经网络,然后在对第2001个编码比特进行解码前替换新的最优权重。
[0012]描述了各种实施例,其中,所述训练模式数据包括初始化类型,所述初始化类型包括静态训练模式、半自适应训练模式和自适应训练模式中的一项。静态模式的典型示例可以是存在标准预定义模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对基因组信息的MPEG

G编码数据进行解码的方法,包括:接收MPEG

G编码数据;从所述编码数据中提取编码参数;基于所提取的编码参数来选择算术解码类型;基于所提取的编码参数来选择预测器类型,所述预测器类型指定用于获得用于对所述数据进行算术编码的符号的概率的方法;基于所提取的编码参数来选择算术编码上下文;并且使用所选择的预测器和所选择的算术编码上下文对所述编码数据进行解码。2.根据权利要求1所述的方法,其中,所述算术编码类型是二进制编码和多符号编码中的一项。3.根据权利要求1所述的方法,其中,所述预测器类型是基于计数的类型或机器学习模型类型中的一项。4.根据权利要求3所述的方法,其中,当所述预测器类型识别机器学习模型时,并且其中,所述编码参数还包括所述机器学习模型的定义。5.根据权利要求1所述的方法,其中,所提取的编码参数包括训练模式数据,所述训练模式数据指定用于预测被算术编码的符号的概率的模型在所述解码中如何随时间变化。6.根据权利要求5所述的方法,其中,所述训练模式数据包括初始化类型,所述初始化类型包括静态训练模式、半自适应训练模式和自适应训练模式中的一项。7.根据权利要求5所述的方法,其中,所述训练模式数据包括训练算法定义、训练算法参数、训练频率和训练时期中的一项。8.根据权利要求1所述的方法,其中,所提取的编码参数包括上下文数据。9.根据权利要求8所述的方法,其中,所述上下文数据包括编码顺序、使用的额外上下文的数量、上下文类型和范围中的一项。10.根据权利要求8所述的方法,其中,所述上下文数据包括范围标志。11.根据权利要求8所述的方法,其中,所述上下文数据包括上下文描述符、上下文输出变量、上下文内部变量、上下文计算变量和上下文计算函数中的一项。12.一种用于对MPEG

G编码数据进行编码的方法,包括:接收要用于对数据进行编码的编码参数,其中,编码参数指定要如何对未编码的基因组信息进行编码;基于所接收的编码参数来选择算术编码类型;基于所接收的编码参数来选择预测器类型,所述预测器类型指定用于获得用于对所述数据进行算术编码的符号的概率的方法;基于所接收的编码参数来选择训练模式;基于所接收的编码参数来选择算术编码上下文;基于所接收的编码参数来训练编码器;并且使用经训练的编码器对所述数据进行编码。13.根据权利要求12所述的方法,其中,所述算术编码类型是二进制编码和多符号编码中的一项。14.根据权利要求12所述的方法,其中,所述预测器类型是基于计数的类型或机器学习
模型类型中的一项。15.根据权利要求14所述的方法,其中,当所述预测器类型识别机器学习模型时,所述编码参数还包括所述机器学习模型的定义。16.根据权利要求12所述的方法,其中,所提取的编码参数包括训练模式数据。17.根据权利要求16所述的方法,其中,所述训练模式数据包括初始化类型,所述初始化类型包括静态训练模式、半自适应训练模式和自适应训练模式中的一项。18.根据权利要求16所述的方法,其中,所述训练模式数据包括训练算法定义、训练算法参数、训练频率和训练时期中的一项。19.根据权利要求12所述的方法,其中,所提取的编码参数包括上下文数据。20.根据权利要求19所述的方法,其中,所述上下文数据包括编码顺序、使用的额外上下文的数量、上下文类型和范围中的一项。21.根据权利要求19所述的方法,其中,所述上下文数据包括范围标志。22.根据权利要求19所述的方法,其中,所述上下文数据包括上下文描述符、上下文输出变量、上下文内部变量、上下文计算变量和上下文计算函数中的一项。23.一种用于对MPEG

G编码数据进行解码的系统,包括:存储器;处理器,其被耦合到所...

【专利技术属性】
技术研发人员:S
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1