【技术实现步骤摘要】
【国外来华专利技术】通过基于可配置机器学习的算术编码进行的基因组信息压缩
[0001]本文公开的各种示例性实施例总体上涉及用于MPEG
‑
G的上下文选择、模型训练和基于机器学习的算术编码的可扩展框架的系统和方法。
[0002]背景领域
[0003]高通量测序已经使得以不断降低的成本扫描遗传物质成为可能,从而使得遗传数据量不断增加,并且需要有效地压缩这些数据,但是优选地以与设想的用途相兼容的方式来有效地压缩这些数据。应用发生在例如医学(疾病检测)和人口监测(例如,SARS
‑
COV
‑
2检测)、法医学等领域中。
[0004]由于DNA(脱氧核糖核酸)和RNA(核糖核酸)仅由4种不同的核酸碱基组成(针对DNA分别为胞嘧啶[C]、鸟嘌呤[G]、腺嘌呤[A]和胸腺嘧啶[T],而针对RNA分别为腺嘌呤、胞嘧啶、鸟嘌呤和尿嘧啶[U]),人们可能天真地认为编码会很容易。然而,遗传信息以新的不同形式出现。例如,原始数据可能来自不同的测序技术(例如,第二代测序vs长读段测序),这引起不同长度的阅读,但也具有不同的碱基调用确定性,碱基调用确定性作为质量信息(如质量分数)被添加到一个或多个碱基序列中,质量信息也必须被编码。此外,在DNA的下游分析中,可以生成关于DNA的性质的信息,例如,与参考序列相比的差异。然后,人们能够注释,例如,与参照相比,一个或多个碱基缺失。已知单核苷酸变体可能导致疾病或某种其他遗传决定的性质,并且能够以某种方式注释这种情况,使得编码数据的另一用户能够容易地找到该信息。表观 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于对基因组信息的MPEG
‑
G编码数据进行解码的方法,包括:接收MPEG
‑
G编码数据;从所述编码数据中提取编码参数;基于所提取的编码参数来选择算术解码类型;基于所提取的编码参数来选择预测器类型,所述预测器类型指定用于获得用于对所述数据进行算术编码的符号的概率的方法;基于所提取的编码参数来选择算术编码上下文;并且使用所选择的预测器和所选择的算术编码上下文对所述编码数据进行解码。2.根据权利要求1所述的方法,其中,所述算术编码类型是二进制编码和多符号编码中的一项。3.根据权利要求1所述的方法,其中,所述预测器类型是基于计数的类型或机器学习模型类型中的一项。4.根据权利要求3所述的方法,其中,当所述预测器类型识别机器学习模型时,并且其中,所述编码参数还包括所述机器学习模型的定义。5.根据权利要求1所述的方法,其中,所提取的编码参数包括训练模式数据,所述训练模式数据指定用于预测被算术编码的符号的概率的模型在所述解码中如何随时间变化。6.根据权利要求5所述的方法,其中,所述训练模式数据包括初始化类型,所述初始化类型包括静态训练模式、半自适应训练模式和自适应训练模式中的一项。7.根据权利要求5所述的方法,其中,所述训练模式数据包括训练算法定义、训练算法参数、训练频率和训练时期中的一项。8.根据权利要求1所述的方法,其中,所提取的编码参数包括上下文数据。9.根据权利要求8所述的方法,其中,所述上下文数据包括编码顺序、使用的额外上下文的数量、上下文类型和范围中的一项。10.根据权利要求8所述的方法,其中,所述上下文数据包括范围标志。11.根据权利要求8所述的方法,其中,所述上下文数据包括上下文描述符、上下文输出变量、上下文内部变量、上下文计算变量和上下文计算函数中的一项。12.一种用于对MPEG
‑
G编码数据进行编码的方法,包括:接收要用于对数据进行编码的编码参数,其中,编码参数指定要如何对未编码的基因组信息进行编码;基于所接收的编码参数来选择算术编码类型;基于所接收的编码参数来选择预测器类型,所述预测器类型指定用于获得用于对所述数据进行算术编码的符号的概率的方法;基于所接收的编码参数来选择训练模式;基于所接收的编码参数来选择算术编码上下文;基于所接收的编码参数来训练编码器;并且使用经训练的编码器对所述数据进行编码。13.根据权利要求12所述的方法,其中,所述算术编码类型是二进制编码和多符号编码中的一项。14.根据权利要求12所述的方法,其中,所述预测器类型是基于计数的类型或机器学习
模型类型中的一项。15.根据权利要求14所述的方法,其中,当所述预测器类型识别机器学习模型时,所述编码参数还包括所述机器学习模型的定义。16.根据权利要求12所述的方法,其中,所提取的编码参数包括训练模式数据。17.根据权利要求16所述的方法,其中,所述训练模式数据包括初始化类型,所述初始化类型包括静态训练模式、半自适应训练模式和自适应训练模式中的一项。18.根据权利要求16所述的方法,其中,所述训练模式数据包括训练算法定义、训练算法参数、训练频率和训练时期中的一项。19.根据权利要求12所述的方法,其中,所提取的编码参数包括上下文数据。20.根据权利要求19所述的方法,其中,所述上下文数据包括编码顺序、使用的额外上下文的数量、上下文类型和范围中的一项。21.根据权利要求19所述的方法,其中,所述上下文数据包括范围标志。22.根据权利要求19所述的方法,其中,所述上下文数据包括上下文描述符、上下文输出变量、上下文内部变量、上下文计算变量和上下文计算函数中的一项。23.一种用于对MPEG
‑
G编码数据进行解码的系统,包括:存储器;处理器,其被耦合到所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。