序列数据压缩方法技术

技术编号:36740340 阅读:11 留言:0更新日期:2023-03-04 10:16
本申请公开了一种序列数据压缩方法,包括:获取碱基序列,碱基序列包括第一碱基子序列和第二碱基子序列;通过训练后的概率模型编码第一碱基子序列,得到第一中间数据;通过训练后的神经网络模型编码第二碱基子序列,得到第二中间数据;通过预设编码器编码第一中间数据和第二中间数据,得到碱基序列的压缩数据。本申请提高压缩效率。本申请提高压缩效率。本申请提高压缩效率。

【技术实现步骤摘要】
序列数据压缩方法


[0001]本申请涉及生物信息
,尤其涉及一种序列数据压缩处理方法、一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]基因测序技术飞速发展,基因测序成本在不断地降低,数据产出速度不断地增加。随着基因诊断的普及和精准医学大规模应用,基因测序数据需求量急剧增加,其存储成本正急剧增长,远远超过了存储硬件价格的下降。基因测序公司、科研机构、医院日常测序数据的存储和传输都对数据压缩有重大需求。例如,百万中国人基因数据库、中国10万人基因组计划、福建厦门的基因大数据项目、江苏扬子国投的百万人群基因组项目等产生的基因序列数据都需要依赖高效的压缩方案。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]本申请第一方面实施例提出了一种序列数据压缩方法,所述方法包括以下步骤:获取碱基序列,碱基序列包括第一碱基子序列和第二碱基子序列;通过训练后的概率模型编码第一碱基子序列,得到第一中间数据;通过训练后的神经网络模型编码第二碱基子序列,得到第二中间数据;通过预设编码器编码第一中间数据和第二中间数据,得到碱基序列的压缩数据。
[0005]本申请第二方面实施例提出了一种序列数据压缩方法,方法包括以下步骤:获取待压缩基因序列;将待压缩基因序列划分为多个碱基序列,每个碱基序列包括第一碱基子序列和第二碱基子序列;通过训练后的概率模型编码多个碱基序列的第一碱基子序列,得到多个碱基序列的第一碱基子序列对应的第一中间数据;通过训练后的神经网络模型编码多个碱基序列的第二碱基子序列,得到多个碱基序列的第二碱基子序列对应的第二中间数据;通过预设编码器编码多个碱基序列的第一中间数据和多个碱基序列的第二中间数据,得到多个碱基序列的压缩数据。
[0006]本申请第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述的序列数据压缩方法。
[0007]本申请第四方面实施例提出的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的序列数据压缩方法。
[0008]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0009]图1为根据本申请一个实施例的序列数据压缩方法的示意图;
[0010]图2A为传统概率模型的预测示意图;
[0011]图2B为本申请一个实施例的神经网络结构示意图;
[0012]图3为根据本申请实施例的分类层输出多碱基示意图;
[0013]图4A、4B为根据本申请实施例的碱基编码示意图;
[0014]图5为根据本申请实施例的电子设备的方框示意图。
具体实施方式
[0015]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0016]下面参考附图描述本申请实施例提出的序列数据压缩方法、电子设备和计算机可读存储介质。
[0017]普通压缩方法或者早期针对一定生物学特性设计的基因片段压缩方法对大规模基因组数据压缩的效果不理想。压缩方法可以针对基因序列本身的冗余数据进行压缩,压缩率一般都比较有限,无法满足高通量测序数据存储和传输的实际需求;而且压缩方法种类繁多,特点各异,扩展性、稳定性等方面都没有保障。
[0018]本申请提出了一种基于神经网络的、可调节编码步长的序列数据压缩方法。该方法基于神经网络,能够充分利用序列数据的上下文信息,在一次GPU前向运算过程中输出多个碱基的概率分布,结合算术编码器,实现对序列数据进行高效压缩。本申请同时提出了与压缩适配的解码器部分。本申请实施例可以提高压缩效果,建立统一的基因数据压缩标准,调节步长预测,串行提高效率。
[0019]本申请的序列数据压缩方法,在编码过程中,将待压缩基因序列划分为多个待压缩碱基序列,使GPU可以并行处理多个待压缩碱基序列。每个待压缩碱基序列分为第一碱基子序列(也称初始上下文部分)和第二碱基子序列(也称待神经网络预测部分),并分别通过不同的模型对碱基子序列进行概率预测。
[0020]可选地初始上下文部分在神经网络预测部分之前,待神经网络预测部分在初始上下文部分之后。在初始上下文部分之前的碱基序列可以为未知状态,而神经网络模型对初始上下文进行碱基序列预测需要初始上下文部分的上下文。故通过传统概率模型(即概率模型) 对初始上下文部分进行预测,以对初始上下文部分进行编码、压缩;通过神经网络模型对待神经网络预测部分进行预测,以对初始上下文进行编码、压缩。
[0021]可选地,待神经网络预测部分相对于初始上下文部分包括更多的碱基。
[0022]如图1所示,为根据本申请一个实施例的序列数据压缩方法的示意图。通过传统概率模型(例如马尔科夫模型)预测初始上下文部分各个碱基的概率,可以通过统计的方式获得马尔科夫模型对应的状态转移矩阵并作为马尔科夫模型的一部分记录存储。通过神经网络模型对待神经网络预测部分的概率分布进行预测,在依次预测待神经网络预测部分的碱基时,需要迭代更新相应碱基的上下文;该过程需要在GPU中进行神经网络前馈运算,较为耗时,同时也是是编解码过程中主要时间开销部分。本申请通过将神经网络模型设计为多步长神经网络模型,提升预测通量,使得编码过程中能够同时预测多个碱基,增加了串行处理效率。图1中的四个待压缩碱基序列可以并行输入传统概率模型和神经网络模型中进行
预测编码,经过算术编码器进行熵编码后,得到四个独立的码流文件,最终合并为压缩文件。
[0023]如图2A所示,为传统概率模型的预测示意图。在使用传统概率模型前,需要用训练基因序列对传统概率模型进行训练,其中,训练基因序列对应的物种与待压缩基因序列对应的物种相同。
[0024]在本申请的一个实施例中,对于n阶马尔科夫模型,可以统计包含n个字符的各个状态之间的转移概率,将给定状态的下一个状态作为该次状态转移的标签。例如从碱基序列 AT转移至碱基序列TT,即AT

>TT,TT为该次转移中的标签);
[0025]下面将描述多步长神经网络模型的具体设计。
[0026]如图2B所示,为本申请一个实施例的神经网络结构示意图。多步长神经网络模型可以包括数据层、特征层以及分类层,特征层包括用于提取局部序列特征的一维卷积层、用于提取长时序特征的长短期记忆层,分类层用于输出概率分布。分类层可以根据预设步长输出多个碱基的预测概率分布。
[0027]由于需要针对不同步长的神经网络模型分别进行训练,得到能够输出不同步长的网络,在步长设置粒度较小,选项较多时,需要在编解码端耗费大量存储空间用于存储网络模型;因此在训练过程中可以固定特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种序列数据压缩方法,其特征在于,所述方法包括以下步骤:获取碱基序列,所述碱基序列包括第一碱基子序列和第二碱基子序列;通过训练后的概率模型编码所述第一碱基子序列,得到第一中间数据;通过训练后的神经网络模型编码所述第二碱基子序列,得到第二中间数据;通过预设编码器编码所述第一中间数据和所述第二中间数据,得到碱基序列的压缩数据。2.根据权利要求1所述的序列数据压缩方法,其特征在于,所述神经网络模型,包括:卷积层、长短期记忆层、多个分类层。3.根据权利要求2所述的序列数据压缩方法,其特征在于,所述通过训练后的神经网络模型编码所述第二碱基子序列,得到第二中间数据包括:根据滑动步长从所述多个分类层中确定目标分类层;通过所述卷积层、所述长短期记忆层和所述目标分类层对第二碱基子序列进行编码,得到第二中间数据。4.根据权利要求1所述的序列数据压缩方法,其特征在于,与所述序列数据压缩方法对应的解压方法包括:通过所述预设编码器对应的预设解码器对所述压缩数据进行解码,得到所述碱基序列。5.一种序列数据压缩方法,其特征在于,所述方法包括以下步骤:获取待压缩基因序列;将所述待压缩基因序列划分为多个碱基序列,每个碱基序列包括第一碱基子序列和第二碱基子序列;通过训练后的概率模型编码所述多个碱基序列的第一碱基子序列,得到所述多个碱基序列的第一碱...

【专利技术属性】
技术研发人员:杨梦张楚文
申请(专利权)人:深圳华大智造科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1