一种文本二次压缩方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:33656202 阅读:24 留言:0更新日期:2022-06-02 20:36
本申请提供了一种文本二次压缩方法、装置、设备及计算机可读存储介质,将文本文件通过分词词典表示成对应的编码数序列;通过预训练模型将编码数序列压缩成表示文本文件语义的第一数字序列;基于第一数字序列的相似性,预测第一数字序列中目标预测数字的出现概率;针对出现概率的概率分布,通过算术编码算法对第一数字序列进行二次压缩。通过本申请方案的实施,将文本文件预处理之后,通过预训练模型将该文本文件压缩成表示语义的数字序列,预训练模型表示语义的简洁性实现了第一次压缩,并通过数字预测算法进行二次压缩。语义表示的紧凑形式和数字预测两种压缩结合,能够获得更高的压缩比率。的压缩比率。的压缩比率。

【技术实现步骤摘要】
一种文本二次压缩方法、装置、设备及计算机可读存储介质


[0001]本申请涉及电子
,尤其涉及一种文本二次压缩方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]传统的数据压缩方法,利用字符出现概率的不均衡,出现概率高的字符进行长编码,概率低的字符进行短编码,达到整个文件的压缩。一般来说,一个文件中字符出现的次序包含了更深刻的含义,字符级别的频率统计压缩极大地限制了压缩的比率。

技术实现思路

[0003]本申请实施例提供了一种文本二次压缩方法、装置、设备及计算机可读存储介质,至少能够解决相关技中基于字符统计频率压缩的压缩比例限制。
[0004]本申请实施例第一方面提供了一种文本二次压缩方法,包括:
[0005]将文本文件通过分词词典表示成对应的编码数序列;
[0006]通过所述预训练模型将所述编码数序列压缩成表示所述文本文件语义的第一数字序列;
[0007]基于所述第一数字序列的相似性,预测所述第一数字序列中目标预测数字的出现概率;
[0008]针对所述出现概率的概率分布,通过算术编码算法对所述第一数字序列进行二次压缩。
[0009]本申请实施例第二方面提供了一种文本二次压缩装置,包括:
[0010]编码模块,用于将文本文件通过分词词典表示成对应的编码数序列;
[0011]第一压缩模块,用于将所述编码数序列输入至所述预训练模型,并压缩成表示所述文本文件语义的第一数字序列;
[0012]预测模块,用于基于所述第一数字序列的相似性,预测所述第一数字序列中目标预测数字的出现概率;
[0013]第二压缩模块,用于针对所述出现概率的概率分布,通过算术编码算法对所述第一数字序列进行二次压缩。
[0014]本申请实施例第三方面提供了一种电子设备,其特征在于,包括存储器及处理器,其中,所述处理器用于执行存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时上述本申请实施例第一方面提供的文本二次压缩方法中的各步骤。
[0015]本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现上述本申请实施例第一方面提供的文本二次压缩方法中的各步骤。
[0016]由上可见,根据本申请方案所提供的方法、装置、设备及计算机可读存储介质,将文本文件通过分词词典表示成对应的编码数序列;通过所述预训练模型将所述编码数序列
压缩成表示所述文本文件语义的第一数字序列;基于所述第一数字序列的相似性,预测所述第一数字序列中目标预测数字的出现概率;针对所述出现概率的概率分布,通过算术编码算法对所述第一数字序列进行二次压缩。通过本申请方案的实施,将文本文件预处理之后,通过预训练模型将该文本文件压缩成表示语义的数字序列,预训练模型表示语义的简洁性实现了第一次压缩,并通过数字预测算法进行二次压缩。语义表示的紧凑形式和数字预测两种压缩结合,能够获得更高的压缩比率。
附图说明
[0017]图1为本申请第一实施例提供的文本二次压缩方法的基本流程示意图;
[0018]图2为本申请第一实施例提供的BERT模型语义表示的流程示意图;
[0019]图3为本申请第一实施例提供的算术解码的流程示意图
[0020]图4为本申请第一实施例提供的BERT模型语义解码的流程示意图;
[0021]图5为本申请第二实施例提供的应用于文本二次压缩系统的文本二次压缩方法的细化流程示意图;
[0022]图6为本申请第三实施例提供的文本二次压缩装置的程序模块示意图;
[0023]图7为本申请第四实施例提供的电子设备的结构示意图。
具体实施方式
[0024]为使得本申请的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]为了解决相关技术中字符级别的压缩极大地限制了压缩比率问题,本申请第一实施例提供了一种文本二次压缩方法,如图1为本实施例提供的文本二次压缩方法的基本流程图,该文本二次压缩方法包括以下的步骤:
[0026]步骤101、将文本文件通过分词词典表示成对应的编码数序列。
[0027]具体的,现有技术对文本的压缩通常是直接压缩文本字符利用字符出现概率的不均衡,出现概率高的字符进行长编码,概率低的字符进行短编码,达到整个文件的压缩。在本实施例中,在对文本文件压缩之前,先将文本文件进行预处理,主要是将文本编码为预训练模型可以处理的数值形式,包括中文词典构建,文本分词处理,文本编码,通过预处理之后,文本表示为数字序列,能够被应用于预训练模型的输入,然后通过预训练模型将文本表示为语义矢量形式。
[0028]在本实施例一种可选的实施方式中,将文本文件通过分词词典表示成对应的编码数序列的步骤,包括:将文本文件中可能出现的词按顺序编码成词典;根据词典对文本文件进行分词;通过查找分词后各词在词典的编号,获取文本文件的编码数序列。
[0029]具体的,在本实施例中,对于文本文件的预处理,首先把中文文本中可能出现的词,编码成一个词典,并按顺序编码,词典的总长度为N。比如{1,出现;2,包含;3,的;4,中;5,了;6,更;7,深刻的;8,一个;9,字符;10,含义;11,次序;12,文件;13,压缩;

};其次,根据构建的词典,对需要压缩的文本进行分词,可以采用开源的分词器,比如Hanlp,jieba等
分词器。比如需要压缩

一个文件中字符出现的次序包含了更深刻的含义

,进行分词后得到

一个|文件|中|字符|出现|的|次序|包含|了|更|深刻的|含义

;最后,把分词后的句子编码为一个数值向量,句子中每个分词从词典中查找对应的编号。比如分词

一个|文件|中|字符|出现|的|次序|包含|了|更|深刻的|含义

编码得到[8,12,4,9,1,3,11,2,5,6,7,10],对于要压缩的中文文本文件,把整个文本进行分词,查找各个词对应词典的编号,得到整个文本的编码数序列值向量,长度为H,要压缩的文本的编码数序列为S=(S1,S2,....,S
H
)。
[0030]步骤102、通过预训练模型将编码数序列压缩成表示文本文件语义的第一数字序列。
[0031]具体的,在本实施例中,预训练模型可以采用BERT模型,也可以采用ERNIE模型和更大的T5模型,预训练模型BERT(Bidirectional Encoder Representation from Transformers,变压器的双向编码标识),通过大量的文本进行训练,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本二次压缩方法,其特征在于,包括:将文本文件通过分词词典表示成对应的编码数序列;通过所述预训练模型将所述编码数序列压缩成表示所述文本文件语义的第一数字序列;基于所述第一数字序列的相似性,预测所述第一数字序列中目标预测数字的出现概率;针对所述出现概率的概率分布,通过算术编码算法对所述第一数字序列进行二次压缩。2.根据权利要求1所述的文本二次压缩方法,其特征在于,所述将文本文件通过分词词典表示成对应的编码数序列的步骤,包括:将文本文件中可能出现的词按顺序编码成词典;根据所述词典对所述文本文件进行分词;通过查找分词后各词在所述词典的编号,获取所述文本文件的编码数序列。3.根据权利要求2所述的文本二次压缩方法,其特征在于,所述通过所述预训练模型将所述编码数序列压缩成表示所述文本文件语义的第一数字序列的步骤,包括:在获取所述编码数序列之后,控制所述预训练模型对所述编码数序列添加占位符;将所述编码数序列中对应所述编号转换成预设数字长度的矢量;其中,所述占位符对应的所述矢量为所述编号的表示矢量;通过拼接各所述表示矢量获取表示所述文本文件语义的第一数字序列。4.根据权利要求1所述的文本二次压缩方法,其特征在于,所述基于所述第一数字序列的相似性,预测所述第一数字序列中目标预测数字的出现概率的步骤之后,还包括:根据完成预测的第二数字序列创建所述第二数字序列中数字出现的频次表;通过所述频次表更新所述出现概率。5.根据权利要求1所述的文本二次压缩方法,其特征在于,所述通过算术编码算法对所述第一数字序列进行二次压缩的步骤,包括:根据所述概率分布确定所述第一数字序列中待编码数序列值以及对应的概率区间;基于二进制转换,选择所述概率区间中最小整数为所述待编码数序列值的算术编码值;通过对所有所述算术编码值进行拼接完成所述第...

【专利技术属性】
技术研发人员:刘知胜黄泼罗桦槟肖佳威
申请(专利权)人:深圳市领存技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1