一种文本二次压缩方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：33656202 阅读：24 留言：0更新日期：2022-06-02 20:36

本申请提供了一种文本二次压缩方法、装置、设备及计算机可读存储介质，将文本文件通过分词词典表示成对应的编码数序列；通过预训练模型将编码数序列压缩成表示文本文件语义的第一数字序列；基于第一数字序列的相似性，预测第一数字序列中目标预测数字的出现概率；针对出现概率的概率分布，通过算术编码算法对第一数字序列进行二次压缩。通过本申请方案的实施，将文本文件预处理之后，通过预训练模型将该文本文件压缩成表示语义的数字序列，预训练模型表示语义的简洁性实现了第一次压缩，并通过数字预测算法进行二次压缩。语义表示的紧凑形式和数字预测两种压缩结合，能够获得更高的压缩比率。的压缩比率。的压缩比率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本二次压缩方法、装置、设备及计算机可读存储介质

[0001]本申请涉及电子
，尤其涉及一种文本二次压缩方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]传统的数据压缩方法，利用字符出现概率的不均衡，出现概率高的字符进行长编码，概率低的字符进行短编码，达到整个文件的压缩。一般来说，一个文件中字符出现的次序包含了更深刻的含义，字符级别的频率统计压缩极大地限制了压缩的比率。

技术实现思路

[0003]本申请实施例提供了一种文本二次压缩方法、装置、设备及计算机可读存储介质，至少能够解决相关技中基于字符统计频率压缩的压缩比例限制。
[0004]本申请实施例第一方面提供了一种文本二次压缩方法，包括：
[0005]将文本文件通过分词词典表示成对应的编码数序列；
[0006]通过所述预训练模型将所述编码数序列压缩成表示所述文本文件语义的第一数字序列；
[0007]基于所述第一数字序列的相似性，预测所述第一数字序列中目标预测数字的出现概率；
[0008]针对所述出现概率的概率分布，通过算术编码算法对所述第一数字序列进行二次压缩。
[0009]本申请实施例第二方面提供了一种文本二次压缩装置，包括：
[0010]编码模块，用于将文本文件通过分词词典表示成对应的编码数序列；
[0011]第一压缩模块，用于将所述编码数序列输入至所述预训练模型，并压缩成表示所述文本文件语义的第一数字序列；
[0012]预测模块，用于基于所述第一数字序...

【技术保护点】

【技术特征摘要】
1.一种文本二次压缩方法，其特征在于，包括：将文本文件通过分词词典表示成对应的编码数序列；通过所述预训练模型将所述编码数序列压缩成表示所述文本文件语义的第一数字序列；基于所述第一数字序列的相似性，预测所述第一数字序列中目标预测数字的出现概率；针对所述出现概率的概率分布，通过算术编码算法对所述第一数字序列进行二次压缩。2.根据权利要求1所述的文本二次压缩方法，其特征在于，所述将文本文件通过分词词典表示成对应的编码数序列的步骤，包括：将文本文件中可能出现的词按顺序编码成词典；根据所述词典对所述文本文件进行分词；通过查找分词后各词在所述词典的编号，获取所述文本文件的编码数序列。3.根据权利要求2所述的文本二次压缩方法，其特征在于，所述通过所述预训练模型将所述编码数序列压缩成表示所述文本文件语义的第一数字序列的步骤，包括：在获取所述编码数序列之后，控制所述预训练模型对所述编码数序列添加占位符；将所述编码数序列中对应所述编号转换成预设数字长度的矢量；其中，所述占位符对应的所述矢量为所述编号的表示矢量；通过拼接各所述表示矢量获取表示所述文本文件语义的第一数字序列。4.根据权利要求1所述的文本二次压缩方法，其特征在于，所述基于所述第一数字序列的相似性，预测所述第一数字序列中目标预测数字的出现概率的步骤之后，还包括：根据完成预测的第二数字序列创建所述第二数字序列中数字出现的频次表；通过所述频次表更新所述出现概率。5.根据权利要求1所述的文本二次压缩方法，其特征在于，所述通过算术编码算法对所述第一数字序列进行二次压缩的步骤，包括：根据所述概率分布确定所述第一数字序列中待编码数序列值以及对应的概率区间；基于二进制转换，选择所述概率区间中最小整数为所述待编码数序列值的算术编码值；通过对所有所述算术编码值进行拼接完成所述第...

【专利技术属性】
技术研发人员：刘知胜，黄泼，罗桦槟，肖佳威，
申请(专利权)人：深圳市领存技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人