【技术实现步骤摘要】
文本压缩、解压方法、装置、计算机设备和存储介质
[0001]本申请涉及数据处理
,尤其涉及一种文本压缩、解压方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着网络技术的发展、数据爆炸时代的来临,每天都会产生大量需要被存储的数据。对于视频和图片类型的数据,可以采用压缩比例较大的有损压缩方法进行压缩,但对于文本类型的数据,只能采用无损压缩方法,现有的无损压缩方法主要包括统计编码、字典编码和上下文预测压缩方法,但基于现有的无损压缩方法无法达到较高的压缩率。
技术实现思路
[0003]为了解决上述技术问题,本申请提供了一种文本压缩、解压方法、装置、计算机设备和存储介质。
[0004]第一方面,本申请提供了一种文本压缩方法,包括:
[0005]对待压缩文本进行文本预处理,得到所述待压缩文本中各个目标分词对应的词编码;
[0006]基于所述待压缩文本中在前分词的词编码,预测在后分词的输出概率分布;其中,所述在前分词和所述在后分词为所述待压缩文本中相邻的目标分词;
[000 ...
【技术保护点】
【技术特征摘要】
1.一种文本压缩方法,其特征在于,所述方法包括:对待压缩文本进行文本预处理,得到所述待压缩文本中各个目标分词对应的词编码;基于所述待压缩文本中在前分词的词编码,预测在后分词的输出概率分布;其中,所述在前分词和所述在后分词为所述待压缩文本中相邻的目标分词;基于所述在后分词的输出概率分布对所述待压缩文本进行算术编码,生成由压缩编码表示的压缩文本。2.根据权利要求1所述的方法,其特征在于,所述对待压缩文本进行文本预处理,得到所述待压缩文本中各个目标分词对应的词编码,包括:基于所述待压缩文本构建编码词典;其中,所述编码词典中每个文本分词对应一个所述词编码;对所述待压缩文本进行分词处理,得到多个所述目标分词;基于所述编码词典对各个所述目标分词进行编码处理,得到所述待压缩文本中各个所述目标分词对应的所述词编码。3.根据权利要求2所述的方法,其特征在于,所述基于所述编码向量中在前分词的所述词编码,预测在后分词的输出概率分布,包括:按照预设数量确定所述在后分词对应的多个参照分词;其中,所述在前分词为所述待压缩文本中出现顺序在所述在后分词之前、且与所述在后分词相邻的分词,所述在前分词包括多个所述参照分词;依次对多个所述参照分词进行迭代学习,确定各个所述文本分词作为所述在后分词的输出概率;其中,所述输出概率分布包括所述编码词典中各个所述文本分词作为所述在后分词的输出概率。4.根据权利要求3所述的方法,其特征在于,所述基于所述在后分词的输出概率分布对所述待压缩文本进行算术编码,生成由压缩编码表示的压缩文本,包括:基于各个所述文本分词作为所述在后分词的输出概率分布,确定所述在后分词对应的累计概率分布;其中,所述累计概率分布用于指示所述编码词典中各个所述文本分词相应所述输出概率分布的累加集合;在所述累计概率分布内,确定所述在后分词对应的概率区间;其中,所述概率区间用于指示所述待压缩文本中真实的所述目标分词作为所述在后分词所对应的概率;基于所述在后分词对应的概率区间,对所述待压缩文本中剩余分词对应的累计概率分布进行迭代限幅处理,得到所述待压缩文本中终止分词对应的概率区间;其中,所述剩余分词为所述待压缩文本中出现顺序在所述在后分词之后的目标分词,所述终止分词为所述待压缩文本中出现顺序在结尾的目标分词;基于所述终止分词对应的概率区间,确定所述待压缩文本...
【专利技术属性】
技术研发人员:刘知胜,黄泼,罗桦槟,肖佳威,
申请(专利权)人:深圳市领存技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。