文本压缩、解压方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32336675 阅读:50 留言:0更新日期:2022-02-16 18:44
本申请涉及一种文本压缩、解压方法、装置、计算机设备和存储介质。所述方法包括:对待压缩文本进行文本预处理,得到多个目标分词的词向量,再通过总结各个目标分词的词向量,得到整个文本对应的语义矢量,语义矢量包含了文本表达的意义,利用文本的语义矢量来进行压缩,可以得到更为紧凑的表示形式,相比于依照字符频次和简单排列规律对文本进行压缩,能够极大地提高压缩比率。地提高压缩比率。地提高压缩比率。

【技术实现步骤摘要】
文本压缩、解压方法、装置、计算机设备和存储介质


[0001]本申请涉及数据处理
,尤其涉及一种文本压缩、解压方 法、装置、计算机设备和存储介质。

技术介绍

[0002]传统的压缩算法主要分为统计编码和字典编码,统计编码主要是 利用符号统计频率的不均衡以及上下文字符的重复,字典编码主要利 用字符的表面频次和排列信息。但按照上述两种编码方式对文本进行 压缩,无法得到压缩比率较高的压缩文件。

技术实现思路

[0003]为了解决上述技术问题,本申请提供了一种文本压缩、解压方法、 装置、计算机设备和存储介质。
[0004]第一方面,本申请提供了一种文本压缩方法,包括:
[0005]对待压缩文本进行文本预处理,得到多个目标分词的词向量;
[0006]基于所述多个所述目标分词的词向量,生成所述待压缩文本对应 的语义矢量;
[0007]对所述待压缩文本对应的语义矢量进行压缩处理,生成压缩文本。
[0008]第二方面,本申请提供了一种文本解压方法,包括:
[0009]对待解压文本进行矢量解码处理,得到所述待解压文本对应的语 义矢量;
[0010]将所述待解压文本对应的语义矢量进行划分,生成多个子矢量;
[0011]对各个所述子矢量进行编号解码处理,生成解压文本。
[0012]第三方面,本申请提供了一种文本压缩装置,包括:
[0013]预处理模块,用于对待压缩文本进行文本预处理,得到多个目标 分词的词向量;
[0014]生成模块,用于基于所述多个所述目标分词的词向量,生成所述 待压缩文本对应的语义矢量;
[0015]压缩模块,用于对所述待压缩文本对应的语义矢量进行压缩处理, 生成压缩文本。
[0016]第四方面,本申请提供了一种文本解压装置,包括:
[0017]第一解码模块,用于对待解压文本进行矢量解码处理,得到所述 待解压文本对应的语义矢量;
[0018]划分模块,用于将所述待解压文本对应的语义矢量进行划分,生 成多个子矢量;
[0019]第二解码模块,用于对各个所述子矢量进行编号解码处理,生成 解压文本。
[0020]第五方面,本申请提供了一种计算机设备,包括存储器、处理器 及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执 行所述计算机程序时实现以下步骤:
[0021]对待压缩文本进行文本预处理,得到多个目标分词的词向量;
[0022]基于所述多个所述目标分词的词向量,生成所述待压缩文本对应 的语义矢量;
[0023]对所述待压缩文本对应的语义矢量进行压缩处理,生成压缩文本。
[0024]第六方面,本申请提供了一种计算机可读存储介质,其上存储有 计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0025]对待压缩文本进行文本预处理,得到多个目标分词的词向量;
[0026]基于所述多个所述目标分词的词向量,生成所述待压缩文本对应 的语义矢量;
[0027]对所述待压缩文本对应的语义矢量进行压缩处理,生成压缩文本。
[0028]基于上述文本压缩方法,对待压缩文本进行文本预处理,得到多 个目标分词的词向量,再通过总结各个目标分词的词向量,得到整个 文本对应的语义矢量,语义矢量包含了文本表达的意义,利用文本的 语义矢量来进行压缩,可以得到更为紧凑的表示形式,相比于依照字 符频次和简单排列规律对文本进行压缩,能够极大地提高压缩比率。
附图说明
[0029]此处的附图被并入说明书中并构成本说明书的一部分,示出了符 合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前 提下,还可以根据这些附图获得其他的附图。
[0031]图1为一个实施例中文本压缩方法的流程示意图;
[0032]图2为一个实施例中语义矢量的迭代学习过程示意图;
[0033]图3为一个实施例中出现概率的叠加流程示意图;
[0034]图4为一个实施例中文本解压方法的流程示意图;图5为一个实施例中文本解压方法的流程示意图;
[0035]图6为一个实施例中文本压缩装置的程序模块示意图;
[0036]图7为一个实施例中文本解压装置的程序模块示意图;
[0037]图8为一个实施例中计算机设备的结构图。
具体实施方式
[0038]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结 合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不 是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没 有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请 保护的范围。
[0039]在一个实施例中,图1为一个实施例中一种文本压缩方法的流程 示意图,参照图1,提供了一种文本压缩方法。本实施例主要以该方法 应用于服务器120来举例说明,该文本压缩方法具体包括如下步骤:
[0040]步骤S210,对待压缩文本进行文本预处理,得到多个目标分词的 词向量。
[0041]具体的,待压缩文本是指用文字表示未经过压缩处理的文本,待 压缩文本包括多个目标分词,利用词嵌入将待压缩文本中的每个目标 分词转换为一个词向量,词向量包含多个用于指示向量维度的向量数 值,在本实施例中,词向量的向量维数为256,即一个分词用256个向 量数值来表示。使用词向量来表示词语极大程度的减少了计算和存储 的数据
量。
[0042]通常将分词转换为词向量的方法包括:第一种,是在大型语料库 中计算两个词语同时出现的概率,将经常同时出现的词语映射到向量 空间的相近位置;第二种,是根据一个词语或者几个词语,预测他们 可能的相邻词,在预测过程中自然而然地学习词语相对应的词向量。
[0043]还可以利用已经开源训练好的词向量,例如gensim库的词向量。
[0044]步骤S220,基于所述多个所述目标分词的词向量,生成所述待压 缩文本对应的语义矢量。
[0045]具体的,语义矢量包含了文本表达的含义,可以通过语义矢量了 解待压缩文本中上下文中词语之间的关联度以及相似度,便于后续依 照语义矢量进行关键词搜索或者文本推荐等其他功能计算处理。
[0046]步骤S230,对所述待压缩文本对应的语义矢量进行压缩处理,生 成压缩文本。
[0047]具体的,利用文本的语义矢量来进行压缩,可以得到更为紧凑的 表示形式,相比于依照字符频次和简单排列规律对文本进行压缩,能 够极大地提高压缩比率。
[0048]在一个实施例中,所述对待压缩文本进行文本预处理,得到多个 目标分词的词向量,包括:基于词嵌入表中多个分词,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本压缩方法,其特征在于,所述方法包括:对待压缩文本进行文本预处理,得到多个目标分词的词向量;基于所述多个所述目标分词的词向量,生成所述待压缩文本对应的语义矢量;对所述待压缩文本对应的语义矢量进行压缩处理,生成压缩文本。2.根据权利要求1所述的方法,其特征在于,所述对待压缩文本进行文本预处理,得到多个目标分词的词向量,包括:基于词嵌入表中多个分词,构建生成编码词典;其中,所述词嵌入表包括多个分词以及各个分词对应的词向量,所述编码词典中各个所述分词对应一个词编码;基于所述编码词典对所述待压缩文本进行分词处理,得到多个目标分词;其中,每个所述目标分词携带相应词编码;基于所述词嵌入表确定各个所述目标分词对应的词向量。3.根据权利要求2所述的方法,其特征在于,所述基于所述多个所述目标分词的词向量,生成所述待压缩文本对应的语义矢量,包括:将所述多个目标分词进行分词划分,得到多个词段;其中,每个词段包括至少两个连续的所述目标分词;基于每个所述词段内所述目标分词的词向量,生成各个所述词段对应的语义矢量;基于各个所述词段对应的语义矢量,生成所述待压缩文本相应的语义矢量。4.根据权利要求3所述的方法,其特征在于,所述基于每个所述词段内所述目标分词的词向量,生成各个所述词段对应的语义矢量,包括:确定所述词段中在前所述目标分词的语义矢量;基于在前所述目标分词的语义向量,确定所述词段中在后所述目标分词的语义矢量。5.根据权利要求3所述的方法,其特征在于,所述对所述待压缩文本对应的语义矢量进行压缩处理,生成压缩文本,包括:确定各个所述词段相应语义矢量中每个字符的出现概率;将各个所述出现概率依照数值降序...

【专利技术属性】
技术研发人员:黄泼刘知胜罗桦槟肖佳威
申请(专利权)人:深圳市领存技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1