文本压缩方法、装置、存储介质及电子设备制造方法及图纸

技术编号：41290920 阅读：3 留言：0更新日期：2024-05-13 14:42

本发明专利技术提供一种文本压缩方法、装置、存储介质及电子设备，该方法包括：获取待压缩文本，并确定待压缩文本的文本表示数据，文本表示数据包括L个向量；确定文本分组方式，并按照文本分组方式对文本表示数据进行分组处理，得到N个子文本表示数据，一个子文本表示数据包括至少一个向量；调用目标压缩模型，分别对N个子文本表示数据中的各个子文本表示数据进行压缩，得到文本压缩结果，且文本压缩结果支持通过目标序列模型被处理。本发明专利技术实施例可在避免打乱待压缩文本的原有含义以及避免造成上下文缺失的情况下，通过对待压缩文本的文本压缩，实现对待压缩文本的预处理，从而基于文本压缩结果实现通过目标序列模型对文本表示数据的处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种文本压缩方法、装置、存储介质及电子设备。

技术介绍

1、目前，长序列文本(即长文本)建模已被广泛关注，所谓的长序列文本一般是指文本长度大于1000的文本序列。由于序列模型的计算复杂度随文本长度的增加而增加(如以transformer(一个利用注意力机制来提高模型训练速度的模型)为代表的序列模型的计算复杂度为o(n2))，使得序列模型难以对长文本进行处理；对此，相关技术通常将长序列文本切分成序列模型可接收的多个短文本，并通过序列模型分别对多个短文本中的各个短文本进行处理，从而对处理后的结果进行拼接，以还原回长文本表示，这就导致打乱了长文本原有的含义，造成了上下文的缺失。基于此，如何在避免打乱长文本原有含义以及避免造成上下文缺失的情况下，对长文本进行预处理，以使序列模型实现对文本表示数据的处理目前暂未具有较好的解决方案。

技术实现思路

1、有鉴于此，本专利技术实施例提供了一种文本压缩方法、装置、存储介质及电子设备，以解决相关技术导致打乱了长文本原有的含义，造成了上下文的缺失等问题；也就是说，本专利技术实施例可在避免打乱长文本原有含义以及避免造成上下文缺失的情况下，对长文本进行预处理，以使序列模型实现对长文本的文本表示数据的处理；也就是说，本专利技术实施例可在避免打乱待压缩文本的原有含义以及避免造成上下文缺失的情况下，通过对待压缩文本的文本压缩，实现对待压缩文本的预处理，从而得到文本压缩结果，并可基于文本压缩结果实现通过目标序列模型对文本表示数据的处理，

2、根据本专利技术的一方面，提供了一种文本压缩方法，所述方法包括：

3、获取待压缩文本，并确定所述待压缩文本的文本表示数据，所述文本表示数据包括l个向量，且所述l个向量中各个向量的维度为h；其中，l为所述待压缩文本对应的词划分结果中分词的数量，h为正整数；

4、确定文本分组方式，并按照所述文本分组方式对所述文本表示数据进行分组处理，得到n个子文本表示数据，一个子文本表示数据包括至少一个向量，n为正整数；

5、调用目标压缩模型，分别对所述n个子文本表示数据中的各个子文本表示数据进行压缩，得到文本压缩结果，所述文本压缩结果包括所述各个子文本表示数据的压缩向量表示，且所述文本压缩结果支持通过目标序列模型被处理，以基于所述文本压缩结果实现通过所述目标序列模型对所述文本表示数据的处理。

6、根据本专利技术的另一方面，提供了一种文本压缩装置，所述装置包括：

7、获取单元，用于获取待压缩文本；

8、处理单元，用于确定所述待压缩文本的文本表示数据，所述文本表示数据包括l个向量，且所述l个向量中各个向量的维度为h；其中，l为所述待压缩文本对应的词划分结果中分词的数量，h为正整数；

9、所述处理单元，还用于确定文本分组方式，并按照所述文本分组方式对所述文本表示数据进行分组处理，得到n个子文本表示数据，一个子文本表示数据包括至少一个向量，n为正整数；

10、所述处理单元，还用于调用目标压缩模型，分别对所述n个子文本表示数据中的各个子文本表示数据进行压缩，得到文本压缩结果，所述文本压缩结果包括所述各个子文本表示数据的压缩向量表示，且所述文本压缩结果支持通过目标序列模型被处理，以基于所述文本压缩结果实现通过所述目标序列模型对所述文本表示数据的处理。

11、根据本专利技术的另一方面，提供了一种电子设备，所述电子设备包括处理器、以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述所提及的方法。

12、根据本专利技术的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行上述所提及的方法。

13、本专利技术实施例可在获取到待压缩文本后，确定待压缩文本的文本表示数据，文本表示数据包括l个向量，且l个向量中各个向量的维度为h；其中，l为待压缩文本对应的词划分结果中分词的数量，h为正整数；当l较大时，待压缩文本可以为一个长文本。然后，可确定文本分组方式，并按照文本分组方式对文本表示数据进行分组处理，得到n个子文本表示数据，一个子文本表示数据包括至少一个向量，n为正整数。进一步的，可调用目标压缩模型，分别对n个子文本表示数据中的各个子文本表示数据进行压缩，得到文本压缩结果，文本压缩结果包括各个子文本表示数据的压缩向量表示，且文本压缩结果支持通过目标序列模型被处理，以基于文本压缩结果实现通过目标序列模型对文本表示数据的处理。可见，本专利技术实施例可在避免打乱长文本原有含义以及避免造成上下文缺失的情况下，对长文本进行预处理，以使序列模型实现对长文本的文本表示数据的处理；也就是说，本专利技术实施例可在避免打乱待压缩文本的原有含义以及避免造成上下文缺失的情况下，通过对待压缩文本的文本压缩，实现对待压缩文本的预处理，从而得到文本压缩结果，并可基于文本压缩结果实现通过目标序列模型对相应文本表示数据的处理，即可通过目标序列模型对文本压缩结果的处理来替代对文本表示数据的处理，以将目标序列模型对文本表示数据的处理转换为对文本压缩结果的处理，可有效提高语义表示的准确性，进而提高下游任务的准确性；并且，文本压缩结果的长度(即向量个数)小于文本表示数据的长度，可有效提高目标序列模型的处理效率。

本文档来自技高网...

【技术保护点】

1.一种文本压缩方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述初始压缩模型为卷积神经网络，所述分别对所述各个训练文本的训练文本压缩结果进行文本压缩复原，得到所述各个训练文本的文本复原结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述确定所述待压缩文本的文本表示数据，包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述文本分组方式为句子分组方式，所述句子分组方式用于指示按照至少一个句子进行分组处理；所述按照所述文本分组方式对所述文本表示数据进行分组处理，得到N个子文本表示数据，包括：

7.根据权利要求1-4任一项所述的方法，其特征在于，所述目标序列模型包括目标编码器，所述方法还包括：

8.一种文本压缩装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种存储有计算机指令的非

...

【技术特征摘要】

1.一种文本压缩方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述确定所述待压缩文本的文本表示数据，包括：

6.根据权利要求1-4任一项所述的方法，其特征...

【专利技术属性】
技术研发人员：景一，杨青，
申请(专利权)人：度小满科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人