一种缩减文本长度的语言处理系统及方法技术方案

技术编号：39930587 阅读：3 留言：0更新日期：2024-01-08 21:47

本发明专利技术公开了一种缩减文本长度的语言处理系统及方法，所述语言处理系统包括编码模块、语义模块、文本语义表示模块和文本长度缩减模块，其中：所述编码模块对输入的文本判断并进行语义赋值获得每一个单词的k维词嵌入向量；所述语义模块通过降维算法对每个单词的k维词嵌入向量计算获得每个单词语义点集P；所述文本语义表示模块通过对每个单词语义点集P构造文本凸包Conv(P)来表示输入文本的语义；所述文本长度缩减模块对每个单词语义点在文本凸包中的相对位置进行查找将文本凸包顶点所对应的单词作为缩减后的文本输出；本发明专利技术解决现有技术中本文缩减后语义不完整、片差词义以及运算过量的技术难题。

全部详细技术资料下载

【技术实现步骤摘要】

：本专利技术属于计算机处理语言系统，尤其涉及一种缩减文本长度的语言处理系统及方法。

技术介绍

0、
技术介绍
：

1、许多深度学习模型被广泛用于处理自然语言处理中的许多任务，并取得了巨大的成功。然而，设计良好的模型会增加模型的计算复杂度和参数尺度，导致在处理长文本序列时计算速度慢，gpu内存不足。

2、不同类型的递归神经网络(rnns)只能记忆有限的语义信息。由于梯度消失的问题，处理长文本序列会导致模型训练困难。流行的transformer模型在处理长文本序列时迅速增加了模型参数的大小，这阻碍了模型预测过程中提高计算效率。为了使模型能够处理较长的文本序列，人们使用各种方法来缩短文本长度，以达到更好的模型效果。

3、缩减文本长度是指在尽可能的保留文本语义的情况下，减少文本中单词的数量。文本序列由单词组成，但并非所有单词都对自然语言处理中的模型有用。如何在不改变句子原有语义的前提下，合理有效地剥离句子中的重要词语，缩短文本序列的长度，是非常重要的。

4、当前技术的缺点

5、1.文本截断是当前最直观的缩减文本长度方法，但是在缩减文本长度时往往伴随着语义不完整。文本截断假定文本片段的第一句话概括了整个文本的语义表达，从而截取文本中固定长度的连续词序列作为缩减后的文本。这种方法导致缩减后的文本语义不完整，具有一定的片面性。

6、2.目前使用最普遍的停用词删除方法需要引入外部知识。停用词列表需要相关领域的专家手工构造，然而停用词不仅种类繁多，而且在某些情况下，它对语义强化或

7、3.目前流行的注意力机制是一种典型的动态文本缩短方法。该方法需要用户设定阈值，然而这个阈值作为一个超参数，它的设定缺乏理论的指导，完全依靠用户的经验。该方法动态计算文本中不同单词的重要性，重新分配句子中的单词分布，并通过用户设置的阈值过滤出文本中更重要的单词。这种阈值法增加了超参数调整的难度，并且缺乏可解释性。

技术实现思路

1、为了解决现有技术问题，本专利技术提供一种缩减文本长度的语言处理系统及方法，本专利技术解决现有技术中本文缩减后语义不完整、片差词义以及运算过量的技术难题，本专利技术可以快速、精准的缩减文本后的语义表达，可以实现人机对话过程的流畅应答过程。

2、本专利技术采用如下技术方案予以实施：

3、1、一种缩减文本长度的语言处理系统，所述语言处理系统包括编码模块、语义模块、文本语义表示模块和文本长度缩减模块，其中：

4、所述编码模块对输入的文本判断进行语义赋值获得到每一个单词的k维词嵌入向量；

5、所述语义模块通过降维算法对每个单词的k维词嵌入向量计算获得每个单词语义点集p；

6、所述文本语义表示模块通过对每个单词语义点集p构造文本凸包conv(p)来表示输入文本的语义；；

7、所述文本长度缩减模块对每个单词语义点在文本凸包中的相对位置进行查找将文本凸包顶点所对应的单词作为缩减的文本输出。

8、进一步，所述文本语义表示模块通过对每个单词语义点集p构造文本凸包conv(p)来表示输入文本的语义包括：

9、对于每个单词语义点集p中的每一个点都给定一个非负系数ai来进行加权平均获得一个新点，且这些系数和为1，

10、根据给定的系数ai按照如下公式构建第二每个单词语义点集p；

11、

12、根据第二每个单词语义点集p按照如下公式构建文本凸包conv(x)；

13、

14、根据构建的文本凸包conv(x)表示输入文本x的文本语义(me)；

15、me(x)＝conv(p)

16、进一步，所述文本长度缩减模块对每个单词语义点在文本凸包中的相对位置进行查找将文本凸包顶点所对应的单词作为缩减后的文本输出；包括：

17、对语义点集p排序；

18、选择一个语义点作为初始点；

19、按照与起始点的极角从小到大的顺序依次连接所有的语义点；

20、将可以连接形成凸角的点添加到文本凸包的顶点列表中；并删除连接形成凹形的前一个连接点；

21、将文本凸包顶点列表中所有语义点所对应的单词作为缩减后的文本。

22、进一步，所述语义模块通过降维算法对每个单词的k维词嵌入向量计算获得每个单词语义点集p过程；包括：

23、建立去中心化的词嵌入映射空间矩阵：

24、

25、计算去中心化的矩阵e的协方差矩阵即k×k阶矩阵；

26、对协方差矩阵c进行特征分解，求出协方差矩阵的特征值λn，以及对应的特征向量vn，即cvn＝λnvn；

27、将特征向量按对应特征值从左到右按列降序排成矩阵，取前n列组成矩阵w，即k×n阶矩阵；

28、通过y＝ew计算降维到n维后的词嵌入矩阵，即m×n阶矩阵；

29、根据降维后每一个词的词嵌入，将其映射为n维欧几里得空间的点，得到n维欧几里得空间中的语义点集p。

30、本专利技术还可以采用如下技术方案：

31、一种缩减文本长度的语言处理方法，包括如下步骤：

32、对输入的文本判断进行语义赋值获得到每一个单词的k维词嵌入向量；其过程：

33、通过降维算法对每个单词的k维词嵌入向量计算获得每个单词语义点集p；

34、通过文本凸包conv(p)对每个单词语义点集p进行运算获得每个单词语义点在凸包中的相对位置；其中：

35、对于每个单词语义点集p中的每一个点都给定一个非负系数ai来进行加权平均获得一个新点，且这些系数和为1，

36、根据给定的系数ai按照如下公式构建第二每个单词语义点集p；

37、

38、根据第二每个单词语义点集p按照如下公式构建文本凸包conv(x)；

39、

40、对每个单词语义点在文本凸包中的相对位置进行查找将文本凸包顶点所对应的单词作为缩减后的文本输出。

41、进一步，通过降维算法对每个单词的k维词嵌入向量计算获得每个单词语义点集p过程；包括：

42、建立去中心化的词嵌入映射空间矩阵：

43、

44、计算去中心化的矩阵e的协方差矩阵即k×k阶矩阵；

45、对协方差矩阵c进行特征分解，求出协方差矩阵的特征值λn，以及对应的特征向量vn，即cvn＝λnvn；

46、将特征向量按对应特征值从左到右按列降序排成矩阵，取前n列组成矩阵w，即k×n阶矩阵；

47、通过y＝ew计算降维到n维后的词嵌入矩阵，即m×n阶矩阵；根据降维后每一个词的词嵌入，将其映射为n维欧几里得空间的点，得到n维欧几里得空间中的语义点集p。有益效果

48、本专利技术本文档来自技高网...

【技术保护点】

1.一种缩减文本长度的语言处理系统，其特征在于：所述语言处理系统包括编码模块、语义模块、文本语义表示模块和文本长度缩减模块，其中：

2.根据权利要求1所述的一种缩减文本长度的语言处理系统，其特征在于：所述文本语义表示模块通过对每个单词语义点集P构造文本凸包Conv(P)来表示输入文本的语义包括：

3.根据权利要求1所述的一种缩减文本长度的语言处理系统，其特征在于：所述文本长度缩减模块对每个单词语义点在文本凸包中的相对位置进行查找将文本凸包顶点所对应的单词作为缩减后的文本输出；包括：

4.根据权利要求1所述的一种缩减文本长度的语言处理系统，其特征在于：所述语义模块通过降维算法对每个单词的k维词嵌入向量计算获得每个单词语义点集P过程；包括：

5.一种缩减文本长度的语言处理方法，其特征在于，包括如下步骤：

6.根据权利要求4所述的一种缩减文本长度的语言处理方法，其特征在于，

【技术特征摘要】

1.一种缩减文本长度的语言处理系统，其特征在于：所述语言处理系统包括编码模块、语义模块、文本语义表示模块和文本长度缩减模块，其中：

2.根据权利要求1所述的一种缩减文本长度的语言处理系统，其特征在于：所述文本语义表示模块通过对每个单词语义点集p构造文本凸包conv(p)来表示输入文本的语义包括：

3.根据权利要求1所述的一种缩减文本长度的语言处理系统，其特征在于：所述文本长度缩减模块对每个单词...

【专利技术属性】
技术研发人员：张程，曹京旭，吕劲昕，杜锦华，严冬梅，
申请(专利权)人：天津财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人