基于自然语言的标识单元归并方法、装置、设备和介质制造方法及图纸

技术编号：33436512 阅读：11 留言：0更新日期：2022-05-19 00:25

本申请实施例提供基于自然语言的标识单元归并方法、装置、设备和介质，方法包括：获取多层自然语言处理神经网络模型中的神经层输出的多个标识单元，所述标识单元为输入多层自然语言处理神经网络模型的语料信息对应的中间输出信息；获取所述多个标识单元之间的相似度；根据所述相似度对所述多个标识单元进行归并。与现有技术不同的是，本申请实施例对标识单元进行合并，这是考虑到文字不同于图像，其元素之间的关系并不依赖空间近邻关系，保持原序列的空间关系不一定是必要的。基于上述实施方式，能够减少计算开销和存储开销。能够减少计算开销和存储开销。能够减少计算开销和存储开销。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言的标识单元归并方法、装置、设备和介质

[0001]本申请涉及自然语言处理
，具体而言，涉及一种基于自然语言的标识单元归并方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]自然语言由字符(可视为标识单元)的序列组成。在包括神经网络模型在内的多种自然语言处理方法中，一般的处理模型会对标识单元进行处理，逐步加工其特征向量，得到加工后的特征序列。普遍的做法是，在加工的每一步，这个序列的长度和原文一致，每个标识单元的特征虽然发生了变化并且获得了其他位置的标识单元的信息，但其基本空间关系还是和原字符对应。完成这个形式的特征处理后，模型一般用一个归并方法将所有标识单元的特征合并起来，变成最终输出结果。原操作方法保持了文字的序列长度和空间关系，当模型的处理层数越来越多时，始终保持序列原长会导致较大的计算开销、存储开销。这一缺点在处理比较长的段落文字时更明显。

技术实现思路

[0003]本申请实施例的目的在于提供一种基于自然语言的标识单元归并方法、装置、电子设备和计算机可读存储介质，能够减少计算开销，存储开销。
[0004]第一方面，本申请实施例提供了一种基于自然语言的标识单元归并方法，包括：
[0005]获取多层自然语言处理神经网络模型中的神经层输出的多个标识单元，所述标识单元为输入多层自然语言处理神经网络模型的语料信息对应的中间输出信息；
[0006]获取所述多个标识单元之间的相似度；
[0007]根据所述相似度对所述多个标识单元进行归并。
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言的标识单元归并方法，其特征在于，包括：获取多层自然语言处理神经网络模型中的神经层输出的多个标识单元，所述标识单元为输入多层自然语言处理神经网络模型的语料信息对应的中间输出信息；获取所述多个标识单元之间的相似度；根据所述相似度对所述多个标识单元进行归并。2.根据权利要求1所述的基于自然语言的标识单元归并方法，其特征在于，所述根据所述相似度对所述多个标识单元进行归并的步骤，包括：获取所述多个标识单元对应的长度；根据所述多个标识单元对应的长度对所述多个标识单元进行归并。3.根据权利要求1所述的基于自然语言的标识单元归并方法，其特征在于，所述获取所述多个标识单元之间的相似度的步骤，包括：获取所述多个标识单元中每个标识单元对应的特征向量，得到多个特征向量；获取所述多个特征向量之间的相似度，所述多个特征向量之间的相似度作为所述多个标识单元之间的相似度。4.根据权利要求3所述的基于自然语言的标识单元归并方法，其特征在于，所述获取所述多个特征向量之间的相似度的步骤，包括：获取所述多个特征向量中任意两个特征向量之间的相似度；根据所述多个特征向量中任意两个特征向量之间的相似度构造相似度矩阵。5.根据权利要求4所述的基于自然语言的标识单元归并方法，其特征在于，所述根据所述多个标识单元对应的长度对所述多个标识单元进行归并的步骤，包括：计算所述多个特征向量中每个特征向量的长度，得到所述多个特征向量的长度；根据所述多个特征向量的长度构造长度数组；根据所述相似度矩阵和所述长度数组对所述多个标识单元进行归并。6.根据权利要求5所述的基于自然语言的标识单元归并方法，其特征在于，所述根据所述相似度矩阵和所述长度数组对所述...

【专利技术属性】
技术研发人员：孟海忠，吴边，柴鹏飞，方成，饶官军，毛晨思，冯辉，任宇翔，
申请(专利权)人：挂号网杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人