基于自然语言的标识单元归并方法、装置、设备和介质制造方法及图纸

技术编号:33436512 阅读:11 留言:0更新日期:2022-05-19 00:25
本申请实施例提供基于自然语言的标识单元归并方法、装置、设备和介质,方法包括:获取多层自然语言处理神经网络模型中的神经层输出的多个标识单元,所述标识单元为输入多层自然语言处理神经网络模型的语料信息对应的中间输出信息;获取所述多个标识单元之间的相似度;根据所述相似度对所述多个标识单元进行归并。与现有技术不同的是,本申请实施例对标识单元进行合并,这是考虑到文字不同于图像,其元素之间的关系并不依赖空间近邻关系,保持原序列的空间关系不一定是必要的。基于上述实施方式,能够减少计算开销和存储开销。能够减少计算开销和存储开销。能够减少计算开销和存储开销。

【技术实现步骤摘要】
基于自然语言的标识单元归并方法、装置、设备和介质


[0001]本申请涉及自然语言处理
,具体而言,涉及一种基于自然语言的标识单元归并方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]自然语言由字符(可视为标识单元)的序列组成。在包括神经网络模型在内的多种自然语言处理方法中,一般的处理模型会对标识单元进行处理,逐步加工其特征向量,得到加工后的特征序列。普遍的做法是,在加工的每一步,这个序列的长度和原文一致,每个标识单元的特征虽然发生了变化并且获得了其他位置的标识单元的信息,但其基本空间关系还是和原字符对应。完成这个形式的特征处理后,模型一般用一个归并方法将所有标识单元的特征合并起来,变成最终输出结果。原操作方法保持了文字的序列长度和空间关系,当模型的处理层数越来越多时,始终保持序列原长会导致较大的计算开销、存储开销。这一缺点在处理比较长的段落文字时更明显。

技术实现思路

[0003]本申请实施例的目的在于提供一种基于自然语言的标识单元归并方法、装置、电子设备和计算机可读存储介质,能够减少计算开销,存储开销。
[0004]第一方面,本申请实施例提供了一种基于自然语言的标识单元归并方法,包括:
[0005]获取多层自然语言处理神经网络模型中的神经层输出的多个标识单元,所述标识单元为输入多层自然语言处理神经网络模型的语料信息对应的中间输出信息;
[0006]获取所述多个标识单元之间的相似度;
[0007]根据所述相似度对所述多个标识单元进行归并。
[0008]在上述实现过程中,将语料信息输入多层自然语言处理神经网络模型中,神经网络模型中的神经层会输出标识单元,与现有技术不同的是,本申请实施例对标识单元进行合并,这是考虑到文字不同于图像,其标识单元之间的关系并不依赖空间近邻关系,保持原标识单元组成的序列的空间关系不一定是必要的。基于上述实施方式,能够减少计算开销和存储开销。
[0009]进一步地,所述根据所述相似度对所述多个标识单元进行归并的步骤,包括:
[0010]获取所述多个标识单元对应的长度;
[0011]根据所述多个标识单元对应的长度对所述多个标识单元进行归并。
[0012]进一步地,所述获取所述多个标识单元之间的相似度的步骤,包括:
[0013]获取所述多个标识单元中每个标识单元对应的特征向量,得到多个特征向量;
[0014]获取所述多个特征向量之间的相似度,所述多个特征向量之间的相似度作为所述多个标识单元之间的相似度。
[0015]进一步地,所述获取所述多个特征向量之间的相似度的步骤,包括:
[0016]获取所述多个特征向量中任意两个特征向量之间的相似度;
[0017]根据所述多个特征向量中任意两个特征向量之间的相似度构造相似度矩阵。
[0018]进一步地,所述根据所述多个标识单元对应的长度对所述多个标识单元进行归并的步骤,包括:
[0019]计算所述多个特征向量中每个特征向量的长度,得到所述多个特征向量的长度;
[0020]根据所述多个特征向量的长度构造长度数组;
[0021]根据所述相似度矩阵和所述长度数组对所述多个标识单元进行归并。
[0022]进一步地,所述根据所述相似度矩阵和所述长度数组对所述多个标识单元进行归并的步骤,包括:
[0023]将所述相似度矩阵中的元素进行降序排列;
[0024]获取在降序排列后的元素中排序靠前的第一预设比例对应的多个元素;
[0025]将所述多个元素中的每个元素对应的特征向量进行组合,得到所述每个元素对应的特征向量组;
[0026]根据所述长度数组获取所述每个元素对应的特征向量组的长度,得到多个组合长度值;
[0027]将所述多个组合长度值进行升序排序;
[0028]获取升序排序后的所述多个组合长度值中排序靠前的第二预设比例对应的多个组合长度值;
[0029]将所述排序靠前的第二预设比例对应的多个组合长度值对应的特征向量进行归并。
[0030]进一步地,所述方法还包括:采用反向传播方法训练所述多层自然语言处理神经网络模型。
[0031]第二方面,本申请实施例提供一种基于自然语言的标识单元归并装置,包括:
[0032]标识单元获取模块,用于获取多层自然语言处理神经网络模型中的神经层输出的多个标识单元,所述标识单元为输入多层自然语言处理神经网络模型的语料信息对应的中间输出信息;
[0033]相似度获取模块,用于获取所述多个标识单元之间的相似度;
[0034]归并模块,用于根据所述相似度对所述多个标识单元进行归并。
[0035]第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0036]第四方面,本申请实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
[0037]本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
[0038]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0039]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0040]图1为本申请实施例提供的基于自然语言的标识单元归并方法的流程示意图;
[0041]图2为本申请实施例提供的根据相似度对多个标识单元进行归并的流程示意图;
[0042]图3为本申请实施例提供的获取多个标识单元之间的相似度的流程示意图;
[0043]图4为本申请实施例提供的获取多个特征向量之间的相似度的流程示意图;
[0044]图5为本申请实施例提供的根据多个标识单元对应的长度对多个标识单元进行归并的流程示意图;
[0045]图6为本申请实施例提供的根据相似度矩阵和长度数组对多个标识单元进行归并的流程示意图;
[0046]图7为本申请实施例提供的基于自然语言的标识单元归并装置的结构示意图;
[0047]图8为本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0048]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0049]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言的标识单元归并方法,其特征在于,包括:获取多层自然语言处理神经网络模型中的神经层输出的多个标识单元,所述标识单元为输入多层自然语言处理神经网络模型的语料信息对应的中间输出信息;获取所述多个标识单元之间的相似度;根据所述相似度对所述多个标识单元进行归并。2.根据权利要求1所述的基于自然语言的标识单元归并方法,其特征在于,所述根据所述相似度对所述多个标识单元进行归并的步骤,包括:获取所述多个标识单元对应的长度;根据所述多个标识单元对应的长度对所述多个标识单元进行归并。3.根据权利要求1所述的基于自然语言的标识单元归并方法,其特征在于,所述获取所述多个标识单元之间的相似度的步骤,包括:获取所述多个标识单元中每个标识单元对应的特征向量,得到多个特征向量;获取所述多个特征向量之间的相似度,所述多个特征向量之间的相似度作为所述多个标识单元之间的相似度。4.根据权利要求3所述的基于自然语言的标识单元归并方法,其特征在于,所述获取所述多个特征向量之间的相似度的步骤,包括:获取所述多个特征向量中任意两个特征向量之间的相似度;根据所述多个特征向量中任意两个特征向量之间的相似度构造相似度矩阵。5.根据权利要求4所述的基于自然语言的标识单元归并方法,其特征在于,所述根据所述多个标识单元对应的长度对所述多个标识单元进行归并的步骤,包括:计算所述多个特征向量中每个特征向量的长度,得到所述多个特征向量的长度;根据所述多个特征向量的长度构造长度数组;根据所述相似度矩阵和所述长度数组对所述多个标识单元进行归并。6.根据权利要求5所述的基于自然语言的标识单元归并方法,其特征在于,所述根据所述相似度矩阵和所述长度数组对所述...

【专利技术属性】
技术研发人员:孟海忠吴边柴鹏飞方成饶官军毛晨思冯辉任宇翔
申请(专利权)人:挂号网杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1