语义确定方法、装置、电子设备及介质制造方法及图纸

技术编号:36860044 阅读:12 留言:0更新日期:2023-03-15 18:23
本发明专利技术提供一种语义确定方法、装置、电子设备及介质,涉及自然语言处理领域,该方法包括:根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据每一未识别字符进行编码,获取所有词表外字符向量;根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入待输入嵌入向量至语义确定模型,获取语义确定模型输出的待确定字符的语义确定结果。本发明专利技术能够对每一可识别字符向量、每一词表外字符向量单独进行特征处理,从而提高语义模型的语义确定能力,最终使得所述待识别文本的语义确定结果更为准确。果更为准确。果更为准确。

【技术实现步骤摘要】
语义确定方法、装置、电子设备及介质


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种语义确定方法、装置、电子设备及介质。

技术介绍

[0002]通常,对遮蔽词汇和词表外词汇统一标识的做法,会使得所有的遮蔽词汇与词表外词汇对于训练模型而言是一致的,即训练模型对这些字符难以做精细化的区分与处理,例如,同一个句子里出现了3个遮蔽字符,模型在识别时会将其当作是同样的三个词汇在不同的上下文,而无法注意到遮蔽字符所遮蔽的词汇本身是不同的,进而不能对每个遮蔽词汇单独进行特征处理。

技术实现思路

[0003]本专利技术提供一种语义确定方法、装置、电子设备及介质,用以解决现有作业中遮蔽词汇的语义确定不够精细的技术缺陷,提供了一种根据待识别文本中字符在词表库中位置,进行旋转位置编码,自适应地标识出遮蔽词汇与词表外词汇,从而使得所述待识别文本的语义确定结果更为准确的技术方案。
[0004]第一方面,本专利技术提供了一种语义确定方法,包括:根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;所述语义确定模型是根据如下步骤确定的:获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;根据所述位置编码后输入向量构建所述语义确定模型;所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
[0005]根据本专利技术提供的语义确定方法,所述获取样本文本所对应的样本嵌入向量,包括:根据预设比例采样所述样本文本中的待确定样本字符;根据所述样本文本的每一可识别样本字符在预设词表库中位置进行编码,获取所有可识别字符样本向量,根据所述样本文本的每一未识别样本字符进行编码,获取所有词表外字符样本向量,所述所有可识别字符样本向量包括所述待确定样本字符所对应的样本
向量;根据所有可识别字符样本向量以及所有词表外字符样本向量确定样本文本所对应的样本嵌入向量。
[0006]根据本专利技术提供的语义确定方法,所述根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,包括:提取所述样本嵌入向量中每一样本字符所在位置,根据每一样本字符所在顺序构建初始序列;根据预设放缩值放缩所述初始序列,确定位置序列。
[0007]根据本专利技术提供的语义确定方法,所述根据所述样本嵌入向量的维度以及所述位置序列确定基函数,包括:根据所述样本嵌入向量的维度构造指数函数序列;根据所述指数函数序列以及所述位置序列的点乘确定基函数。
[0008]根据本专利技术提供的语义确定方法,所述根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,包括:在嵌入维度方向,对所述样本嵌入向量的后半部分进行取反操作,确定旋转嵌入向量;根据所述样本嵌入向量与所述基函数的余弦函数确定第一向量值;根据所述旋转嵌入向量与所述基函数的正弦函数确定第二向量值;根据所述第一向量值以及所述第二向量值确定位置编码后输入向量。
[0009]根据本专利技术提供的语义确定方法,所述根据所述位置编码后输入向量构建所述语义确定模型,包括:重复执行如下步骤:输入所述位置编码后输入向量至当前语义模型,获取所述当前语义模型输出的待确定样本字符的样本确定结果;根据待确定样本字符的实际语义结果以及所述样本确定结果,更新所述当前语义模型的模型参数;在达到预设更新次数的情况下,确定更新后模型参数,以根据所述更新后模型参数构建所述语义确定模型。
[0010]根据本专利技术提供的语义确定方法,所述根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,包括:聚合所有可识别字符向量以及所有词表外字符向量,获取聚合后字符向量;根据所述聚合后字符向量以及嵌入矩阵确定所述待输入嵌入向量。
[0011]第二方面,提供了一种语义确定装置,包括:获取单元:用于根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;输入单元:用于根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;
所述语义确定模型是根据如下步骤确定的:获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;根据所述位置编码后输入向量构建所述语义确定模型;所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
[0012]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语义确定方法。
[0013]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语义确定方法。
[0014]本专利技术提供了一种语义确定方法、装置、电子设备及介质,能够确定待识别文本中待确定字符的语义,根据预设词表库,将待识别文本的所有字符区分为可识别字符以及未识别字符,而可识别字符中包括待确定字符,并分别对可识别字符以及未识别字符进行编码后确定待输入嵌入向量,根据语义确定模型,获取待确定字符的语义确定结果,而预设的语义确定模型则是根据样本嵌入向量中每一样本字符所在位置构建位置序列,根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,最后根据所述位置编码后输入向量构建的,在输入所述待输入嵌入向量至语义确定模型的过程中,所述语义确定模型能够自适应识别所述待输入嵌入向量中的所有可识别字符向量以及所有词表外字符向量,并对每一可识别字符向量、每一词表外字符向量单独进行特征处理,从而提高语义模型的语义确定能力,最终使得所述待识别文本的语义确定结果更为准确。
附图说明
[0015]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术提供的语义确定方法的流程示意图之一;图2是本专利技术提供的语义确定方法的流程示意图之二;图3是本专利技术提供的获取样本嵌入向量的流程示意图;图4是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义确定方法,其特征在于,包括:根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;所述语义确定模型是根据如下步骤确定的:获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;根据所述位置编码后输入向量构建所述语义确定模型;所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。2.根据权利要求1所述的语义确定方法,其特征在于,所述获取样本文本所对应的样本嵌入向量,包括:根据预设比例采样所述样本文本中的待确定样本字符;根据所述样本文本的每一可识别样本字符在预设词表库中位置进行编码,获取所有可识别字符样本向量,根据所述样本文本的每一未识别样本字符进行编码,获取所有词表外字符样本向量,所述所有可识别字符样本向量包括所述待确定样本字符所对应的样本向量;根据所有可识别字符样本向量以及所有词表外字符样本向量确定样本文本所对应的样本嵌入向量。3.根据权利要求1所述的语义确定方法,其特征在于,所述根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,包括:提取所述样本嵌入向量中每一样本字符所在位置,根据每一样本字符所在顺序构建初始序列;根据预设放缩值放缩所述初始序列,确定位置序列。4.根据权利要求1所述的语义确定方法,其特征在于,所述根据所述样本嵌入向量的维度以及所述位置序列确定基函数,包括:根据所述样本嵌入向量的维度构造指数函数序列;根据所述指数函数序列以及所述位置序列的点乘确定基函数。5.根据权利要求4所述的语义确定方法,其特征在于,所述根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,包括:在嵌入维度方向,对所述样本嵌入向量的后半部分进行取反操作,确定旋转嵌入向量;根据所述样本嵌入向量与所述基函数的余弦函数确定第一向量值;根据所述旋转嵌入向量...

【专利技术属性】
技术研发人员:曾国洋郑直贾超
申请(专利权)人:北京面壁智能科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1