实体消歧方法、实体消歧装置、存储介质与电子设备制造方法及图纸

技术编号:33731792 阅读:23 留言:0更新日期:2022-06-08 21:27
本公开提供一种实体消歧方法、实体消歧装置、存储介质与电子设备,涉及自然语言处理技术领域。该实体消歧方法包括:确定待识别语句对应的目标意图,并获取所述目标意图的第一词典树和第二词典树,所述第一词典树包含槽位信息,所述第二词典树包含冲突句式;利用所述第一词典树确定所述待识别语句中的关键词对应的候选槽位;通过将各所述关键词对应的候选槽位进行组合,得到第一候选句式;响应于所述第一候选句式的数量大于1,利用所述第二词典树对所述第一候选句式进行匹配,以得到第二候选句式;根据所述第二候选句式得到所述待识别语句对应的目标实体。本公开提高了实体消歧的准确性与效率。确性与效率。确性与效率。

【技术实现步骤摘要】
实体消歧方法、实体消歧装置、存储介质与电子设备


[0001]本公开涉及自然语言处理
,尤其涉及一种实体消歧方法、实体消歧装置、计算机可读存储介质与电子设备。

技术介绍

[0002]在自然语言处理中,由于一个词可能具有多个意思,使得实体存在歧义,为语义的识别与理解带来困难。例如,在智能机器人场景中,用户通过语音交互等方式向电子设备(如音箱、手机)输入指令,需要理解指令的语义,从而提供相应的服务。但是通常指令的文本较短,存在歧义的可能性较大,导致智能机器人无法准确理解用户的指令。相关技术中,实体消歧的准确性有待提高。
[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域技术人员已知的现有技术的信息。

技术实现思路

[0004]本公开提供一种实体消歧方法、实体消歧装置、计算机可读存储介质与电子设备,以至少在一定程度上提高实体消歧的准确性。
[0005]根据本公开的第一方面,提供一种实体消歧方法,包括:确定待识别语句对应的目标意图,并获取所述目标意图的第一词典树和第二词典树,所述第一词典树包含槽位信息,所述第二词典树包含冲突句式;利用所述第一词典树确定所述待识别语句中的关键词对应的候选槽位;通过将各所述关键词对应的候选槽位进行组合,得到第一候选句式;响应于所述第一候选句式的数量大于1,利用所述第二词典树对所述第一候选句式进行匹配,以得到第二候选句式;根据所述第二候选句式得到所述待识别语句对应的目标实体。
[0006]根据本公开的第二方面,提供一种实体消歧装置,包括:词典树获取模块,被配置为确定待识别语句对应的目标意图,并获取所述目标意图的第一词典树和第二词典树,所述第一词典树包含槽位信息,所述第二词典树包含冲突句式;候选槽位确定模块,被配置为利用所述第一词典树确定所述待识别语句中的关键词对应的候选槽位;第一候选句式确定模块,被配置为通过将各所述关键词对应的候选槽位进行组合,得到第一候选句式;第二候选句式确定模块,被配置为响应于所述第一候选句式的数量大于1,利用所述第二词典树对所述第一候选句式进行匹配,以得到第二候选句式;目标实体输出模块,被配置为根据所述第二候选句式得到所述待识别语句对应的目标实体。
[0007]根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的实体消歧方法及其可能的实现方式。
[0008]根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的实体消歧方法及其可能的实现方式。
[0009]本公开的技术方案具有以下有益效果:
[0010]首先,确定待识别语句对应的目标意图,并获取目标意图下包含槽位信息的第一词典树和包含冲突句式的第二词典树;然后,利用第一词典树确定待识别语句中的关键词对应的候选槽位,并组合不同各关键词对应的候选槽位,得到第一候选句式;接下来,在第一候选句式不唯一的情况下,利用第二词典树对第一候选句式进行匹配,以得到第二候选句式;最后,根据第二候选句式得到待识别语句对应的目标实体。一方面,本方案结合了目标意图下的槽位信息与冲突句式,能够针对待识别语句中的关键词进行有效地槽位确定与歧义消解,从而提高实体消歧的准确性。另一方面,通过待识别语句与第一词典树匹配的方式确定候选槽位,并通过第一候选句式与第二词典树匹配的方式确定第二候选句式以实现歧义消解,利用了词典树查找效率较高的优势,能够提高实体消歧的效率。再一方面,本方案中第一词典树与第二词典树均可以基于特定意图下少量的信息而构建,无需投入大量的人力与时间成本,因此方案的实用性较高。
[0011]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0012]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1示出本示例性实施方式中一种系统架构的示意图;
[0014]图2示出本示例性实施方式中一种实体消歧方法的流程图;
[0015]图3示出本示例性实施方式中通过第一词典树对对待识别语句进行匹配的流程图;
[0016]图4示出本示例性实施方式中对待识别语句提取关键词并确定候选槽位的示意图;
[0017]图5示出本示例性实施方式中通过第二词典树对第一候选句式进行匹配的流程图;
[0018]图6示出本示例性实施方式中通过第二词典树对第一候选句式进行匹配的示意图;
[0019]图7示出本示例性实施方式中一种实体消歧方法的示意性流程图;
[0020]图8示出本示例性实施方式中一种实体消歧装置的结构示意图;
[0021]图9示出本示例性实施方式中一种电子设备的结构示意图。
具体实施方式
[0022]现在将参考附图描述本公开的示例性实施方式。然而,示例性实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例。提供这些实施方式使得本公开将更加全面和完整,并将示例性实施方式的构思全面地传达给本领域技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可
以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
[0023]此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0024]在短文本的场景中,由于短文本存在口语化严重、上下文内容不丰富等缺陷,导致文本语境理解、实体歧义消解的难度更高。此外,中文由于语言自身的特点,与英文相比,语句通常具有多种分词的方式,从而增加了实体的歧义。相关技术针对中文短文本的实体消歧效果很差。
[0025]鉴于上述一个或多个问题,本公开的示例性实施方式首先提供一种实体消歧方法,用于对待识别语句输出对应的目标实体,该目标实体可以是待识别语句的真实实体,从而帮助实现自然语言理解。本示例性实施方式中的实体消岐方法可以包括为实现实体消岐所做的其他相关处理,如实体识别、实体链接、实体统一等。
[0026]下面结合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体消歧方法,其特征在于,包括:确定待识别语句对应的目标意图,并获取所述目标意图的第一词典树和第二词典树,所述第一词典树包含槽位信息,所述第二词典树包含冲突句式;利用所述第一词典树确定所述待识别语句中的关键词对应的候选槽位;通过将各所述关键词对应的候选槽位进行组合,得到第一候选句式;响应于所述第一候选句式的数量大于1,利用所述第二词典树对所述第一候选句式进行匹配,以得到第二候选句式;根据所述第二候选句式得到所述待识别语句对应的目标实体。2.根据权利要求1所述的方法,其特征在于,所述利用所述第一词典树确定所述待识别语句中的关键词对应的候选槽位,包括:将所述待识别语句中的子串与所述第一词典树的节点进行匹配,当匹配成功时,将所述子串确定为关键词子串;根据所述关键词子串确定所述待识别语句中的关键词,并根据与所述关键词子串匹配的所述节点对应的槽位信息确定所述关键词对应的候选槽位。3.根据权利要求2所述的方法,其特征在于,所述根据所述关键词子串确定所述待识别语句中的关键词,还包括:响应于多个所述关键词子串间存在交集,根据所述关键词子串的长度对所述关键词子串进行筛选,以使得筛选后的各所述关键词子串间不存在交集。4.根据权利要求2所述的方法,其特征在于,所述第一词典树还包括第一状态转移数组、第一验证数组、第一回退数组、第一输出数组;所述将所述待识别语句中的子串与所述第一词典树的节点进行匹配,当匹配成功时,将所述子串确定为关键词子串,包括:根据所述第一状态转移数组确定与所述待识别语句中的当前待匹配子串对应的当前待匹配节点;根据所述第一验证数组验证所述当前待匹配子串与所述当前待匹配节点是否匹配成功;当所述当前待匹配子串与所述当前待匹配节点匹配不成功时,根据所述第一回退数组更新所述当前待匹配子串与所述当前待匹配节点;当所述当前待匹配子串与所述当前待匹配节点匹配成功时,若根据所述第一输出数组确定所述当前待匹配节点满足输出条件,则输出所述当前待匹配子串以作为所述关键词子串,并将所述当前待匹配子串的下一字符加入所述当前待匹配子串中以更新所述当前待匹配子串;若根据所述第一输出数组确定所述当前待匹配节点不满足输出条件,则将所述当前待匹配子串的下一字符加入所述当前待匹配子串中以更新所述当前待匹配子串。5.根据权利要求1所述的方法,其特征在于,所述利用所述第二词典树对所述第一候选句式进行匹配,以得到第二候选句式,包括:将所述第一候选句式与所述第二词典树的节点进行匹配,根据匹配成功的所述第一候选句式与所述节点对应的冲突句式中的至少一者确定所述第二候选句式。6.根据权利要求5所述的方法,其特征在于,所述将所述第一候选句式与所述第二词典树的节点进行匹配,根据匹配成功的所述第一候选句式与所述节点对应的冲突句式中的至少一者确定所述第二候选句式,包括:
将所述第一候选句式中的子句式与所述第二词典树的节点进行匹配,当匹配成功时,将所述子句式确定为已匹配子句式,将与所述已匹配子句式匹配的所述节点对应的冲突句式确定为已匹配冲突句式;根据所述已匹配子句式与所述已匹配冲突句式中的至少一者确定所...

【专利技术属性】
技术研发人员:张伟刘海锋
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1