实体链接方法、装置及电子设备制造方法及图纸

技术编号:33856722 阅读:17 留言:0更新日期:2022-06-18 10:45
本申请公开了一种实体链接方法、装置及电子设备。所述方法包括:从实体库中召回与目标对话内容对应的候选实体;分别对目标对话内容、与目标对话内容相关的历史对话内容、候选实体及候选实体对应的关联实体进行特征提取,得到各对话内容及各实体各自的语义向量;基于历史对话内容、候选实体及关联实体各自的语义向量以及注意力机制,对目标对话内容的语义向量进行语义增强,得到目标对话内容的目标语义向量;基于关联实体、目标对话内容及历史对话内容各自的语义向量以及注意力机制,对候选实体的语义向量进行语义增强,得到候选实体的目标语义向量;基于目标对话内容及候选实体各自的目标语义向量,对目标对话内容进行实体链接。接。接。

【技术实现步骤摘要】
实体链接方法、装置及电子设备


[0001]本申请涉及人工智能
,尤其涉及一种实体链接方法、装置及电子设备。

技术介绍

[0002]在诸如问答系统中,由于用户输入的语句中常常会出现一些口语化的表达、错别字以及语序颠倒等问题,比如在“机械键盘价格多少啊”这句话中,用户将“机械键盘”误输入为“机械间盘”,为准确理解用户语句所的真实意图,以确保针对用户语句的应答效果,需要对用户输入的语句进行实体链接处理,也即将用户输入的语句中的可能描述实体的片段链接到实体库中对应的实体上。
[0003]目前,实体链接方法大多都是对用户语句进行切词并利用指称(mention)词典获取用户语句中的词语在实体库中对应的实体,进而将用户语句中的词语链接到对应的实体。但是,在用户输入的语句中常常会出现一些口语化的表达、错别字以及语序颠倒等问题时,上述方式可能会将用户语句中的关键词拆分开,进而导致获取的实体的不准确,影响实体链接的准确率。

技术实现思路

[0004]本申请实施例提供一种实体链接方法、装置及电子设备,用于解决现有的实体链接方法存在的链接准确率低的问题。
[0005]为了解决上述技术问题,本申请实施例采用下述技术方案:
[0006]第一方面,本申请实施例提供一种实体链接方法,包括:
[0007]从实体库中召回与待处理的目标对话内容对应的候选实体;
[0008]分别对所述目标对话内容、与所述目标对话内容相关的历史对话内容、所述候选实体及所述候选实体对应的关联实体进行特征提取,得到所述目标对话内容、所述历史对话内容、所述候选实体及所述关联实体各自的语义向量;
[0009]基于所述历史对话内容、所述候选实体及所述关联实体各自的语义向量以及注意力机制,对所述目标对话内容的语义向量进行语义增强,得到所述目标对话内容的目标语义向量;
[0010]基于所述关联实体、所述目标对话内容及所述历史对话内容各自的语义向量以及注意力机制,对所述候选实体的语义向量进行语义增强,得到所述候选实体的目标语义向量;
[0011]基于所述目标对话内容及候选实体各自的目标语义向量,将所述目标对话内容中的实体提及片段链接至与所述目标对话内容对应的候选实体。
[0012]第二方面,本申请实施例提供一种实体链接装置,包括:
[0013]召回模块,用于从实体库中召回与待处理的目标对话内容对应的候选实体;
[0014]第一特征提取模块,用于分别对所述目标对话内容、与所述目标对话内容相关的历史对话内容、所述候选实体及所述候选实体对应的关联实体进行特征提取,得到所述目
标对话内容、所述历史对话内容、所述候选实体及所述关联实体各自的语义向量;
[0015]第一语义增强模块,用于基于所述历史对话内容、所述候选实体及所述关联实体各自的语义向量以及注意力机制,对所述目标对话内容的语义向量进行语义增强,得到所述目标对话内容的目标语义向量;
[0016]第二语义增强模块,用于基于所述关联实体、所述目标对话内容及所述历史对话内容各自的语义向量以及注意力机制,对所述候选实体的语义向量进行语义增强,得到所述候选实体的目标语义向量;
[0017]链接模块,用于基于所述目标对话内容及候选实体各自的目标语义向量,将所述目标对话内容中的实体提及片段链接至与所述目标对话内容对应的候选实体。
[0018]第三方面,本申请实施例提供一种电子设备,包括:
[0019]处理器;
[0020]用于存储所述处理器可执行指令的存储器;
[0021]其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
[0022]第四方面,本申请实施例提供一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
[0023]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0024]通过从实体库中召回与待处理的目标对话内容对应的候选实体,可以起到对实体库中实体进行初筛的作用,以便基于候选实体对目标对话内容进行实体链接处理,可以提升实体链接效率;由于目标对话内容及其相关的历史对话内容可能涉及相同或相似的内容,候选实体及其关联实体也可能涉及相同或相似的内容,基于历史对话内容、候选实体及关联实体各自的语义向量以及注意力机制,对目标对话内容的语义向量进行语义增强,使得得到的目标对话内容的目标语义向量能够更准确地反映目标对话内容与候选实体及关联实体之间在语义上的差异,进而能够更准确地反映目标对话内容的真实意图;基于关联实体、目标对话内容及历史对话内容各自的语义向量以及注意力机制,对候选实体的语义向量进行语义增强,得到候选实体的目标语义向量,使得得到的候选实体的目标语义向量能够更准确地反映候选实体与目标对话内容及历史对话内容之间语义上的差异,进而能够更准确地反映候选实体的含义;基于目标对话内容及召回的候选实体各自经增强后的语义向量,将目标对话内容链接至与所述目标对话内容对应的候选实体,可以确保目标对话内容中的词语链接到实体库中能够准确表达其真实意图的实体上,从而提高实体链接的准确率。
附图说明
[0025]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0026]图1为本申请的一个实施例提供的一种实体链接方法的流程示意图;
[0027]图2为本申请的另一个实施例提供的一种候选实体获取方法的流程示意图;
[0028]图3为本申请的一个实施例提供的一种实体链接模型的结构示意图;
[0029]图4为本申请的一个实施例提供的一种实体链接装置的结构示意图;
[0030]图5为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0031]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0032]本说明书和权利要求书中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书以及权利要求书中“和/或”表示所连接的对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
[0033]本申请实施例涉及到的专业术语包括:
[0034]实体链接:将自然语言数据(或文本)中可能描述实体的片段与实体库中相应的无歧义的实体进行链接。
[0035]停用词:也即Stop Words。在信息检索中,为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:从实体库中召回与待处理的目标对话内容对应的候选实体;分别对所述目标对话内容、与所述目标对话内容相关的历史对话内容、所述候选实体及所述候选实体对应的关联实体进行特征提取,得到所述目标对话内容、所述历史对话内容、所述候选实体及所述关联实体各自的语义向量;基于所述历史对话内容、所述候选实体及所述关联实体各自的语义向量以及注意力机制,对所述目标对话内容的语义向量进行语义增强,得到所述目标对话内容的目标语义向量;基于所述关联实体、所述目标对话内容及所述历史对话内容各自的语义向量以及注意力机制,对所述候选实体的语义向量进行语义增强,得到所述候选实体的目标语义向量;基于所述目标对话内容及候选实体各自的目标语义向量,将所述目标对话内容中的实体及片段链接至与所述目标对话内容对应的候选实体。2.根据权利要求1所述的方法,其特征在于,所述基于所述历史对话内容、所述候选实体及所述关联实体各自的语义向量以及注意力机制,对所述目标对话内容的语义向量进行语义增强,得到所述目标对话内容的目标语义向量,包括:基于自注意力机制和所述历史对话内容的语义向量,对所述目标对话内容的语义向量进行语义增强,得到所述目标对话内容的增强语义向量;基于自注意力机制和实体集合中各实体的语义向量,对所述实体集合中其他实体的语义向量进行语义增强,得到所述实体集合中各实体的增强语义向量,其中,所述实体集合包括所述候选实体和所述关联实体;基于交叉注意力机制和所述实体集合中各实体的增强语义向量,对所述目标对话内容的增强语义向量进行语义增强,得到所述目标对话内容的目标语义向量。3.根据权利要求1所述的方法,其特征在于,所述基于所述关联实体、所述目标对话内容及所述历史对话内容各自的语义向量以及注意力机制,对所述候选实体的语义向量进行语义增强,得到所述候选实体的目标语义向量,包括:基于自注意力机制和所述关联实体的语义向量,对所述候选实体的语义向量进行语义增强,得到所述候选实体的增强语义向量;基于自注意力机制和对话集合中各对话内容的语义向量,对所述对话集合中其他对话内容的语义向量进行语义增强,得到所述对话集合中各对话内容的增强语义向量,其中,所述对话集合包括所述目标对话内容和所述历史对话内容;基于交叉注意力机制和所述对话集合中各对话内容的增强语义向量,对所述候选实体的增强语义向量进行语义增强,得到所述候选实体的目标语义向量。4.根据权利要求1所述的方法,其特征在于,所述基于所述目标对话内容及候选实体各自的目标语义向量,将所述目标对话内容中的实体提及片段链接至与所述目标对话内容对应的候选实体,包括:基于所述目标对话内容及候选实体各自的目标语义向量,确定所述目标对话内容与所述候选实体之间的匹配程度;若所述目标对话内容与所述候选实体之间的匹配,则将所述目标对话内容中的实体提及片段链接至所述候选实体。
5.根据权利要求4所述的方法,其特征在于,在基于所述目标对话内容及候选实体各自的目标语义向量,确定所述目标对话内容与所述候选实体之间的匹配程度之前,所述方法还包括:基于召回所述候选实体所使用的召回模式,获取所述目标对话内容及所述候选实体各自对应于所述召回模式的实体特征;所述基于所述目标对话内容及候选实体各自的目标语义向量,确定所述目标对话内容与所述候选实体之间的匹配程度,包括:基于所述目标对话内容及所述候选实体各自的目标语义向量,确定所述目标对话内容与所述候选实体之间的第一相似度;基于所述目标对话内容及所述候选实体各自对应于所述召回模式的实体特征,确定所述目标对话内容与所述候选实体之间的第二相似度;基于所述第一相似度和所述第二相似度,确定所述目标对话内容与所述候选实体之间的匹配程度。6.根据权利要求4所述的方法,其特征在于,所述基于所述目标对话内容及候选实体各自的目标语义向量,确定所述目标对话内容与所述候选实体之间的匹配程度之间的匹配程度,包括:将所述目标对话内容及候选实体各自的目标语义向量输入匹配网络,得到所述目标对话内容与所述候选实体之间的匹配程度,其中,所述匹配网络是以不同的第一样本字符串的语义向量作为输入、以所述不同的第一样本字符串之间的匹配程度作为输出进行训练得到的。7.根据权利要求1所述的方法,其特征在于,所述在基于所述目标对话内容及候选实体各自的目标语义向量,确定所述目标对话内容与所述候选实体之间的匹配程度之前,所述方法还包括:基于召回所述候选实体所使用的召回模式,获取所述目标对话内容及所述候选实体各自对应于所述召回模式的实体特征;所述基于所述目标对话内容及候选实体各自的目标语义向量,确定所述目标对话内容与所述候选实体之间的匹配程度之间的匹配程度,包括:基于召回所述候选实体所使用的召回模式以及所述目标对话内容及所述候选实体各自对应于召回模式的实体特征,确定候选实体的来源特征向量;将所述目标对话内容的目标语义向量、所述候选实体的目标语义向量以及所述候选实体的来源特征向量输入预先训练的匹配网络,输出目标对话内容与候选实体之间的匹配程度,其中,所述匹配网络是以不同的第一样本字符串的语义向量及来源特征向量作为输入、以所述不同的第一样本字符串之间的匹配程度作为输出进行训练得到的。8.根据权利要求1所述的方法,其特征在于,所述分别对所述目标对话内容、与所述目标对话内容相关的历史对话内容、所述候选实体及所述候选实体对应的关联实体进行特征提取,包括:将所述目标对话内容、所述历史对话内容、所述候选实体及所述候选实体对应的关联实体输入特征提取网络,得到所述目标对话内容、所述历史对话内容、所述候选实体及所述关联实体各自的语义向量,其中,所述特征提取网络是以不同的第二样本字符串作为输入、
以所述不同的第二样本字符串的语义向量作为输出进行训练得到的。9.根据权利要求1所述的方法,其特征在于,所述从实体库中召回与待处理的目标对话内容对应的候选实体,包括:通过多种召回模式,从实体库中获取所述目标对话内容对应的召回实体;基于获取的召回实体,确定所述目标对话内容对应的候选实体。10.根据权利要求9所述的方法,其特征在于,若所述多种召回模式包括规则召回模式,从实体库中获取所述目标对话内容对应的...

【专利技术属性】
技术研发人员:邓泽贵蒋宁王洪斌吴海英
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1