实体链接方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39144225 阅读:22 留言:0更新日期:2023-10-23 14:56
本发明专利技术适用于数据处理技术领域,提供了一种实体链接方法、装置、电子设备及存储介质,该方法包括:从用户输入的查询语句中提取待链接实体;将待链接实体输入至预先训练的实体向量化模型,得到待链接实体对应的向量,根据待链接实体对应的向量,从预设的实体向量库中召回实体;若召回至少一个相似实体,则将每个相似实体分别与待链接实体进行组对,得到每个相似实体对应的实体对;将各个实体对分别输入至预先训练的实体语义相似度模型中计算各个实体对的相似度,基于各个实体对的相似度确定链接结果。本发明专利技术能够提高实体链接的正确率。本发明专利技术能够提高实体链接的正确率。本发明专利技术能够提高实体链接的正确率。

【技术实现步骤摘要】
实体链接方法、装置、电子设备及存储介质


[0001]本专利技术属于数据处理
,尤其涉及一种实体链接方法、装置、电子设备及存储介质。

技术介绍

[0002]实体链接是指根据输入的词语或短句,从知识图谱中找到对应的实体,然后执行后续的查询处理。
[0003]通用的实体链接方法是利用同义词库或文本相似度进行匹配。其中同义词库不能穷举所有的可能,没有写到库里的就不能正确链接。文本相似度匹配只能匹配字面上相似的实体,语义一致但是字面差距较大的无法链接,同时字面相似但是语义不同的实体,可能会误召回。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种实体链接方法、装置、电子设备及存储介质,以提高实体链接的正确率。
[0005]本专利技术实施例的第一方面提供了一种实体链接方法,包括:
[0006]从用户输入的查询语句中提取待链接实体;
[0007]将待链接实体输入至预先训练的实体向量化模型,得到待链接实体对应的向量,根据待链接实体对应的向量,从预设的实体向量库中召回实体;
[0008]若召回至少一个相似实体,则将每个相似实体分别与待链接实体进行组对,得到每个相似实体对应的实体对;
[0009]将各个实体对分别输入至预先训练的实体语义相似度模型中计算各个实体对的相似度,基于各个实体对的相似度确定链接结果。
[0010]结合第一方面,在第一方面的一种可能的实现方式中,实体向量库中包含实体向量化模型计算的多个预设实体的向量;相应的,根据待链接实体对应的向量,从预设的向量库中召回实体,包括:
[0011]根据待链接实体对应的向量、实体向量库中各个预设实体的向量,计算待链接实体与各个预设实体的余弦相似度;
[0012]若存在对应余弦相似度为1的预设实体,则将该为对应余弦相似度为1的预设实体作为相同实体召回;
[0013]若不存在对应余弦相似度为1的预设实体,则从对应余弦相似度大于第一预设阈值的预设实体中,选取至多第一预设数量个对应余弦相似度最高的预设实体作为相似实体召回;其中,0<第一预设阈值<1;
[0014]若预设实体对应余弦相似度均不大于第一预设阈值,则无召回结果。
[0015]结合第一方面,在第一方面的一种可能的实现方式中,基于各个实体对的相似度确定链接结果,包括:
[0016]判断是否存在相似度大于第二预设阈值的实体对,若存在则将相似度大于第二预设阈值的实体对中的相似实体作为链接结果;
[0017]若不存在,则选取相似度大于第三预设阈值的实体对,并按照相似度由大到小排序,第三预设阈值小于第二预设阈值;计算相邻实体对的相似度差值;从相似度最大的实体对开始依次提取实体对,直至全部提取或提取数量达到第二预设数量或当前提取的实体对与下个实体对的相似度差值大于预设的差值阈值;将提取到的实体对中的相似实体作为链接结果;
[0018]若各个实体对的相似度均不大于第三预设阈值,则链接结果为空。
[0019]结合第一方面,在第一方面的一种可能的实现方式中,实体链接方法还包括:若召回相同实体,则将该相同实体作为链接结果;若无召回结果,则链接结果为空。
[0020]结合第一方面,在第一方面的一种可能的实现方式中,预先训练实体向量化模型的过程包括:
[0021]获取多个预设实体以及预设实体之间的标注相似度;
[0022]构建多个训练组,每个训练组包含三个预设实体;
[0023]对于每个训练组,将该训练组中的每个预设实体分别输入至第一原始模型,根据第一原始模型输出的该训练组中的每个预设实体对应的向量,计算其中一个目标预设实体与另外两个预设实体的向量相似度;基于目标预设实体与另外两个预设实体的向量相似度、目标预设实体与另外两个预设实体之间的标注相似度,训练第一原始模型的模型参数,得到实体向量化模型。
[0024]结合第一方面,在第一方面的一种可能的实现方式中,预先训练实体语义相似度模型的过程包括:
[0025]将每两个预设实体进行组对,得到多个训练实体对;
[0026]将每个训练实体对分别输入至第二原始模型,根据第二原始模型输出的每个训练实体对的相似度、以及每个训练实体对中两个预设实体之间的标注相似度,训练第二原始模型的模型参数,得到实体语义相似度模型。
[0027]结合第一方面,在第一方面的一种可能的实现方式中,第一原始模型和第二原始模型均为BERT语言模型。
[0028]本专利技术实施例的第二方面提供了一种实体链接装置,包括:
[0029]提取模块,用于从用户输入的查询语句中提取待链接实体;
[0030]召回模块,用于将待链接实体输入至预先训练的实体向量化模型,得到待链接实体对应的向量,根据待链接实体对应的向量,从预设的实体向量库中召回相同实体或相似实体;
[0031]组队模块,用于若召回至少一个相似实体,则将每个相似实体分别与待链接实体进行组对,得到每个相似实体对应的实体对;
[0032]计算模块,用于将各个实体对分别输入至预先训练的实体语义相似度模型中计算各个实体对的相似度,基于各个实体对的相似度确定链接结果。
[0033]本专利技术实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述第一方面或第一方面的任意一种实现方式中的方法的步骤。
[0034]本专利技术实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面或第一方面的任意一种实现方式中的方法的步骤。
[0035]本专利技术实施例与现有技术相比存在的有益效果是:
[0036]本专利技术实施例通过实体向量化模型对待链接实体进行向量化,根据待链接实体对应的向量,从预设的实体向量库中召回实体,然后通过实体语义相似度模型对相似实体进行排序,确定链接结果,即通过两个语言模型,采用先召回再排序的方式,在提高召回率的同时还能够保持较高的精度。并且,使用两个语言模型可以获取实体的深层语义,然后通过语义相似度找到对应的实体,大幅提高链接正确率。
附图说明
[0037]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本专利技术实施例提供的实体链接方法的流程示意图一;
[0039]图2是本专利技术实施例提供的实体链接方法的流程示意图二;
[0040]图3是本专利技术实施例提供的实体链接装置的结构示意图;
[0041]图4是本专利技术实施例提供的电子设备的结构示意图。
具体实施方式
[0042]以下描述中,为了说明而不是为了限定,提出了诸如特定系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:从用户输入的查询语句中提取待链接实体;将所述待链接实体输入至预先训练的实体向量化模型,得到所述待链接实体对应的向量,根据所述待链接实体对应的向量,从预设的实体向量库中召回实体;若召回至少一个相似实体,则将每个相似实体分别与所述待链接实体进行组对,得到每个相似实体对应的实体对;将各个实体对分别输入至预先训练的实体语义相似度模型中计算各个实体对的相似度,基于各个实体对的相似度确定链接结果。2.如权利要求1所述的实体链接方法,其特征在于,所述实体向量库中包含所述实体向量化模型计算的多个预设实体的向量;相应的,根据所述待链接实体对应的向量,从预设的向量库中召回实体,包括:根据所述待链接实体对应的向量、所述实体向量库中各个预设实体的向量,计算所述待链接实体与各个预设实体的余弦相似度;若存在对应余弦相似度为1的预设实体,则将该为对应余弦相似度为1的预设实体作为相同实体召回;若不存在对应余弦相似度为1的预设实体,则从对应余弦相似度大于第一预设阈值的预设实体中,选取至多第一预设数量个对应余弦相似度最高的预设实体作为相似实体召回;其中,0<第一预设阈值<1;若预设实体对应余弦相似度均不大于第一预设阈值,则无召回结果。3.如权利要求1所述的实体链接方法,其特征在于,基于各个实体对的相似度确定链接结果,包括:判断是否存在相似度大于第二预设阈值的实体对,若存在则将相似度大于第二预设阈值的实体对中的相似实体作为链接结果;若不存在,则选取相似度大于第三预设阈值的实体对,并按照相似度由大到小排序,所述第三预设阈值小于所述第二预设阈值;计算相邻实体对的相似度差值;从相似度最大的实体对开始依次提取实体对,直至全部提取、或提取数量达到第二预设数量、或当前提取的实体对与下个实体对的相似度差值大于预设的差值阈值;将提取到的实体对中的相似实体作为链接结果;若各个实体对的相似度均不大于所述第三预设阈值,则链接结果为空。4.如权利要求2所述的实体链接方法,其特征在于,还包括:若召回相同实体,则将该相同实体作为链接结果;若无召回结果,则链接结果为空。5.如权...

【专利技术属性】
技术研发人员:王正英
申请(专利权)人:长城汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1