一种基于无监督多示例学习的实体链接方法及装置制造方法及图纸

技术编号:32784458 阅读:24 留言:0更新日期:2022-03-23 19:43
本发明专利技术涉及一种基于无监督多示例学习的实体链接方法,包括:输入文本序列,将文本序列输入知识图谱,以将实体提及对齐到知识图谱中语义相近的多个实体;根据实体和实体提及,获取正包实体候选集合;根据正包实体候选集合和图谱,确定负包实体候选集合;根据词向量模型,获取文本序列的字向量和位置向量,并输入多层网络,得到网络最后一层的第一状态向量;将第二状态向量和第三状态向量输入前馈神经网络,得到第一分数和第二分数;根据第一分数和第二分数,构建损失函数;预测时,取第一分数,当第一分数大于预设阈值时,保留多个正包;使用重排序的方法对正包中的实体进行排序,选择分数最高的正包作为实体提及连接到的实体。最高的正包作为实体提及连接到的实体。最高的正包作为实体提及连接到的实体。

【技术实现步骤摘要】
一种基于无监督多示例学习的实体链接方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种基于无监督多示例学习的实体链接方法及装置。

技术介绍

[0002]近年来,随着互联网语义知识库如dbpedia和短文本信息平台如微博、短信等的飞速发展,将短文本内容语义化使得用户和计算机可以有效地检索和利用短文本的语义信息,为实现短文本数据的语义分析提供必要的基础。还可以对互联网知识库进行实时扩充,提高互联网知识库的动态更新能力。现有技术中,在进行实体对齐时,所采用的方法如下:首先,使用Google发布的BERT中文语言模型,通过在其fine

tuning微调阶段设置参数获取输出层的倒数第二层获得实体词向量;然后,根据获得的实体词向量计算不同实体之间的余弦距离,即语义相似度;最后,通过设置阈值,依据语义相似度进行实体对齐。
[0003]单纯的向量余弦距离获得的分数最高的实体,这种方法准确率有提升空间。

技术实现思路

[0004]本专利技术的目的是提供一种基于无监督多示例学习的实体链接方法及装置,以解决现有技术中的通过单纯的向量余弦距离获得的分数最高的实体准确率不高的问题。
[0005]为解决上述问题,本专利技术第一方面提供了一种基于无监督多示例学习的实体链接方法,所述方法包括:
[0006]输入文本序列,所述文本序列中标有实体提及;
[0007]将所述文本序列输入知识图谱,以将实体提及对齐到所述知识图谱中语义相近的多个实体;
[0008]根据所述实体和所述实体提及,获取正包实体候选集合;所述正包实体候选集合中具有多个正包,所述多个正包具有第一向量;
[0009]根据所述正包实体候选集合和所述图谱,确定负包实体候选集合;所述负包实体候选集合中具有多个负包,所述多个负包具有第二向量;
[0010]根据词向量模型,获取所述文本序列的字向量和位置向量,并输入多层网络,得到所述网络最后一层的第一状态向量;
[0011]将所述第一向量和所述第一状态向量进行拼接,得到第二状态向量;将所述第二向量和所述第一状态向量进行拼接,得到第三状态向量;将所述第二状态向量和所述第三状态向量输入前馈神经网络,得到第一分数和第二分数;
[0012]根据所述第一分数和所述第二分数,构建损失函数;
[0013]预测时,取第一分数,当所述第一分数大于预设阈值时,保留多个所述正包;
[0014]使用重排序的方法对所述正包中的实体进行排序,选择分数最高的正包作为实体提及连接到的实体。
[0015]在一种可能的实现方式中,所述根据所述实体和所述实体提及,获取正包实体候
选集合具体包括:
[0016]通过词向量获取模型分别获取所述知识图谱中多个实体的实体向量和实体提及的向量;
[0017]计算所述实体向量和所述实体提及的向量的余弦相似度;
[0018]选择相似度最高的N个实体作为正包;
[0019]计算所述正包的实体向量的平均值,得到第一向量。
[0020]在一种可能的实现方式中,所述根据所述正包实体候选集合和所述图谱,确定负包实体候选集合具体包括:
[0021]从所述知识图谱中的多个实体中选取多个不在正包实体候选集合中的实体,将多个不在正包实体候选集合内的实体作为负包实体候选集合;所述负包实体候选集合包括多个负包;
[0022]计算多个所述负包的实体向量的平均值,得到第二向量。
[0023]在一种可能的实现方式中,所述多层网络为BiLSTM网络。
[0024]在一种可能的实现方式中,所述根据所述第一分数和所述第二分数,构建损失函数具体包括:
[0025]所述损失函数为:
[0026]其中,δ表示超参数;如果x>0,[x]+
=x,否则[x]+
=0,P表示文本序列中所有(m,c)的集合,其中,s(e,m,c)
+
为第一分数,s(e,m,c)

为第二分数。
[0027]第二方面,本专利技术提供了一种基于无监督多示例学习的实体链接装置,所述装置包括:
[0028]第一输入模块,所述第一输入模块用于输入文本序列,所述文本序列中标有实体提及;
[0029]第二输入模块,所述第二输入模块用于将所述文本序列输入知识图谱,以将实体提及对齐到所述知识图谱中语义相近的多个实体;
[0030]获取模块,所述获取模块用于根据所述实体和所述实体提及,获取正包实体候选集合;所述正包实体候选集合中具有多个正包,所述多个正包具有第一向量;
[0031]确定模块,所述确定模块用于根据所述正包实体候选集合和所述图谱,确定负包实体候选集合;所述负包实体候选集合中具有多个负包,所述多个负包具有第二向量;
[0032]所述获取模块还用于根据词向量模型,获取所述文本序列的字向量和位置向量;
[0033]第三输入模块,所述第三输入模块用于将所述字向量和位置向量输入多层网络,得到所述网络最后一层的第一状态向量;
[0034]拼接模块,所述拼接模块用于将所述第一向量和所述第一状态向量进行拼接,得到第二状态向量;将所述第二向量和所述第一状态向量进行拼接,得到第三状态向量;将所述第二状态向量和所述第三状态向量输入前馈神经网络,得到第一分数和第二分数;
[0035]构建模块,所述构建模块用于根据所述第一分数和所述第二分数,构建损失函数;
[0036]预测模块,所述预测模块用于预测时,取第一分数,当所述第一分数大于预设阈值时,保留多个所述正包;
[0037]重排序模块,所述重排序模块用于使用重排序的方法对所述正包中的实体进行排
序,选择分数最高的正包作为实体提及连接到的实体。
[0038]在一种可能的实现方式中,所述获取模块具体用于:
[0039]通过词向量获取模型分别获取所述知识图谱中多个实体的实体向量和实体提及的向量;
[0040]计算所述实体向量和所述实体提及的向量的余弦相似度;
[0041]选择相似度最高的N个实体作为正包;
[0042]计算所述正包的实体向量的平均值,得到第一向量。
[0043]在一种可能的实现方式中,所述确定模块具体用于:
[0044]从所述知识图谱中的多个实体中选取多个不在正包实体候选集合中的实体,将多个不在正包实体候选集合内的实体作为负包实体候选集合;所述负包实体候选集合包括多个负包;
[0045]计算多个所述负包的实体向量的平均值,得到第二向量。
[0046]在一种可能的实现方式中,所述多层网络为BiLSTM网络。
[0047]在一种可能的实现方式中,所述构建模块具体用于:
[0048]所述损失函数为:
[0049]其中,δ表示超参数;如果x>0,[x]+
=x,否则[x]+
=0,P表示文本序列中所有(m,c)的集合,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督多示例学习的实体链接方法,其特征在于,所述方法包括:输入文本序列,所述文本序列中标有实体提及;将所述文本序列输入知识图谱,以将实体提及对齐到所述知识图谱中语义相近的多个实体;根据所述实体和所述实体提及,获取正包实体候选集合;所述正包实体候选集合中具有多个正包,所述多个正包具有第一向量;根据所述正包实体候选集合和所述图谱,确定负包实体候选集合;所述负包实体候选集合中具有多个负包,所述多个负包具有第二向量;根据词向量模型,获取所述文本序列的字向量和位置向量,并输入多层网络,得到所述网络最后一层的第一状态向量;将所述第一向量和所述第一状态向量进行拼接,得到第二状态向量;将所述第二向量和所述第一状态向量进行拼接,得到第三状态向量;将所述第二状态向量和所述第三状态向量输入前馈神经网络,得到第一分数和第二分数;根据所述第一分数和所述第二分数,构建损失函数;预测时,取第一分数,当所述第一分数大于预设阈值时,保留多个所述正包;使用重排序的方法对所述正包中的实体进行排序,选择分数最高的正包作为实体提及连接到的实体。2.根据权利要求1所述的方法,其特征在于,所述根据所述实体和所述实体提及,获取正包实体候选集合具体包括:通过词向量获取模型分别获取所述知识图谱中多个实体的实体向量和实体提及的向量;计算所述实体向量和所述实体提及的向量的余弦相似度;选择相似度最高的N个实体作为正包;计算所述正包的实体向量的平均值,得到第一向量。3.根据权利要求1所述的方法,其特征在于,所述根据所述正包实体候选集合和所述图谱,确定负包实体候选集合具体包括:从所述知识图谱中的多个实体中选取多个不在正包实体候选集合中的实体,将多个不在正包实体候选集合内的实体作为负包实体候选集合;所述负包实体候选集合包括多个负包;计算多个所述负包的实体向量的平均值,得到第二向量。4.根据权利要求1所述的方法,其特征在于,所述多层网络为BiLSTM网络。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一分数和所述第二分数,构建损失函数具体包括:所述损失函数为:其中,δ表示超参数;如果x>0,[x]
+
=x,否则[x]
+
=0,P表示文本序列中所有(m,c)的集合,其中,s(e,m,c)
+
为第一分数,s(e,m,c)

为第二分数。6.一种基于无监督多示例学习的实体链接装置,其特征在于,所述装置包括:
第一输入模块,所述...

【专利技术属性】
技术研发人员:史亚飞李霄寒
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1