【技术实现步骤摘要】
候选实体排序方法、训练方法及相关装置
本申请涉及信息检索领域,尤其涉及一种候选实体排序方法、训练方法及相关装置。
技术介绍
实体链接是指将文本中的实体指称链向知识库实体的过程,它能够丰富文本语义信息,在自然语言处理、信息检索等领域有着广泛的应用前景。实体链接的研究主要分两大块:候选集合的生成(即候选生成)和对候选集合的消岐(即候选排序)。候选实体排序方法主要有基于流行度的候选实体排序、基于上下文相关性的候选实体排序和基于有监督学习的候选实体排序。基于实体流行度的候选实体方法的缺点在于没有考虑上下文。这就使得无论查询名称的上下文是什么,这种方法都会给出一样的答案,而当目标实体不是最流行实体时就会出错。传统的基于上下文相关性和监督学习的方案只能在有限的训练样本中对后续集进行分类排序,排序的准确率和召回率都较低。因此,需要研究排序的准确率和召回率较高的候选实体排序方法。
技术实现思路
本申请实施例公开了一种候选实体排序方法、训练方法及相关装置,排序的准确率和召回率较高。第一方面,本申请实施例提供 ...
【技术保护点】
1.一种候选实体排序方法,其特征在于,包括:/n将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量;所述第一句子向量是处理实体指称项文本得到的句子向量,所述第二句子向量为处理目标候选实体得到的句子向量,所述目标候选实体为实体指称项的候选实体集中的任一候选实体,所述第一句子向量和所述第二句子向量中的元素一一对应,所述实体指称项文本为所述实体指称项所在的文本;/n将所述第一句子向量和所述第二句子向量中相对应的元素相减以得到第二特征向量;/n根据所述第一特征向量和所述第二特征向量,确定所述目标候选实体与所述实体指称项之间的相似度;/n对所述候选实体集中的各候选实体进 ...
【技术特征摘要】
1.一种候选实体排序方法,其特征在于,包括:
将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量;所述第一句子向量是处理实体指称项文本得到的句子向量,所述第二句子向量为处理目标候选实体得到的句子向量,所述目标候选实体为实体指称项的候选实体集中的任一候选实体,所述第一句子向量和所述第二句子向量中的元素一一对应,所述实体指称项文本为所述实体指称项所在的文本;
将所述第一句子向量和所述第二句子向量中相对应的元素相减以得到第二特征向量;
根据所述第一特征向量和所述第二特征向量,确定所述目标候选实体与所述实体指称项之间的相似度;
对所述候选实体集中的各候选实体进行排序;其中,所述候选实体集中的各候选实体的排序和所述各候选实体与所述实体指称项之间的相似度正相关。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征向量和所述第二特征向量,确定所述目标候选实体与所述实体指称项之间的相似度包括:
将所述第一特征向量输入至训练得到的目标神经网络的全连接层进行处理得到第三特征向量以及将所述第二特征向量输入至所述全连接层进行处理得到第四特征向量;
计算所述第三特征向量和所述第四特征向量的相似度,得到所述目标候选实体与所述实体指称项之间的相似度。
3.根据权利要求2所述的方法,其特征在于,所述目标神经网络包括深度神经网络和所述全连接层,所述深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量。
4.根据权利要求3所述的方法,其特征在于,所述将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量之前,所述方法还包括:
获得用于表征所述实体指称项文本的第一输入词向量矩阵;
将所述第一输入词向量矩阵输入至所述深度神经网络进行处理,得到所述第一句子向量;其中,所述深度神经网络包括多层双向变换器,所述多层双向变换器用于对所述第一输入词向量矩阵进行特征提取以得到所述第一句子向量。
5.根据权利要求3或4所述的方法,其特征在于,所述将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量之前,所述方法还包括:
获得用于表征所述目标候选实体的第二输入词向量矩阵;
将所述第二输入词向量矩阵输入至所述深度神经网络进行处理,得到所述第二句子向量;其中,所述多层双向变换器用于对所述第二输入词向量矩阵进行特征提取以得到所述第二句子向量。
6.根据权利要求5所述的方法,其特征在于,所述获得用于表征所述实体指称项文本的第一输入词向量矩阵包括:
对所述实体指称项文体做分词,得到至少一个分词;
利用所述至少一个分词中每个分词对应的词向量构建所述第一输入词向量矩阵。
7.一种训练方法,其特征在于,包括:
利用第一训练数据训练初始化的深度神经网络,得到目标深度神经网络;所述目标深度神经网络用于对输入的词向量矩阵...
【专利技术属性】
技术研发人员:张金晶,泮华杰,门睿,宁潇,周萱,杨璧嘉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。