一种实体对齐方法、装置、设备及介质制造方法及图纸

技术编号:23343606 阅读:34 留言:0更新日期:2020-02-15 03:57
本申请提供的实体对齐方法,可用于人工智能领域的知识库中的实体对齐,包括:获取所有实体的属性信息,属性信息为与实体相关的文本信息;对属性信息进行切词,得到单词集合;获取单词集合中各个单词的词向量,得到词向量集合;根据词向量集合,获取每个词向量所在文本的文本属性值向量;根据每个实体所包含文本的文本属性值向量,获取每个实体的实体相似度向量;判定实体相似度向量的相似度高于预设值的两个实体为相似实体,以实现实体对齐。本申请实施例还提供一种装置、设备及介质,通过自然语言处理技术将词向量转化为文本向量的方式,将实体的属性信息向量化,从而通过语义分析的方式应用了实体的文本特征,提升了实体对齐的准确性。

A solid alignment method, device, equipment and medium

【技术实现步骤摘要】
一种实体对齐方法、装置、设备及介质
本专利技术涉及计算机
,更具体地说,涉及一种实体对齐方法、装置、设备及介质。
技术介绍
实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,例如:球员A所在的球队为队伍B,则球员A和队伍B都是实体,他们的关系就是所属球队和球员关系,球员A--->所属球队--->队伍B,队伍B--->球员--->球员A。知识库中包含多种类别的实体。实体对齐(EntityAlignment)也被称作实体匹配(EntityMatching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。例如对于“张三”实体而言,A网站上记录有关于张三的百科资料,B网站上同样记录有关于张三的简介信息,在AB两个网站上所记载的张三为同一实体,因此需要通过实体对齐的方式将两个中所记录的实体判定为同一实体,以在知识库关于“张三”的词条中实现实体对齐。知识库中的实体通过自然语言进行记录,需要通过自然语言处理(NatureLanguageprocess本文档来自技高网...

【技术保护点】
1.一种实体对齐方法,其特征在于,包括:/n获取所有实体的属性信息,所述属性信息为与所述实体相关的文本信息;/n对所述属性信息进行切词,得到单词集合;/n获取所述单词集合中各个单词的词向量,得到词向量集合;/n根据所述词向量集合,获取每个词向量所在文本的文本属性值向量;/n根据每个所述实体所包含文本的所述文本属性值向量,获取每个实体的实体相似度向量;/n判定所述实体相似度向量的相似度高于预设值的两个实体为相似实体,以实现实体对齐。/n

【技术特征摘要】
1.一种实体对齐方法,其特征在于,包括:
获取所有实体的属性信息,所述属性信息为与所述实体相关的文本信息;
对所述属性信息进行切词,得到单词集合;
获取所述单词集合中各个单词的词向量,得到词向量集合;
根据所述词向量集合,获取每个词向量所在文本的文本属性值向量;
根据每个所述实体所包含文本的所述文本属性值向量,获取每个实体的实体相似度向量;
判定所述实体相似度向量的相似度高于预设值的两个实体为相似实体,以实现实体对齐。


2.根据权利要求1所述的方法,其特征在于,所述根据所述词向量集合,获取每个词向量所在文本的文本属性值向量,包括:
分别获取两个待比较实体各自的词向量集合;
根据所述两个待比较实体的词向量集合之间各个词向量的向量内积的值得到第一矩阵;
根据所述第一矩阵获取所述两个待比较实体之间各个单词的单词相似值;
将所述两个待比较实体各自的单词相似值相加,得到两个待比较实体各自的文本属性相似值;
通过归一化算法将所述两个待比较文本各自的文本属性相似值转化为文本属性值向量。


3.根据权利要求1所述的方法,其特征在于,所述分别获取两个待比较实体各自的词向量集合,包括:
获取第一实体的第一词向量集合,所述第一词向量集合中包括u1[1]、u1[2]至u1[m]的m个词向量;
获取第二实体的第二词向量集合,所述第二词向量集合中包括u2[1]、u2[2]至u2[k]的k个词向量;
所述根据所述两个待比较实体的词向量集合之间各个词向量的向量内积的值得到第一矩阵,包括:
计算所述第一词向量集合与所述第二词向量集合的向量内积,得到m×k的矩阵W,其中,所述矩阵W中的元素W[i][j]等于向量u1[i]和向量u2[j]的第一cos值,所述u1[i]为所述第一词向量集合中的一个向量所述i为大于等于1小于等于m的任意一个正整数,所述u2[j]为所述第二词向量集合中的一个向量,所述j为大于等于1小于等于k的任意一个正整数。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第一矩阵获取所述两个待比较实体之间各个单词的单词相似值,包括:
获取所述第一词向量集合各个词向量与所述第二词向量集合中各个词向量的上下文相似度b1[n],其中,所述n大于1小于k,所述b1[n]=W[n][1]+W[n][2]+….+W[n][k];
获取所述第二词向量集合各个词向量与所述第一词向量集合中各个词向量的上下文相似度b2[r],其中,所述r大于1小于m,所述b2[r]=W[r][1]+W[r][2]+….+W[r][m]。


5.根据权利要求3所述的方法,其特征在于,所述根据所述第一矩阵获取所述两个待比较实体之间各个单词的单词相似值,包括:
获取所述第一词向量集合各个词向量与所述第二词向量集合中各个词向量的上下文相似度b...

【专利技术属性】
技术研发人员:王策杜东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1