实体链接方法技术

技术编号:39778084 阅读:23 留言:0更新日期:2023-12-22 02:24
本发明专利技术公开了一种实体链接方法

【技术实现步骤摘要】
实体链接方法、装置、电子设备及计算机可读存储介质


[0001]本专利技术涉及实体链接
,尤其是涉及一种实体链接方法

装置

电子设备及计算机可读存储介质


技术介绍

[0002]随着网络数据以指数级别增长,大量的数据在网络上以自然语言的形式呈现,对于一些人工智能系统,例如智能问答系统,用户与机器交互主要是通过自然语言的形式进行,因此机器需要能够准确识别和理解文本及其含义

但是,自然语言本身具有高度的歧义性,尤其是对于一些出现频率较高的字符串或词汇,它们对应多个含义,而每个含义又对应多个同名实体,不利于机器识别

理解和区分

因此,需要利用实体链接技术将一段文本中的某些字符串或词汇映射到实体库中对应的实体上,以对自然语言进行标注

[0003]在相关现有技术中,实体链接一般包括实体候选生成及实体消歧

实体候选生成主要通过词典匹配或统计学方式来实现,实体消歧的方式主要包括:通过基于空间向量模型的方法,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种实体链接方法,其特征在于,包括以下步骤:接收输入文本;生成对应于所述输入文本的实体候选集,所述实体候选集中包括多个候选实体及其对应的热度信息;获取多个所述候选实体的相似度分数;根据多个所述候选实体的相似度分数及多个所述候选实体对应的热度信息对所述实体候选集进行消歧处理,得到目标候选实体;根据所述目标候选实体进行实体链接
。2.
根据权利要求1所述的实体链接方法,其特征在于,生成对应于所述输入文本的实体候选集,包括:基于预设检索工具构建实体库;将所述实体库的实体与输入的热度信息关联,得到所述实体候选集
。3.
根据权利要求1所述的实体链接方法,其特征在于,获取多个所述候选实体的相似度分数,包括:基于打分模型对分别对多个所述候选实体进行相似度打分,得到多个所述候选实体的相似度分数
。4.
根据权利要求1所述的实体链接方法,其特征在于,基于打分模型对分别对多个所述候选实体进行相似度打分,包括:对所述输入文本进行编码;将编码后的输入文本分别与各候选实体进行拼接,得到拼接文本;基于所述打分模型对各拼接文本进行相似度打分,得到多个所述候选实体的相似度分数
。5.
根据权利要求4所述的实体链接方法,其特征在于,对所述输入文本进行编码,包括:确定所述输入文本中的实体提及;在所述实体提及的前端和后端插入预设分隔标记,以对所述输入文本进行编码
。6.
根据权利要求1所述的实体链接方法,其特征在于,所述热度信息包括热度值,所述根据多个所述候选实体的相似度分数及多个所述候选实体对应的热度信息对所述实体候选集进行消歧处理,得到目标候选实体,包括:根据各所述候选实体的相似度分数及各所述候选实体对应的热度值对应计算各所述候选实体的最终相似度分数;将得到的各所述候选实体的最终相似度分数中的最大值作对应的候选实体作为所述目标候选实体
。7.
根据权利要求6所述的实体链接方法,其特征在于,根据各所述候选实体的相似度分数及各所述候选实...

【专利技术属性】
技术研发人员:张向阳陈浩吴子俊赵耀
申请(专利权)人:北京通用人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1