一种基于Bert的实体链接方法技术

技术编号：27839365 阅读：16 留言：0更新日期：2021-03-30 12:18

本发明专利技术涉及信息检索的技术领域，特别是涉及一种基于Bert的实体链接方法；包括以下步骤：S1、知识库包括很多实体，每个实体的信息包括一个唯一的实体id、别名以及实体相关的属性和属性值；S2、数据分析和处理；S3、实体识别；S4、实体消歧：实体消歧的实现是基于二分类，训练时选取连接到的实体作为正例，在候选实体里选取两个负例。选取两个负例。选取两个负例。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Bert的实体链接方法

[0001]本专利技术涉及信息检索的
，特别是涉及一种基于Bert的实体链接方法。

技术介绍

[0002]实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务，是解决实体间存在的歧义性问题。其潜在的应用包括信息提取、信息检索和知识库填充，但由于名称的变化和实体的模糊性，此任务具有挑战性。实体的歧义性体现在两个方面，第一，实体可能存在多词同义的情况(需链接)，即一个实体可以用多个实体指称来表示，比如麻省理工学院和MIT都是指美国麻省同一个实体。同时，实体也有一词多义的现象(需消歧)，即同一个实体指称可以表示多个实体，例如苹果可以是水果也可以是Apple公司。实体链接算法需要通过实体指称及其上下文的文本信息，借助目标知识图谱，将其链接到知识图谱中正确的映射实体上。
[0003]面向中文短的实体链接，是NLP领域的基础任务之一，即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等)识别出其中的实体，并与给定知识库中的对应实体进行关联。 ERL整个过程包括实体识别和实体链指两个子任务。这一问题存在几大难点：(1)文本口语化导致实体歧义消解困难；(2)短文本上下文语境不丰富，须对上下文语境进行精准理解；(3)和英文相比，中文由于语言自身的特点，在短文本的链指问题上更有挑战。

技术实现思路

[0004]为解决上述技术问题，本专利技术提供一种基于Bert的实体链接方法。
[0005]本专利技术的...

【技术保护点】

【技术特征摘要】
1.一种基于Bert的实体链接方法，其特征在于，包括以下步骤：S1、知识库包括很多实体，每个实体的信息包括一个唯一的实体id、别名以及实体相关的属性和属性值；S2、数据分析和处理；S3、实体识别；S4、实体消歧：实体消歧的实现是基于二分类，训练时选取连接到的实体作为正例，在候选实体里选取两个负例。2.如权利要求1所述的一种基于Bert的实体链接方法，其特征在于，所述步骤S2具体步骤如下：S201、数据清洗，处理特殊符号、标点；S202、统计短文本长度，统一做归一化；S203、构造若干字典，包括entity
‑
id(key：实体名字value：kb_id列表),id
‑
entity(key:kb_id value:实体名称),id
‑
text(key：kb_id value:实体描述文本)。3.如权利要求2所述的一种基于Bert的实体链接方法，其特征在于，所述步骤S3包括如下步骤：S...

【专利技术属性】
技术研发人员：胡博钦，谢水庚，张晶亮，郝志强，樊涛，
申请(专利权)人：北京航天云路有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人