一种面向中文短文本的实体链接方法技术

技术编号:38812610 阅读:17 留言:0更新日期:2023-09-15 19:51
本发明专利技术属于自然语言处理技术领域,尤其涉及一种面向中文短文本的实体链接方法,包括以下步骤:S1、对知识库进行处理,构建候选实体字典和知识库实体字典;S2、构建候选实体集,用于为待消歧文本中的实体指称过滤掉知识库中的不相关实体;S3、使用预设的候选实体排序的底层模型,对候选实体集中的候选实体依次进行训练;S4、通过预设的阈值判断不可链接的实体指称。本发明专利技术可以提高中文短文本实体链接的准确率,推进实体链接任务的实际应用。推进实体链接任务的实际应用。推进实体链接任务的实际应用。

【技术实现步骤摘要】
一种面向中文短文本的实体链接方法


[0001]本专利技术属于自然语言处理
,尤其涉及一种面向中文短文本的实体链接方法。

技术介绍

[0002]实体链接任务的目标是将文本中的指称映射到知识库中的相应实体。由于自然语言表达的多样性,一个指称可能对应多个实体(一词多义),或者同一实体可以由多个指称表达(多词一义),难以较好的处理自然语言文本中歧义问题,更无法获取文本的深层语义,从而限制了对文本数据的进一步应用。
[0003]近年来,随着深度学习和大数据处理技术的发展,自然语言处理相关算法和模型逐渐应用到各个领域。作为自然语言处理的一个分支,实体链接根据给定的待消歧文本及实体指称,链接到知识库中对应的实体,已被广泛应用于信息抽取、问答系统、推荐系统等多个下游任务。
[0004]然而,由于短文本存在句子长度短、表达不正式、语法结构不完整等特点,很难从有限的上下文中抽取关键信息,且无法准确预测实体指称的目标实体,现有针对长文本语境的实体链接方法难以应用到短文本语境。
[0005]综上,怎样才能提高中文短文本实体链接的准确率,以推进实体链接任务的实际应用,成为目前亟待解决的问题。

技术实现思路

[0006]针对上述现有技术的不足,本专利技术提供了一种面向中文短文本的实体链接方法,可以提高中文短文本实体链接的准确率,推进实体链接任务的实际应用。
[0007]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0008]一种面向中文短文本的实体链接方法,包括以下步骤:
[0009]S1、对知识库进行处理,构建候选实体字典和知识库实体字典;
[0010]S2、构建候选实体集,用于为待消歧文本中的实体指称过滤掉知识库中的不相关实体;
[0011]S3、使用预设的候选实体排序的底层模型,对候选实体集中的候选实体依次进行训练;
[0012]S4、通过预设的阈值判断不可链接的实体指称。
[0013]优选地,S1中,候选实体字典以实体指称mention为key,以候选实体id集合为values,即{mention:[id_list]}。
[0014]优选地,S1中,知识库实体字典以实体id为key,以实体名称ent_name,实体描述ent_desc,实体类型type为values,即{kb_id:<ent_name,ent_desc,type>}。
[0015]优选的,S2中,构建候选实体集的过程包括:使用CN

DBpedia中文通用知识库对知识库的实体进行同义词扩展,同时对知识库的对应标签进行修正;对于待消歧文本中的每
一个实体指称,通过计算指称和实体的先验概率p(e|m)在知识库中找出所有相关的候选实体,组成初始候选实体集;再通过负采样策略进行数据增强,对文本中的每一个实体指称进行负采样,负采样的结果为不匹配的指称实体对的集合,将其与初始候选实体集合并得到最终集合。
[0016]优选地,S2中,先验概率p(e|m)的计算方式如下:
[0017][0018]其中,count(m,e)表示实体指称m指向候选实体e的超链接数,count(m)表示维基百科中以实体指称m为表面形式的超链接数。
[0019]优选地,S3中,预设的候选实体排序的底层模型为中文预训练语言模型bert

base

chinese。
[0020]优选地,S3中,对候选实体集中的候选实体依次进行训练时,将知识库中的候选实体集与待消歧文本以[SEP]分隔符分开作为整个模型的输入,将BERT模型输出的位置向量与实体指称对应的开始和结束位置向量拼接作为全连接层的输入,得到实体指称与实体的相似度得分并排序。
[0021]优选地,S4中,判断不可链接的实体指称时,如果候选实体集中得分最高的实体小于阈值,则实体指称预测为不可链接,并返回NIL作为指称的链接结果;否则,返回该实体作为指称的正确链接实体。
[0022]本专利技术与现有技术相比,具有如下有益效果:
[0023]1、使用本方法,首先对知识库进行处理,构建候选实体字典和知识库实体字典。区别于传统的候选实体生成方法(表面形式扩展、别名词典以及先验概率),本方法结合CN

DBpedia中文通用领域知识库扩充并优化部分实体;接着计算先验概率生成候选实体集,同时引入负采样策略扩充集合,从而提高候选实体的召回率。然后利用标注数据训练实体链接模型,采用微调策略提升实体链接在短文本语境下的应用效果。最后采取一个阙值判断不可链接的实体指称。通过这样的方式,可以有效提高中文短文本实体链接的准确率。
[0024]2、如果删除中文通用领域知识库引入及负采样策略,模型在中文短文本实体链接任务下效果较差。作为实体链接的第一阶段,候选实体生成将直接影响链接任务的准确性。由于候选实体生成阶段存在知识库实体描述信息不充分的问题,导致候选实体召回率低、候选实体集质量不高。因此,本专利技术通过利用中文通用领域知识库扩充并优化部分实体,同时采用负采样策略,从而确保候选实体的整体质量。
[0025]3、本方法通过预设的阈值判断不可链接的实体指称,与使用NIL实体作为实体指称的候选加入候选实体集一起排序等方法相比,可以规避过拟合的问题,保证方法的有效性。
[0026]综上,本专利技术可以提高中文短文本实体链接的准确率,推进实体链接任务的实际应用。
附图说明
[0027]为了使专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步的详细描述,其中:
[0028]图1为本方法的流程图;
[0029]图2为实施例中候选实体集的生成过程示意图;
[0030]图3为实施例中对候选实体集中的候选实体进行训练的示意图。
具体实施方式
[0031]下面通过具体实施方式进一步详细的说明:
[0032]实施例:
[0033]如图1所示,本实施例中公开了一种面向中文短文本的实体链接方法,包括以下步骤:
[0034]S1、对知识库进行处理,构建候选实体字典和知识库实体字典。
[0035]具体实施时,候选实体字典以实体指称mention为key,以候选实体id集合为values,即{mention:[id_list]}。
[0036]为便于更好的理解,以表1进行具体示例。
[0037]表1候选实体字典示例
[0038][0039][0040]知识库实体字典以实体id为key,以实体名称ent_name,实体描述ent_desc,实体类型type为values,即{kb_id:<ent_name,ent_desc,type>}。
[0041]为便于更好的理解,以表2进行具体示例。
[0042]表2知识库实体字典示例
[0043][0044]S2、构建候选实体集,用于为待消本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向中文短文本的实体链接方法,其特征在于,包括以下步骤:S1、对知识库进行处理,构建候选实体字典和知识库实体字典;S2、构建候选实体集,用于为待消歧文本中的实体指称过滤掉知识库中的不相关实体;S3、使用预设的候选实体排序的底层模型,对候选实体集中的候选实体依次进行训练;S4、通过预设的阈值判断不可链接的实体指称。2.如权利要求1所述的面向中文短文本的实体链接方法,其特征在于:S1中,候选实体字典以实体指称mention为key,以候选实体id集合为values,即{mention:[id_list]}。3.如权利要求2所述的面向中文短文本的实体链接方法,其特征在于:S1中,知识库实体字典以实体id为key,以实体名称ent_name,实体描述ent_desc,实体类型type为values,即{kb_id:<ent_name,ent_desc,type>}。4.如权利要求1所述的面向中文短文本的实体链接方法,其特征在于:S2中,构建候选实体集的过程包括:使用CN

DBpedia中文通用知识库对知识库的实体进行同义词扩展,同时对知识库的对应标签进行修正;对于待消歧文本中的每一个实体指称,通过计算指称和实体的先验概率p(e|m)在知识库中找出所有相关的候选实体,组成初始候选实体集;...

【专利技术属性】
技术研发人员:李韧张玥杨建喜谢江村蒋仕新王笛刘新龙张廷萍
申请(专利权)人:重庆交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1