上下文稀疏实体链接方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:37641413 阅读:9 留言:0更新日期:2023-05-25 10:08
本发明专利技术涉及知识图谱技术领域,提供了一种上下文稀疏实体链接方法、装置、计算机设备和存储介质,所述方法包括:对自然文本数据进行命名实体识别得到提及实体;从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;将所述提及实体和各所述候选实体分别配对构建成文本对;利用训练好的多任务融合模型对各所述文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息;根据所述实体相似得分进行实体链接并记录所述实体要素信息。采用本方法能够提升上下文稀疏场景下实体链接准确性的同时附加产出细粒度要素结果。细粒度要素结果。细粒度要素结果。

【技术实现步骤摘要】
上下文稀疏实体链接方法、装置、计算机设备和存储介质


[0001]本专利技术属于知识图谱
,尤其涉及一种上下文稀疏实体链接方法、装置、计算机设备和存储介质。

技术介绍

[0002]知识图谱是以结构化的形式描述客观世界中的概念、实体及其关系,将信息表达成接近人类认知世界的形式。实体链接是知识图谱构建过程中必不可少的环节。通常对文本进行通用命名实体识别后,然后将机构、地名等实体及其知识链接到知识图谱中的实体中。并在在一些特殊场景下,例如军事、商业招投标领域,还需要对实体名称信息进行进一步挖掘,识别其中细粒度要素用于实体知识挖掘,例如识别机构名称中的包含的细粒度地点、行业、字号等信息。但是由于军事、商业招投标领域文本内机构、地名等实体的上下文特征稀疏等特点,导致传统基于上下文知识的实体链接范式难以取得理想的效果。
[0003]目前,为了解决该问题,通常将其拆解成两个独立任务,即拆解为上下文稀疏场景实体链接与细粒度要素识别两个独立任务。然而,将上述两个问题作为彼此独立问题进行解决虽然易于实现,但是在实际业务处理中需要更多时间消耗和资源消耗,不利于快速响应用户需求。更重要的是,对于上下文特征稀疏场景下实体链接,由于缺乏上下文知识特征支持,使得基于知识特征的实体链接方法难以发挥最佳性能,若采用基于字符相似度等简单方法又难以对实体信息中的深层语义信息进行分析,尤其是细粒度要素信息,容易造成名称相似实体出现错误链接。以及在上下文稀疏场景下,细粒度要素分析是获取实体知识的重要方法,也是进行实体链接的重要特征信息,与基于知识特征的实体链接任务具有互补的特点,拆解成两个独立的任务则导致互补这一特性缺失。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升上下文稀疏场景下实体链接准确性的同时附加产出细粒度要素结果的上下文稀疏实体链接方法、装置、计算机设备和存储介质。
[0005]本专利技术提供一种上下文稀疏实体链接方法,包括:
[0006]对自然文本数据进行命名实体识别得到提及实体;
[0007]从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;
[0008]将所述提及实体和各所述候选实体分别配对构建成文本对;
[0009]利用训练好的多任务融合模型对各所述文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息;
[0010]根据所述实体相似得分进行实体链接并记录所述实体要素信息。
[0011]在其中一个实施例中,所述利用训练好的多任务融合模型对各所述文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息,包括:
[0012]将各所述文本对分别输入预训练语言模型进行编码,将所述预训练语言模型最后
一层输出的隐藏状态作为所述文本对的编码特征;
[0013]基于所述编码特征识别所述提及实体的细粒度要素得到实体要素信息;
[0014]基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分。
[0015]在其中一个实施例中,所述基于所述编码特征识别所述提及实体的细粒度要素得到实体要素信息,包括:
[0016]利用多层感知器对所述编码特征进行类别预测,获得初始类别标签序列;
[0017]对所述初始类别标签序列进行序列标注解码,得到最优标注序列;
[0018]通过维特比解码算法对所述最优标注序列进行解码,得到实体要素信息。
[0019]在其中一个实施例中,所述基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分,包括:
[0020]从所述编码特征中提取所述文本对的综合表示特征进行相似性二分类,确定相似的所述提及实体和所述候选实体;
[0021]利用softmax对相似的所述提及实体和所述候选实体打分,得到实体相似得分。
[0022]在其中一个实施例中,所述根据所述实体相似得分进行实体链接,包括:
[0023]根据所述实体相似得分对所述提及实体对应的所述候选实体进行排序,确定最佳匹配实体;
[0024]将所述提及实体与所述最佳匹配实体在知识库中合并。
[0025]在其中一个实施例中,所述对自然文本数据进行命名实体识别得到提及实体,包括:
[0026]爬虫获取网页数据,对所述网页数据进行页面解析得到网页正文数据;
[0027]对所述网页正文数据进行数据预处理得到自然文本数据;
[0028]利用NLP工具识别所述自然文本数据中的命名实体得到提及实体。
[0029]在其中一个实施例中,所述从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体,包括:
[0030]利用所述提及实体的实体名称进行模糊匹配从知识库中召回名称相似的实体作为候选实体;
[0031]利用所述提及实体的属性或者关系抽取结果从知识库中召回具有相同属性或者关系的实体作为候选实体。
[0032]一种上下文稀疏实体链接装置,包括:
[0033]命名实体识别模块,用于对自然文本数据进行命名实体识别得到提及实体;
[0034]候选实体确定模块,用于从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;
[0035]文本对构建模块,用于将所述提及实体和各所述候选实体分别配对构建成文本对;
[0036]多任务融合模块,用于利用训练好的多任务融合模型对各所述文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息;
[0037]结果聚合模块,用于根据所述实体相似得分进行实体链接并记录所述实体要素信息。
[0038]本专利技术还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储
器存储由计算机程序,所述处理器执行所述计算机程序时实现上述所述的上下文稀疏实体链接方法的步骤。
[0039]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的上下文稀疏实体链接方法的步骤。
[0040]上述上下文稀疏实体链接方法、装置、计算机设备和存储介质,在上下文稀疏的场景下,通过多任务联合技术,构建融合实体细粒度要素识别的实体链接方法,由实体细粒度要素抽取任务辅助挖掘实体内部的细粒度要素知识,为实体链接提供知识支撑,即通过多任务互补的形式提高上下文稀疏场景下实体链接相似度判断的可靠性,进而提高实体链接的准确性。同时还能附加产出实体的细粒度要素信息用于实体下游挖掘刻画任务。
附图说明
[0041]图1为一个实施例中上下文稀疏实体链接方法的应用环境图。
[0042]图2为一个实施例中上下文稀疏实体链接方法的流程示意图。
[0043]图3为一个实施例中上下文稀疏实体链接装置的结构框图。
具体实施方式
[0044]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种上下文稀疏实体链接方法,其特征在于,包括:对自然文本数据进行命名实体识别得到提及实体;从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;将所述提及实体和各所述候选实体分别配对构建成文本对;利用训练好的多任务融合模型对各所述文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息;根据所述实体相似得分进行实体链接并记录所述实体要素信息。2.根据权利要求1所述的方法,其特征在于,所述利用训练好的多任务融合模型对各所述文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息,包括:将各所述文本对分别输入预训练语言模型进行编码,将所述预训练语言模型最后一层输出的隐藏状态作为所述文本对的编码特征;基于所述编码特征识别所述提及实体的细粒度要素得到实体要素信息;基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分。3.根据权利要求2所述的方法,其特征在于,所述基于所述编码特征识别所述提及实体的细粒度要素得到实体要素信息,包括:利用多层感知器对所述编码特征进行类别预测,获得初始类别标签序列;对所述初始类别标签序列进行序列标注解码,得到最优标注序列;通过维特比解码算法对所述最优标注序列进行解码,得到实体要素信息。4.根据权利要求2所述的方法,其特征在于,所述基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分,包括:从所述编码特征中提取所述文本对的综合表示特征进行相似性二分类,确定相似的所述提及实体和所述候选实体;利用softmax对相似的所述提及实体和所述候选实体打分,得到实体相似得分。5.根据权利要求1所述的方法,其特征在于,所述根据所述实体相似得分进行实体链接,包括:根据所述实体相似得分对所述提及实体对应的所述候选实...

【专利技术属性】
技术研发人员:王阳段炼黄九鸣张圣栋
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1