一种基于语言模型与图表征融合的实体链指方法技术

技术编号:39643141 阅读:13 留言:0更新日期:2023-12-09 11:10
本发明专利技术属于实体链指技术领域,公开了一种基于语言模型与图表征融合的实体链指方法,包括:提取非结构化文本信息中的实体指称项,并基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合;针对候选实体集合不为空的实体指称项,依次以一个实体指称项作为中心实体,以该中心实体对应的候选实体集合中的实体为待匹配实体,调用实体消歧模型进行匹配;筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项,调用实体分类模型得到分类结果,完成实体链指

【技术实现步骤摘要】
一种基于语言模型与图表征融合的实体链指方法


[0001]本专利技术属于实体链指
,具体涉及一种基于语言模型与图表征融合的实体链指方法


技术介绍

[0002]从海量的文本数据中抽取结构化的知识,用规范的结构存储构建出的知识库,有效的推动了自然语言处理领域的研究进展

知识库相关技术在智能问答

对话系统

搜索引擎等领域都展现出较大的潜力

因此,近年来关于如何构建高可靠性的知识库以及准确高效地利用已有知识库等问题被学术界广泛关注

而实体链接在知识库的构建和使用阶段都具有关键作用

[0003]实体链接是一项识别文本中的实体指称
(
指文本被识别到的命名实体
)
并将其链接到知识库中对应实体上的任务

一般来讲,实体链接包括三个主要环节:命名实体识别

候选实体生成和候选实体消歧

[0004]以论文

面向中文短文本的多因子融合实体链指研究

为例,该方案在百度
CCKS2020
年的中文短文本实体链指比赛中取得了第一名的成绩

由于该比赛更专注于中文短文本场景下的实体消岐技术,数据中均已经标注好了实体指称项,因而就未考虑命名实体识别技术的应用

该方法设计了一个多因子融合实体链指模型

第一步,采用了预训练的
BERT
模型来对短文本中的实体进行类别预测,利用预测类型构建一个仅包含类型特征的实体
(
称为
NIL_type
实体
)
,和知识库中其他可以检索到的实体构成完备候选实体集,确保文本中的给定的指称项都能有一个正确的链接实体

第二步,对每一个候选实体进行多方位的特征因子抽取

特征因子抽取包括上下文相关特征的抽取和上下文无关特征的抽取,上下文相关特征包括文本上下文和候选实体描述的相似度计算,多个指称项之间的关联度计算等,上下文无关特征包括实体的流行度

实体的类型等,这里起到关键作用的特征就是指称项和候选实体的关联概率

输入文本和候选实体描述文本,在文本的指称项开始和结束位置添加标记符,经过
BERT
模型编码,取
CLS
位置的特征向量,经过全连接层,最后
Softmax
激活得到文本中指称项和候选实体之间的相关性分数

第三步,对这些分数进行排序,选择分数最高的候选实体作为实体消歧的预测结果

[0005]另外该论文方法在实体消歧模块也尝试加入对抗学习来提高模型的鲁棒性,其中对抗学习的方法是
FGM。
特征因子融合的方法是使用多折的方法训练了一个
MLP
模型

将所有数据集分成
n
份,不重复地每次取其中一份做测试集,用其他四份做训练集训练模型,训练得到
n
个模型

预测时,取
n
个模型的预测结果的平均值,作为预测结果

[0006]该论文方法引入了对
NIL
实体的上位概念类型判断,解决了无链接指代的预测问题

但是,由于该论文方法是在一开始就先做了实体分类模型,即对不在知识库中的实体,统一标记为
NIL_type
,其忽略了在模型推理阶段,即使在知识库中找到了候选实体,仍然找不到正确的链接指代的情况
(
即所有候选实体匹配的概率都低于阈值
)。
并且现有的方法在训练实体消岐模型时,一般采用随机负采样的方法,忽略了针对困难样本的训练,模型不具
有更好的泛化性

[0007]现有的部分实体消岐模型采用了预训练模型
BERT
作为基础网络结构,可以获取更深的语义特征,提高模型消岐的能力

但由于
BERT
模型本身的输入长度限制
(
超出长度的内容会被截断
)
,会导致候选实体输入给模型的信息并不完整

且现有的方法还忽略了知识库中的图结构信息


技术实现思路

[0008]本专利技术的目的在于提供一种基于语言模型与图表征融合的实体链指方法,提升实体链指的性能和泛化能力

[0009]为实现上述目的,本专利技术所采取的技术方案为:
[0010]一种基于语言模型与图表征融合的实体链指方法,所述基于语言模型与图表征融合的实体链指方法,包括:
[0011]提取非结构化文本信息中的实体指称项,并基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合;
[0012]针对候选实体集合不为空的实体指称项,依次以一个实体指称项作为中心实体,以该中心实体对应的候选实体集合中的实体为待匹配实体,调用实体消歧模型进行匹配;所述实体消歧模型包括语言模型

图模型和分类模型,所述语言模型的输入由非结构化文本信息以及待匹配实体构建,所述图模型根据待匹配实体输出聚合图表征,所述分类模型的输入为语言模型和图模型的输出;
[0013]筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项,调用实体分类模型得到分类结果,完成实体链指

[0014]以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合

[0015]作为优选,所述基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合,包括:
[0016]遍历知识库,将知识库中每个实体的实体名称与实体指称项进行匹配,并将匹配成功的实体对应的实体
ID
添加至实体指称项的候选实体集合

[0017]作为优选,所述语言模型的输入构建如下:
[0018]在非结构化文本信息的中心实体前后添加特殊标识符,形成标识文本信息;
[0019]将标识文本信息作为
Sentence1
,将待匹配实体在知识库中的实体描述文本作为
Sentence2
,并形成
[CLS]Sentence1[SEP]Sentence2[SEP]的格式作为语言模型的输入

[0020]作为优选,所述实体描述文本的构建如下:
[0021]取知识库中每个实体的实体描述信息,将实体描述信息进行顺序拼接作为实体描述文本

[0022]作为优选,所述聚合图表征为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于语言模型与图表征融合的实体链指方法,其特征在于,所述基于语言模型与图表征融合的实体链指方法,包括:提取非结构化文本信息中的实体指称项,并基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合;针对候选实体集合不为空的实体指称项,依次以一个实体指称项作为中心实体,以该中心实体对应的候选实体集合中的实体为待匹配实体,调用实体消歧模型进行匹配;所述实体消歧模型包括语言模型

图模型和分类模型,所述语言模型的输入由非结构化文本信息以及待匹配实体构建,所述图模型根据待匹配实体输出聚合图表征,所述分类模型的输入为语言模型和图模型的输出;筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项,调用实体分类模型得到分类结果,完成实体链指
。2.
如权利要求1所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合,包括:遍历知识库,将知识库中每个实体的实体名称与实体指称项进行匹配,并将匹配成功的实体对应的实体
ID
添加至实体指称项的候选实体集合
。3.
如权利要求1所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述语言模型的输入构建如下:在非结构化文本信息的中心实体前后添加特殊标识符,形成标识文本信息;将标识文本信息作为
Sentence1
,将待匹配实体在知识库中的实体描述文本作为
Sentence2
,并形成
[CLS]Sentence1[SEP]Sentence2[SEP]
的格式作为语言模型的输入
。4.
如权利要求3所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述实体描述文本的构建如下:取知识库中每个实体的实体描述信息,将实体描述信息进行顺序拼接作为实体描述文本
。5.
如权利要求1所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述聚合图表征为待匹配实体的图表征与待匹配实体的所有邻居节点的图表征加权后的图表征
。6.
如权利要求3所述的基于语...

【专利技术属性】
技术研发人员:崇庆魏崔钰坤蔡炎松窦辰晓
申请(专利权)人:中国电子科技南湖研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1