一种基于语言模型与图表征融合的实体链指方法技术

技术编号：39643141 阅读：13 留言：0更新日期：2023-12-09 11:10

本发明专利技术属于实体链指技术领域，公开了一种基于语言模型与图表征融合的实体链指方法，包括：提取非结构化文本信息中的实体指称项，并基于实体指称项在知识库中进行匹配，得到每个实体指称项的候选实体集合；针对候选实体集合不为空的实体指称项，依次以一个实体指称项作为中心实体，以该中心实体对应的候选实体集合中的实体为待匹配实体，调用实体消歧模型进行匹配；筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项，调用实体分类模型得到分类结果，完成实体链指

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语言模型与图表征融合的实体链指方法

[0001]本专利技术属于实体链指
，具体涉及一种基于语言模型与图表征融合的实体链指方法
。

技术介绍

[0002]从海量的文本数据中抽取结构化的知识，用规范的结构存储构建出的知识库，有效的推动了自然语言处理领域的研究进展
。
知识库相关技术在智能问答
、
对话系统
、
搜索引擎等领域都展现出较大的潜力
。
因此，近年来关于如何构建高可靠性的知识库以及准确高效地利用已有知识库等问题被学术界广泛关注
。
而实体链接在知识库的构建和使用阶段都具有关键作用
。
[0003]实体链接是一项识别文本中的实体指称
(
指文本被识别到的命名实体
)
并将其链接到知识库中对应实体上的任务
。
一般来讲，实体链接包括三个主要环节：命名实体识别
、
候选实体生成和候选实体消歧
。
[0004]以论文
《
面向中文短文本的多因子融合实体链指研究
》
为例，该方案在百度
CCKS2020
年的中文短文本实体链指比赛中取得了第一名的成绩
。
由于该比赛更专注于中文短文本场景下的实体消岐技术，数据中均已经标注好了实体指称项，因而就未考虑命名实体识别技术的应用
。
该方法设计了一个多因子融合实体链指模型
。
第一步，采用了...

【技术保护点】

【技术特征摘要】
1.
一种基于语言模型与图表征融合的实体链指方法，其特征在于，所述基于语言模型与图表征融合的实体链指方法，包括：提取非结构化文本信息中的实体指称项，并基于实体指称项在知识库中进行匹配，得到每个实体指称项的候选实体集合；针对候选实体集合不为空的实体指称项，依次以一个实体指称项作为中心实体，以该中心实体对应的候选实体集合中的实体为待匹配实体，调用实体消歧模型进行匹配；所述实体消歧模型包括语言模型
、
图模型和分类模型，所述语言模型的输入由非结构化文本信息以及待匹配实体构建，所述图模型根据待匹配实体输出聚合图表征，所述分类模型的输入为语言模型和图模型的输出；筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项，调用实体分类模型得到分类结果，完成实体链指
。2.
如权利要求1所述的基于语言模型与图表征融合的实体链指方法，其特征在于，所述基于实体指称项在知识库中进行匹配，得到每个实体指称项的候选实体集合，包括：遍历知识库，将知识库中每个实体的实体名称与实体指称项进行匹配，并将匹配成功的实体对应的实体
ID
添加至实体指称项的候选实体集合
。3.
如权利要求1所述的基于语言模型与图表征融合的实体链指方法，其特征在于，所述语言模型的输入构建如下：在非结构化文本信息的中心实体前后添加特殊标识符，形成标识文本信息；将标识文本信息作为
Sentence1
，将待匹配实体在知识库中的实体描述文本作为
Sentence2
，并形成
[CLS]Sentence1[SEP]Sentence2[SEP]
的格式作为语言模型的输入
。4.
如权利要求3所述的基于语言模型与图表征融合的实体链指方法，其特征在于，所述实体描述文本的构建如下：取知识库中每个实体的实体描述信息，将实体描述信息进行顺序拼接作为实体描述文本
。5.
如权利要求1所述的基于语言模型与图表征融合的实体链指方法，其特征在于，所述聚合图表征为待匹配实体的图表征与待匹配实体的所有邻居节点的图表征加权后的图表征
。6.
如权利要求3所述的基于语...

【专利技术属性】
技术研发人员：崇庆魏，崔钰坤，蔡炎松，窦辰晓，
申请(专利权)人：中国电子科技南湖研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人