当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于预训练语言模型的零样本知识图谱补全方法技术

技术编号:39831113 阅读:5 留言:0更新日期:2023-12-29 16:12
本发明专利技术公开了一种基于预训练语言模型的零样本知识图谱补全方法,具体包括以下步骤:

【技术实现步骤摘要】
一种基于预训练语言模型的零样本知识图谱补全方法


[0001]本专利技术涉及一种零样本知识图谱补全方法,具体涉及一种基于预训练语言模型的零样本知识图谱补全方法


技术介绍

[0002]知识图谱是三元组的集合,每个三元组都包含头实体
h、
关系
r
和尾实体
t。
现有的知识图谱数据集包括
Freebase、Yago

WordNet


知识图谱应用广泛,如知识问答

信息检索

推荐系统和自然语言处理

尽管知识图谱中包含大量的实体和关系,但是它仍然存在不完备性

为了进行知识图谱补全,许多研究将实体和关系映射到一个潜在的空间,然后使用评分函数对三元组进行评分,以区分正样本和负样本,但是针对未见过的关系,这些关系通常没有足够的训练实例,采用先前方法不能够很好地解决该问题

因此,知识图谱补全任务需要一个能够识别未知关系而且不需要看到任何相关事实的模型

[0003]1.
小样本知识图谱补全方法
[0004]知识图谱补全的目的是补全知识图谱中缺失的三元组,其中小样本知识图谱补全是通过少量相关实例便能够进行知识图谱补全的任务,零样本知识图谱补全也属于小样本知识图谱补全
。Gmatching
模型是第一个知识图谱小样本关系学习任务的研究,该算法首先建立一个匹配网络来学习实体嵌入和一跳邻居信息,然后通过计算查询三元组与给定实例之间的匹配得分来识别未知关系
。MetaR
模型引入元信息来解决小样本知识图谱补全问题,通过设计关系元和梯度元,保留先验知识,提高模型的拟合速度
。CogKR
模型通过聚集来自多个路径的依据,并通过这些路径推理事实,建立认知图

当未知关系具有相关训练实例时,上述方法表现良好,但是如果没有任何训练实例,这些方法不能预测看不见的关系

[0005]2.
零样本知识图谱补全方法
[0006]现有零样本知识图谱补全方法目前方法都是基于零样本学习的思路,零样本学习主流方法是将传统的零样本学习问题转变为一个监督式学习问题,其中基于生成模型的方法,利用生成对抗网络来合成训练数据,并且根据看不见的类的语义描述来生成未见类的特征

[0007]ZSGAN
模型是知识图谱中的第一个零样本关系学习研究,采用生成对抗网络来生成未见关系的关系嵌入,其中关系描述语句通过
TF

IDF
算法生成语句特征,实体对特征采用特征提取算法从支持候选实体对和邻居实体对中提取特征
。SEGAN
模型使用预先训练好的结构编码器来生成关系的结构化表示,进而指导生成器生成融合知识图谱结构化嵌入的关系描述语句表示,以解决关系文本描述与知识图谱嵌入之间的差异问题,此外采用注意机制和卷积运算相结合的实体编码器,捕获实体的全局特征和实体对之间的交互,用来增强实体对的特征,上述这些方法都是需要额外邻居实体信息来解决零样本知识图谱补全问题

[0008]研究表明,在小样本学习的情况下,预训练语言模型已经通过预训练阶段积累了大量的背景知识和语言表示能力,能够更好地理解和推断输入文本的含义,但是在零样本
知识图谱补全领域并没有采用预训练语言模型的方法

按照零样本学习的思路,利用外部知识对未知关系进行预测,将零样本知识图谱补全问题转变为监督式学习问题,在训练阶段,学习关系描述语句和三元组文本语句在同一向量空间的向量表示,在测试阶段,采用语义向量空间中的最近点搜索方法来获取最接近关系描述语句向量的候选三元组文本语句,也就是模型在众多候选实体中赋予正确实体所在的三元组文本语句更高的相似度


技术实现思路

[0009]为了填补基于预训练语言模型在零样本知识图谱补全领域的空缺,本专利技术提出一种基于预训练语言模型的零样本知识图谱补全方法,该方法主要特征在于通过预训练语言模型,利用实体和关系的文本信息以及关系的描述信息解决零样本知识图谱补全问题,该方法将知识图谱中关系描述语句以及该关系对应的三元组文本语句视为相似文本序列,作为正样本,将关系描述语句同其他候选实体三元组文本语句视为不相似文本序列,作为负样本,使用预训练的
Sentence

BERT
语言模型计算未知关系描述语句和候选三元组文本语句之间的相似度,从而排序得到预测实体

[0010]为实现上述方法,本专利技术采用的技术方案为:一种基于预训练语言模型的零样本知识图谱补全方法,具体步骤如下:
[0011]步骤1:首先将不同领域的知识图谱预处理为八个文件,所述处理后的文件包括知识图谱关系训练集

知识图谱关系验证集

知识图谱关系测试集

知识图谱三元组文件

实体文本文件

关系文本文件

关系描述文本文件以及关系候选实体文件,
[0012]步骤2:将步骤1得到的知识图谱关系训练集,知识图谱关系验证集和知识图谱关系测试集构建对应的文本文件,通过步骤1得到的关系候选实体文件,为知识图谱关系训练集

验证集和测试集中各自所包含关系对应的三元组构建候选三元组,遍历步骤1得到的知识图谱三元组文件保证候选三元组没有在知识图谱中出现过,最终将知识图谱关系训练集

验证集和测试集所包含的关系描述语句和候选三元组文本语句构建成对应的文本语句对,
[0013]步骤3:将步骤2得到的知识图谱关系训练集的文本语句对输入到
Sentence

BERT
模型,直接将语句对输入到
Tokenizer
层,采用
BertTokenizer
将文本语句分成若干个子词,获取
Input Embedding
,送入
BertModel
模型,将输出的词向量送入池化层,采用平均池化策略,获取向量维度为
384
的句向量,进行
L2
归一化,输出归一化后的句向量,
[0014]步骤4:计算步骤3模型输出的正样本语句对和负样本语句对的句向量之间的余弦距离,按照选择相对困难判定语句对标签的策略选择每个批次中用于训练的语句对,通过损失函数计算损失,使用每个批次数据的损失来进行迭代优化,
[0015]步骤5:用知识图谱验证集进行校验,调整到最佳网络参数,
[0016]步骤6:对知识图谱测试集进行测试,统计测试结果,通过利用
MRR

HIT1

HIT5

HIT10
评价指标对模型进行评估<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于预训练语言模型的零样本知识图谱补全方法,其特征在于,具体步骤如下:步骤1:首先将不同领域的知识图谱预处理为八个文件,所述处理后的文件包括知识图谱关系训练集

知识图谱关系验证集

知识图谱关系测试集

知识图谱三元组文件

实体文本文件

关系文本文件

关系描述文本文件以及关系候选实体文件,步骤2:将步骤1得到的知识图谱关系训练集

知识图谱关系验证集和知识图谱关系测试集构建对应的文本文件,通过步骤1得到的关系候选实体文件,为知识图谱关系训练集

验证集和测试集中各自所包含关系对应的三元组构建候选三元组,遍历步骤1得到的知识图谱三元组文件保证候选三元组没有在知识图谱中出现过,最终将知识图谱关系训练集

验证集和测试集所包含的关系描述语句和候选三元组文本语句构建成对应的文本语句对,步骤3:将步骤2得到的知识图谱关系训练集的文本语句对输入到
Sentence

BERT
模型,直接将语句对输入到
Tokenizer
层,采用
BertTokenizer
将文本语句分成若干个子词,获取
Input Embedding
,送入
BertModel
模型,将输出的词向量送入池化层,采用平均池化策略,获取向量维度为
384
的句向量,进行
L2
归一化,输出归一化后的句向量,步骤4:计算步骤3模型输出的正样本语句对和负样本语句对的句向量之间的余弦距离,按照选择相对困难判定语句对标签的策略选择每个批次中用于训练的语句对,通过损失函数计算损失,使用每个批次数据的损失来进行迭代优化,步骤5:用知识图谱验证集进行校验,调整到最佳网络参数,步骤6:对知识图谱测试集进行测试,统计测试结果,通过利用
MRR

HIT1

HIT5

HIT10
评价指标对模型进行评估
。2.
根据权利要求1所述的一种基于预训练语言模型的零样本知识图谱补全方法,其特征在于,步骤1中的预处理,具体如下:采样知识图谱数据集的关系及其三元组,将
NELL
知识图谱的关系按照
139:10:32
的比例划分为训练集

验证集和测试集,每个都包含划分的关系及其对应的三元组,并且统计训练集

验证集和测试集中所有关系的三元组,保存在知识图谱三元组文件;通过知识图谱信息获取数据集中实体和关系的文本语句以及每个关系的描述语句,依次保存到实体文本文件

关系文本文件和关系描述文本文件;通过知识图谱三元组文件统计每个关系下所有三元组的尾实体类型,将该关系对应三元组中所有尾实体类型下的实体作为候选实体,保存到关系候选实体文件
。3.
根据权利要求1所述的一种基于预训练语言模型的零样本知识图谱补全方法,其特征在于,步骤2中构建数据集对应的文本语句对,具体如下:将训练集中的所有关系的每个三元组分别从关系候选实体文件中采样候选实体,其中采样每个三元组的候选实体数目为
100
,将这些候选实体同头实体和关系组成候选三元组,遍历知识图谱三元组文件保证候选三元组没有出现在知识图谱中;对于每个关系下的真实三元组和候选三元组,按照语句模板“relation_text describe the relation of head_entity_text and tail_entity_text”中
head_entity_text、relation_text

tail_entity_text
位置,从实体文本文件和关系文本文件中获取对应的内容,填充到模板中组成候选三元组文本语句,其中关系描述语句和真实三元组文本语句作为正样本语句对,关系描述语句和候选三元组文本语句作为负样本语句对;将验证集中所有关系的每个三元组分别从...

【专利技术属性】
技术研发人员:靳鸿祥伍家松孔佑勇杨冠羽杨淳沨董志芳舒华忠
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1