一种基于预训练语言模型的零样本知识图谱补全方法技术

技术编号：39831113 阅读：5 留言：0更新日期：2023-12-29 16:12

本发明专利技术公开了一种基于预训练语言模型的零样本知识图谱补全方法，具体包括以下步骤：

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练语言模型的零样本知识图谱补全方法

[0001]本专利技术涉及一种零样本知识图谱补全方法，具体涉及一种基于预训练语言模型的零样本知识图谱补全方法
。

技术介绍

[0002]知识图谱是三元组的集合，每个三元组都包含头实体
h、
关系
r
和尾实体
t。
现有的知识图谱数据集包括
Freebase、Yago
和
WordNet
等
。
知识图谱应用广泛，如知识问答
、
信息检索
、
推荐系统和自然语言处理
。
尽管知识图谱中包含大量的实体和关系，但是它仍然存在不完备性
。
为了进行知识图谱补全，许多研究将实体和关系映射到一个潜在的空间，然后使用评分函数对三元组进行评分，以区分正样本和负样本，但是针对未见过的关系，这些关系通常没有足够的训练实例，采用先前方法不能够很好地解决该问题
。
因此，知识图谱补全任务需要一个能够识别未知关系而且不需要看到任何相关事实的模型
。
[0003]1.
小样本知识图谱补全方法
[0004]知识图谱补全的目的是补全知识图谱中缺失的三元组，其中小样本知识图谱补全是通过少量相关实例便能够进行知识图谱补全的任务，零样本知识图谱补全也属于小样本知识图谱补全
。Gmatching
模型是第一个知识图谱小样本关系学习任务的研究，该算法首先建立一个匹配网络来学习实体嵌...

【技术保护点】

【技术特征摘要】
1.
一种基于预训练语言模型的零样本知识图谱补全方法，其特征在于，具体步骤如下：步骤1：首先将不同领域的知识图谱预处理为八个文件，所述处理后的文件包括知识图谱关系训练集
、
知识图谱关系验证集
、
知识图谱关系测试集
、
知识图谱三元组文件
、
实体文本文件
、
关系文本文件
、
关系描述文本文件以及关系候选实体文件，步骤2：将步骤1得到的知识图谱关系训练集
、
知识图谱关系验证集和知识图谱关系测试集构建对应的文本文件，通过步骤1得到的关系候选实体文件，为知识图谱关系训练集
、
验证集和测试集中各自所包含关系对应的三元组构建候选三元组，遍历步骤1得到的知识图谱三元组文件保证候选三元组没有在知识图谱中出现过，最终将知识图谱关系训练集
、
验证集和测试集所包含的关系描述语句和候选三元组文本语句构建成对应的文本语句对，步骤3：将步骤2得到的知识图谱关系训练集的文本语句对输入到
Sentence
‑
BERT
模型，直接将语句对输入到
Tokenizer
层，采用
BertTokenizer
将文本语句分成若干个子词，获取
Input Embedding
，送入
BertModel
模型，将输出的词向量送入池化层，采用平均池化策略，获取向量维度为
384
的句向量，进行
L2
归一化，输出归一化后的句向量，步骤4：计算步骤3模型输出的正样本语句对和负样本语句对的句向量之间的余弦距离，按照选择相对困难判定语句对标签的策略选择每个批次中用于训练的语句对，通过损失函数计算损失，使用每个批次数据的损失来进行迭代优化，步骤5：用知识图谱验证集进行校验，调整到最佳网络参数，步骤6：对知识图谱测试集进行测试，统计测试结果，通过利用
MRR
，
HIT1
，
HIT5
，
HIT10
评价指标对模型进行评估
。2.
根据权利要求1所述的一种基于预训练语言模型的零样本知识图谱补全方法，其特征在于，步骤1中的预处理，具体如下：采样知识图谱数据集的关系及其三元组，将
NELL
知识图谱的关系按照
139:10:32
的比例划分为训练集
、
验证集和测试集，每个都包含划分的关系及其对应的三元组，并且统计训练集
、
验证集和测试集中所有关系的三元组，保存在知识图谱三元组文件；通过知识图谱信息获取数据集中实体和关系的文本语句以及每个关系的描述语句，依次保存到实体文本文件
、
关系文本文件和关系描述文本文件；通过知识图谱三元组文件统计每个关系下所有三元组的尾实体类型，将该关系对应三元组中所有尾实体类型下的实体作为候选实体，保存到关系候选实体文件
。3.
根据权利要求1所述的一种基于预训练语言模型的零样本知识图谱补全方法，其特征在于，步骤2中构建数据集对应的文本语句对，具体如下：将训练集中的所有关系的每个三元组分别从关系候选实体文件中采样候选实体，其中采样每个三元组的候选实体数目为
100
，将这些候选实体同头实体和关系组成候选三元组，遍历知识图谱三元组文件保证候选三元组没有出现在知识图谱中；对于每个关系下的真实三元组和候选三元组，按照语句模板“relation_text describe the relation of head_entity_text and tail_entity_text”中
head_entity_text、relation_text
和
tail_entity_text
位置，从实体文本文件和关系文本文件中获取对应的内容，填充到模板中组成候选三元组文本语句，其中关系描述语句和真实三元组文本语句作为正样本语句对，关系描述语句和候选三元组文本语句作为负样本语句对；将验证集中所有关系的每个三元组分别从...

【专利技术属性】
技术研发人员：靳鸿祥，伍家松，孔佑勇，杨冠羽，杨淳沨，董志芳，舒华忠，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人