基于制造技术

技术编号:39815083 阅读:10 留言:0更新日期:2023-12-22 19:33
一种基于

【技术实现步骤摘要】
基于IE

Triple的知识图谱构建方法


[0001]本专利技术涉及知识图谱构建和深度学习
,具体涉及一种基于
IE

Triple
的知识图谱构建方法

技术背景
[0002]知识图谱是由
Google
公司于
2012
年提出的概念,同年5月在
Google I/O
大会上正式宣布

该公司运用知识表示

知识抽取和知识融合等技术从大量数据中抽取和构建知识图谱,其包括十亿个实体和数万亿条关系,覆盖了人物

地点

组织

事件

科技

艺术等各个领域的知识
。Google
公司构建的知识图谱被应用于搜索引擎等各类产品,以提高搜索结果的质量和准确性,为用户提供更好的搜索和使用体验

知识图谱的出现是在人工智能和自然语言处理等领域的重要进展,也是近年来人工智能领域内的一个热门话题

随着技术的不断进步,知识图谱将会成为人工智能领域中的重要基础和核心技术之一

[0003]知识图谱的质量直接影响到应用程序的用户体验,许多企业花费大量精力来构建优秀的知识图谱,例如维基百科平台使用的
DBpedia
,内容由用户添加并审核的开放知识库
Freebase
,包含
20
>多种语言单词组成的大型语义网络
WordNet。
当优秀的知识图谱构建形成时,知识图谱构建方法发挥了至关重要的作用

[0004]知识图谱构建方法是指将大量分布异构数据资源进行整合,抽取其中的实体

关系

属性等信息,并将这些信息以三元组的形式呈现出来的技术

三元组由头实体

尾实体和关系组成,其中头实体表示主体,尾实体表示客体,关系表示主客体之间的联系

在知识图谱构建方法中,命名实体识别
(Named Entity Recognition)
和关系预测
(Relation Prediction)
是其中的核心问题

实体和关系的识别可以通过机器学习

规则匹配和基于模板的方法等技术来实现

其中,机器学习技术是应用最为广泛的方法之一,可以通过训练模型来实现实体和关系的自动识别

现有的知识图谱构建方法模型分为两类,一类是管道模型
(Pipeline Model)
,即命名实体识别模型和关系预测模型先后进行;另一类是联合模型
(Joint Model)
,即从非结构化语言中直接抽取三元组的端到端模型

其中,端到端模型可以直接从原始文本中抽取三元组,并且具有较低的模型调用成本和较强的适应性等优势,逐渐成为知识图谱构建模型的主流

[0005]常见的知识图谱构建方法主要有基于模式匹配规则的方法和基于编解码器的方法

基于模式匹配规则的方法通常是基于人工创建的模式匹配规则来抽取三元组

这些规则可以是基于语言学的规则或基于语义的规则,如句法分析

命名实体识别等,但此类方法需要人工构建规则,且难以覆盖所有语言现象和领域知识,因此可扩展性和适用范围有限

基于编解码器的方法是使用神经网络模型,通过对已标注的文本进行学习,构建一个三元组抽取模型,然后将模型应用于原始文本中进行三元组抽取

该方法的优点是可以自动学习特征,自动调整权重和偏差,它们可以在不同的任务中表现出优秀的泛化能力,因此受到了行业内绝大部分学者的关注和研究


技术实现思路

[0006]为了克服现有技术的不足,为了从原始文本中抽取三元组来实现知识图谱构建,本专利技术提供了一种基于
IE

Triple
的知识图谱构建方法,设计了一种适用三元组抽取任务的引导模式结构,通过三元组引导模式结构嵌入原始文本的方式,采用编码器

解码器生成与目标结构匹配的三元组,进而设计出一种基于
IE

Triple(Information Extraction to Triple)
的知识图谱构建方法;然后通过
IE

Triple
模型的预训练和微调方法,使其适用于各种场景下的三元组抽取任务

[0007]本专利技术所采用的技术方案如下:
[0008]一种基于
IE

Triple
的知识图谱构建方法,包括如下步骤:
[0009]步骤
1、
给定原始文本和三元组模式引导结构;
[0010]步骤
2、
三元组模式结构引导器通过在原始文本中嵌入三元组模式引导结构,并将其作为模型的输入;
[0011]步骤
3、
三元组模式结构生成器对输入中的原始文本进行信息抽取,并根据三元组引导结构转换生成对应模式结构的三元组;
[0012]步骤
4、
提供
IE

Triple
模型预训练和微调策略,使模型能够适应下游任务

[0013]其中,其中步骤1‑3完成
IE

Triple
构建,步骤4对
IE

Triple
进行预训练和微调

[0014]进一步,所述步骤1的过程如下:
[0015]1.1、
给定原始文本
w

[w1,w2,w
i
,

]。
其中,
w
i
为第
i
个词向量

[0016]1.2、
本专利技术提出三元组模式引导结构
(Triple

schema Instructed Struct

TIS)
,用于提示引导与目标信息关联的实体类型和关系类型,定义如下:
[0017]p

[[head],EntityType,[Relation],RelationType,[tail],EntityType][0018]其中,
p
为三元组模式引导结构,标记
[head]、[Relation]和
[tail]表示
TIS
中头实体,关系和尾实体的定位信息,标记
EntityType

Relation本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于
IE

Triple
的知识图谱构建方法,其特征在于,所述方法包括如下步骤:步骤
1、
给定原始文本和三元组模式引导结构;步骤
2、
三元组模式结构引导器通过在原始文本中嵌入三元组模式引导结构,并将其作为模型的输入;步骤
3、
三元组模式结构生成器对输入中的原始文本进行信息抽取,并根据三元组引导结构转换生成对应模式结构的三元组;步骤
4、
提供
IE

Triple
模型预训练和微调策略,使模型能够适应下游任务
。2.
如权利要求1所述的基于
IE

Triple
的知识图谱构建方法,其特征在于,所述步骤1的过程如下:
1.1、
给定原始文本
w

[w1,
w2,
w
i

...]
,其中,
w
i
为第
i
个词向量;
1.2、
本发明提出三元组模式引导结构
TIS
,用于提示引导与目标信息关联的实体类型和关系类型,定义如下:
p

[[head]

EntityType

[Relation]

RelationType

[tail]

EntityType]
其中,
p
为三元组模式引导结构,标记
[head]、[Relation]

[tail]
表示
TIS
中头实体,关系和尾实体的定位信息,标记
EntityType

RelationType
为对应实体和关系的指定类型
。3.
如权利要求1或2所述的基于
IE

Triple
的知识图谱构建方法,其特征在于,所述步骤2的过程如下:对于原始文本
w
,三元组模式结构引导器
(Triple

schema Structural Instructor

TSI)
是将
TIS
作为前缀嵌入到
w
中,并作为
IE

Triple
模型的输入,公式如下:其中,表示
TSI
计算得到的值,表示向量的拼接操作,
[SEP]
表示
w

TIS
的分隔信息;根据步骤1和2的描述,
TSI
是一种基于模式结构的提示机制,能够有效地引导
IE

Triple
模型生成对应引导结构的三元组,该机制能够使模型自适应地控制和识别头实体

尾实体和两者之间的关系,以及共享不同标记和任务中的语义知识
。4.
如权利要求1或2所述的基于
IE

Triple
的知识图谱构建方法,其特征在于,所述步骤3的过程如下:
3.1、
为了使
IE

Triple
模型生成有效的三元组,需要定义三元组模式生成结构
TGS

TGS
由两部分组成:
1)Entity Part
:从原始文本中识别出的预设定实体,包括头实体和尾实体;
2)Relation Part
:从原始文本中识别出的预设定关系,包括头尾实体之间的关系和实体与属性之间的关系;其中,每个
TGS
包含三类标记
(token)

1)EntityType*
:表示三元组中头实体与尾实体的指定类型;
2)HeadName/TailName
:表示从原始文本中抽取的头实体或尾实体的实际值;
3)RelationType*
:表示三元组中关系的指定类型;此外,
TGS
中的“:”表示实体的指定类型到实际值的映射,两个结构指示符“{”和“}”用于囊括单个三元组的所有信息;
3.2、
根据
TSI
计算得到的值作为模型输入,通过
TSG
来抽取目标三元组
。5.
如权利要求4所述的基于
IE

Triple
的知识图谱构建方法,其特征在于,所述
3.2
的过
程如下:
3.2.1、
编码器先对输入向量进行位置编码,在输入向量的每个位置做上标记,即将位置编码叠加到原来输入向量上,能够得到一个与输入向量维度一致的编码向量,公式如下:其中,表示编码向量,表示步骤2计算的得到值,
X
pos
表示位置编码;
3.2.2、
通过多头注意力机制能够增强自适应识别原始文本中的三元组信息的能力,编码器由多个相互独立的注意力头组成,注意力头是基于缩放点积注意力机制
(Scaled Dot

Product Attention)
实现的,缩放点积注意力是一种自适应权重的注意力机制,缩放点积注意力机制描述成是输入向量通过查询向量

键向量和值向量到隐藏状态的映射,其中,查询向量

键向量和值向量是根据输入向量的线性组合产生,公式如下:键向量和值向量是根据输入向量的线性组合产生,公式如下:键向量和值向量是根据输入向量的线性组合产生,公式如下:其中,
Q
为查询向量,
K
为键向量,
V
为值向量,为步骤
3.2.1
的编码向量,
W
Q
、W
K
、W
V
为权重矩阵;
3.2.3、
注意力机制输出的向量本质上是值向量的加权组合,该权重矩阵是通过查询向量与键向量的对比产生,反映的是原始文本中与三元组信息相关词汇的比重,此外,注意力头是根据输入的维度平均划分的,记划分
h
份的为
PW
h
,把第
i
个注意力头所产生的隐藏状态记作
h
i
,公式如下:其中,
Softmax(
·
)
表示归一化指数函数,
W
Q
、W
K
、W
V
为步骤
3.2.2
中的权重矩阵,
d
model
表示输入向量
PW
h
的维度,
T
表示矩阵转置;
3.2.4、
将步骤
3.2.3
中每个注意力头输出的
h
i
做拼接操作,再经过残差连接和隐藏层正则化,其中,残差连接是步骤
3.2.1
中的和
h
i
的线性叠加,隐藏层正则化是将网络中的隐藏层归一化为标准正态分布,然后,将输出结果经过逐位前馈网络,最终得到编码器隐藏状态,公式如下:其中,
H
表示编码器隐藏状态,
FFN(
·
)
表示前馈神经网络,
LayerNorm(
·
)
表示隐藏层正则化函数;
3.2.5、
解码器的构成组件与编码器的相似,但不同的是要将位置编码后的向量进行掩码多头注意力计算,掩码操作是为了保留自回归属性,即确保预测结果仅依赖于已生成的输出单词,把掩码多头注意力机制

残差链接和隐藏层正则化视作解码器的前端部分,记作
Decoder
r
(
·
)
,计算公式如下:其中,
d
i
表示第个分词向量,
d
i
in[d1,
d2,
d
i

...]
表示循环的第
i
次操作,
LayerNorm(
·
)
表示隐藏层正则化函数,
Attention
mask
(
·
)
将将向量进行掩码操作,再进行多头注意力机制处理,表示...

【专利技术属性】
技术研发人员:宋俊锋吴俚达胡斌帅龚鑫铠叶振王国相吴子健
申请(专利权)人:浙江点创信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1