基于全局指针流水线的城市地下管廊运维知识抽取方法技术

技术编号:39430926 阅读:10 留言:0更新日期:2023-11-19 16:15
本申请涉及知识抽取技术领域,解决了现有技术中传统关系抽取和实体抽取算法性能较差的问题,公开了一种基于全局指针流水线的城市地下管廊运维知识抽取方法,包括:构建管廊运维数据集;根据管廊运维数据集构建训练和测试样本的标签;基于两个独立的编码器和三个独立的解码器构建用于进行<主体,关系,客体>三元组抽取的BERT模型;将带有标签的样本输入到BERT模型中分别进行实体抽取和关系抽取的训练、验证,该方法通过矩阵形式的编码方法提升了模型在识别数据集内实体边界的效果,通过流水线结构以及BERT模型提高了模型对于命名实体识别和关系抽取两个任务上的文本特征提取效果。效果。效果。

【技术实现步骤摘要】
基于全局指针流水线的城市地下管廊运维知识抽取方法


[0001]本申请涉及知识抽取
,尤其是一种基于全局指针流水线的城市地下管廊运维知识抽取方法及系统。

技术介绍

[0002]现有的专业知识领域的知识抽取算法一般采用BiLSTM神经网络结构,经典方法如Multihead联合抽取算法,在文本数据编码上,采用BIO等逐字编码的方式,在算法结构上,采用BiLSTM

CRF

Sigmoid神经网络结构,能够同时完成关系抽取和命名实体抽取两个知识抽取任务,但是存在以下问题:
[0003]1、管廊数据集中的实体边界模糊不易识别,使得模型在识别数据集内实体边界的效果较差,经常出现边界识别错误的情况;
[0004]2、Multihead联合抽取算法中的模型参数相对较少,对文本特征的提取能力相对较弱。

技术实现思路

[0005]本申请的目的在于克服现有技术中传统关系抽取和实体抽取算法性能较差的问题,提供一种基于全局指针流水线的城市地下管廊运维知识抽取方法及系统。
[0006]第一方面,提供了一种基于全局指针流水线的城市地下管廊运维知识抽取方法,包括:
[0007]获取管廊运行和维护相关的数据并构建管廊运维数据集;
[0008]根据管廊运维数据集构建训练和测试样本的标签,以获取带有标签的样本;
[0009]基于两个独立的编码器和三个独立的解码器构建用于进行<主体,关系,客体>三元组抽取的BERT模型,其中,解码器用于将文本特征矩阵转化为一个可以表征实体或关系的三维矩阵;
[0010]将带有标签的样本输入到BERT模型中分别进行实体抽取和关系抽取的训练、验证;
[0011]将管廊运维文本输入到训练、验证后的BERT模型中,以得到实体集合与关系三元组集合。
[0012]可选的,还包括:通过图数据库对所述实体集合与关系三元组集合进行存储或可视化展示。
[0013]进一步的,根据管廊运维数据集构建训练和测试样本的标签,包括:
[0014]设W=[w1,w2,...,w
l+2
]为一条文本数据,l表示句子长度,实体类别集合为主要关系类别集合为其中,n
e
和n
r
分别表示实体类型和主要关系类型的数目,构建全零矩阵L∈O
l
×
l
,对实体标注而言,设w
i
表示某实体的首字,w
j
表示某实体的尾字,可以用实体头字和尾字对(w
i
,w
j
)表示一个实体,实体类型e
k
∈T
entity
,k<n
e
,则实体标注矩阵为L(i,j)=k;
[0015]对于关系三元组<主体,关系,客体>,设w
i
表示主体的头字,w
j
表示客体的尾字,三元组中的关系指细分关系,所述关系通过来表示,其中,k1∈[1,n
e
],k2∈[1,n
r
],k3∈[1,n
e
],实体类别和都是在实体过程中表示,在关系标注中仅标注主要关系即L(i,j)=k2,以得到的表示三元组中主体和客体的头字关系矩阵,再通过主体和客体的头字关系矩阵标注的方式标注出主体和客体的尾字关系矩阵;
[0016]通过独热编码的方式将实体标注矩阵、头字关系矩阵和尾字关系矩阵转换为新的标注矩阵L∈R
l
×
l
×
n
,其中,矩阵中所有的元素都是0或1,n表示关系数目。
[0017]进一步的,所述BERT模型包括实体抽取模型和关系抽取模型,其中,所述实体抽取模型包括一组独立的编码器和解码器,其中,一组独立的编码器和解码器用来计算实体识别所需的实体表征矩阵,所述关系抽取模型包括两个解码器以及一个共享的编码器,其中,另外两个解码器共享来自于另一个编码器的句子特征来计算关系抽取所需要的头字关系矩阵和尾字关系矩阵,对实体表征矩阵、头字关系矩阵和尾字关系矩阵进行推理运算以完成<主体,关系,客体>三元组抽取。
[0018]进一步的,所述实体表征矩阵、头字关系矩阵和尾字关系矩阵的计算包括:
[0019]对于输入文本W=[w1,w2,...,w
l+2
],定义句子特征矩阵为H
e
,BPM
e
和BPM
r
分别表示命名实体抽取预训练模型和关系抽取预训练模型,h1表示BERT模型最后一个隐藏层中的参数,其中,H
e
,H
r
表示为:
[0020]H
e
=BPM
e
(w1,w2,...w
l+2
)
ꢀꢀꢀꢀ
(1)
[0021]H
r
=BPM
r
(w1,w2,...w
l+2
)
ꢀꢀꢀꢀ
(2)
[0022]将H
e
,H
r
输入到两个独立的前馈神经网络之中,来获取两个特征矩阵和其中,h2表示隐藏层的句子维度,t表示命名实体抽取或者主要关系识别的分类序号,其中,表示为:
[0023][0024][0025]表示可以训练的权重矩阵和偏置向量,通过乘性注意力机制计算得分矩阵S
t
∈R
(l+2)
×
(l+2)
,其中,S
t
表示为:
[0026][0027]定义位置编码矩阵R
p
,以得到一个新的得分矩阵计算结果S
t

[0028][0029]矩阵中的元素s
t
(i,j)∈S
t
表示token pair(w
i
,w
j
)在实体类别或主要关系类别e
t
上的得分,其中,i,j∈(0,l+2),全局指针提出一种在多分类问题上解决分类不均衡问题的损失函数:
[0030][0031]其中,P
t
和Q
t
分别表示正样本和负样本,在推理运算中,若token pair的得分满足条件s
t
(i,j)>0,则认为是正样本;
[0032]其中,在命名实体识别过程中,得分矩阵和损失函数L
entity
通过将特征矩阵H
e
代入公式(3),(4),(6)和(7)计算出来,在关系识别过程中,得分矩阵和损失函数L
head
和L
tail
通过将特征矩阵H
r
代入公式(3),(4),(6)和(7)计算出来,t1和t2分别表示实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局指针流水线的城市地下管廊运维知识抽取方法,其特征在于,包括:获取管廊运行和维护相关的数据并构建管廊运维数据集;根据管廊运维数据集构建训练和测试样本的标签,以获取带有标签的样本;基于两个独立的编码器和三个独立的解码器构建用于进行<主体,关系,客体>三元组抽取的BERT模型,其中,解码器用于将文本特征矩阵转化为一个可以表征实体或关系的三维矩阵;将带有标签的样本输入到BERT模型中分别进行实体抽取和关系抽取的训练、验证;将管廊运维文本输入到训练、验证后的BERT模型中,以得到实体集合与关系三元组集合。2.根据权利要求1所述的基于全局指针流水线的城市地下管廊运维知识抽取方法,其特征在于,还包括:通过图数据库对所述实体集合与关系三元组集合进行存储或可视化展示。3.根据权利要求1所述的基于全局指针流水线的城市地下管廊运维知识抽取方法,其特征在于,根据管廊运维数据集构建训练和测试样本的标签,包括:设W=[w1,w2,...,w
l+2
]为一条文本数据,l表示句子长度,实体类别集合为主要关系类别集合为其中,n
e
和n
r
分别表示实体类型和主要关系类型的数目,构建全零矩阵L∈O
l
×
l
,对实体标注而言,设w
i
表示某实体的首字,w
j
表示某实体的尾字,可以用实体头字和尾字对(w
i
,w
j
)表示一个实体,实体类型e
k
∈T
entity
,k<n
e
,则实体标注矩阵为L(i,j)=k;对于关系三元组<主体,关系,客体>,设w
i
表示主体的头字,w
j
表示客体的尾字,三元组中的关系指细分关系,所述关系通过来表示,其中,实体类别和都是在实体过程中表示,在关系标注中仅标注主要关系即L(i,j)=k2,以得到的表示三元组中主体和客体的头字关系矩阵,再通过主体和客体的头字关系矩阵标注的方式标注出主体和客体的尾字关系矩阵;通过独热编码的方式将实体标注矩阵、头字关系矩阵和尾字关系矩阵转换为新的标注矩阵L∈R
l
×
l
×
n
,其中,矩阵中所有的元素都是0或1,n表示关系数目。4.根据权利要求1所述的基于全局指针流水线的城市地下管廊运维知识抽取方法,其特征在于,所述BERT模型包括实体抽取模型和关系抽取模型,其中,所述实体抽取模型包括一组独立的编码器和解码器,其中,一组独立的编码器和解码器用来计算实体识别所需的实体表征矩阵,所述关系抽取模型包括两个解码器以及一个共享的编码器,其中,另外两个解码器共享来自于另一个编码器的句子特征来计算关系抽取所需要的头字关系矩阵和尾字关系矩阵,对实体表征矩阵、头字关系矩阵和尾字关系矩阵进行推理运算以完成<主体,关系,客体>三元组抽取。5.根据权利要求4所述的基于全局指针流水线的城市地下管廊运维知识抽取方法,其特征在于,所述实体表征矩阵、头字关系矩阵和尾字关系矩阵的计算包括:对于输入文本W=[w1,w2,...,w
l+2
],定义句子特征矩阵为BPM
e
和BPM
r

别表示命名实体抽取预训练模型和关系抽取预训练模型,h1表示BERT模型最后一个隐藏层中的参数,其中,H
e
,H
r
表示为:H
e
=BPM
e
(w1,w2,

w
l+2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)H
r
=BPM
r
(w1,w2,

w
l+2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)将H
e
,H
r
输入到两个独立的前馈神经网络之中,来获取两个特征矩阵和其中,h2表示隐藏层的句子维度,t表示命名实体抽取或者主要关系识别的分类序号,其中,表示为:表示为:表示为:表示可以训练的权重矩阵和偏置向量,通过乘性注意力机制计算得分矩阵S
t
∈R
(l+2)
×
(l+2)
,其中,S
t
表示为:定义位置编码矩阵R
p
,以得到一个新的...

【专利技术属性】
技术研发人员:朱祖港范雪儿陈季宇闻军能汪永兵温晨鹰钱金传张新民宋执环
申请(专利权)人:杭州市地下管道开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1