一种融合实体类型表征与关系表征的关系抽取方法技术

技术编号:35750028 阅读:26 留言:0更新日期:2022-11-26 18:55
本发明专利技术公开了一种融合实体类型表征与关系表征的关系抽取方法,属于关系抽取技术领域。本发明专利技术设计文本

【技术实现步骤摘要】
一种融合实体类型表征与关系表征的关系抽取方法


[0001]本专利技术涉及关系抽取领域,具体涉及一种融合实体类型表征与关系表征的关系抽取方法。

技术介绍

[0002]在当今信息爆炸的背景下,信息抽取技术从海量的非结构化文本中抽取出重要的信息,并重构为下游任务(如:知识图谱构建、搜索引擎知识库构建、问答系统知识库构建)易用的结构化信息。关系抽取是信息抽取的一个重要领域,旨在从非结构化文本中提取结构化的关系三元组信息,即(主体,关系,客体),以帮助刻画实体之间的关联关系。
[0003]现有的关系抽取方法大多使用基于命名实体识别的联合或管道方法来实现对关系的抽取。在建模时,首先对命名实体主体和客体进行识别,基于识别的结果,在特征信息中强化主体和客体的语义信息去对关系进行抽取,而忽略了语句全局的上下文信息,导致模型一定程度上退化为基于实体对的关系匹配模型,影响了关系抽取的合理性和鲁棒性。为此,本专利提出了一种融合实体类型表征与关系表征的关系抽取方法,增加了模型对于未见实体或语句的性能鲁棒性。

技术实现思路

[0004]为解决现有技术中存在的问题,本专利技术提供了一种融合实体类型表征与关系表征的关系抽取方法,从语义表征、实体类型表征、关系表征出发,利用文本

主客体弱相关语义表征机制和关系特征融合机制,提出了一种新颖的关系抽取模型,可有效地语句的全局上下文信息,实现非结构化文本中实体对和关系的抽取,解决了上述
技术介绍
中提到的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种融合实体类型表征与关系表征的关系抽取方法,所述关系抽取方法具体步骤如下:
[0006]步骤S10:对于输入系统的自然语言文本,基于word

piece分词方法编码文本的语义信息、实体类型信息及关系信息,输出Word

Piece语义表征、实体类型表征、关系表征;
[0007]步骤S20:基于输出的word

piece语义表征,进一步利用BERT和二元标注法抽取文本中的主体和客体;
[0008]步骤S30:通过输出的实体类型表征替换抽取出的主体和客体的词义表征,以弱化主体

客体语义关联信息,构造文本中主体与客体的弱相关语义表征机制,生成主体客体之间的弱语义关联新文本;
[0009]步骤S40:构造基于BERT表示模型的关系编码器,对弱语义关联新文本进行编码,提取文本中的高层抽象语义信息,并结合双向上下文信息输出文本

主客体弱相关的上下文语义向量表征;
[0010]步骤S50:构造文本

主客体弱相关的上下文语义信息与关系信息的融合机制,融合后的表征向量将被用于捕获主体

关系

客体三元组。
[0011]优选的,所述步骤S10的具体步骤如下:
[0012]步骤S101,输入系统的自然语言文本为单词序列,s={w1,...,w
l
},其中w
i
,i∈{1,2,...,l},表示语句中的第i个单词,l为待抽取语句所含单词数量;构造基于BPE双字节编码方式的Word

Piece表征模型来表示向量空间中的单词,将输入句子中的每个单词都分割为细粒度的子词,输出子词表征序列其中t
i
,i∈{1,2,...,L},表示语句中的第i个子词,L为待抽取语句经过Word

Piece划分后的子词长度;
[0013]步骤S102,将实体类型和关系类型预先输入系统进行向量表征,ε为实体类型的集合,R为关系类型的集合,对于输入系统的任意实体类型e∈ε和任意关系类型r∈R,分别构造基于多层感知机的实体类型和关系表征模型,将离散的实体类型符号和关系类型符号转化为连续的高维表征向量化为连续的高维表征向量以输出实体类型和关系类型的细粒度语义信息。
[0014]优选的,所述步骤S20的具体步骤如下:
[0015]步骤S201,构造基于BERT神经网络表示模型的命名实体编码器,将子词序列作为系统编码器的输入,顺序通过N个Transformer编码器块,通过微调参数对每个词元的双向上下文信息进行深层次编码,输出深度的双向语言表征向量序列
[0016]其中,Trans表示Transformer编码器块,h
α
‑1表示上一个Transformer编码器块的编码结果;
[0017]步骤S202,建立基于全连接神经网络的命名实体主体解码器和客体解码器,以抽取子词序列中的候选主体和候选客体,以编码器最后一个块的输出为解码器的输入,对子词序列中的每个词元i,计算该词元为主体跨度起点、主体跨度终点、客体跨度起点、客体跨度终点的概率,公式分别如下:
[0018][0019][0020][0021][0022]其中,用代表全连接神经网络中可学习的权重参数和偏差参数,σ是sigmoid激活函数;
[0023]对比计算出的概率值type∈start_s,end_s,start_o,end_o是否超过预设定的阈值0.5(该阈值是结合先验知识和超参数实验人为设置的超参数。控制系统根据输出的概率值是否超过阈值,判定该词元是否为对应type的标签),若是,则相应的判定标签type∈start_s,end_s,start_o,end_o被分配为1,否则标签被分配为0;
[0024]根据上述判定标签的结果输出对应的主体跨度起点、主体跨度终点、客体跨
度起点、客体跨度终点的序列表示,度起点、客体跨度终点的序列表示,度起点、客体跨度终点的序列表示,
[0025]步骤S203,对主体起点判定序列d
start_s
中的一个1标签,在主体终点判定序列d
end_s
中向右寻找最近的一个1标签,以组成一个潜在主体跨度subi;对于客体判定序列进行相同的操作,输出一个潜在客体跨度obj
i

[0026]对所有主体和客体起点判定序列中的1标签进行上述操作,分别输出潜在主体跨度序列H
sub
=(sub1,...,sub
m
)和潜在客体跨度序列H
obj
=(obj1,...,obj
n
),两两组合,形成潜在主体

客体跨度对序列,H=(sub1,obj1),...,(sub
m
×
n
,obj
m
×
n
);
[0027]其中,m,n分别为子词序列抽取出的潜在主体数目和潜在客体数目。
[0028]优选的,所述步骤S30的具体步骤如下:
[0029]步骤S301,构造文本

主客体弱相关语义表征机制,输入实体类型信息以弱化主体

客体语义关联信息,对于给定主体
...

【技术保护点】

【技术特征摘要】
1.一种融合实体类型表征与关系表征的关系抽取方法,其特征在于,所述关系抽取方法具体步骤如下:步骤S10:对于输入系统的自然语言文本,基于word

piece分词方法编码文本的语义信息、实体类型信息及关系信息,输出Word

Piece语义表征、实体类型表征、关系表征;步骤S20:基于输出的word

piece语义表征,进一步利用BERT和二元标注法抽取文本中的主体和客体;步骤S30:通过输出的实体类型表征替换抽取出的主体和客体的词义表征,以弱化主体

客体语义关联信息,构造文本中主体与客体的弱相关语义表征机制,生成主体客体之间的弱语义关联新文本;步骤S40:构造基于BERT表示模型的关系编码器,对弱语义关联新文本进行编码,提取文本中的高层抽象语义信息,并结合双向上下文信息输出文本

主客体弱相关的上下文语义向量表征;步骤S50:构造文本

主客体弱相关的上下文语义信息与关系信息的融合机制,融合后的表征向量将被用于捕获主体

关系

客体三元组。2.根据权利要求1所述的融合实体类型表征与关系表征的关系抽取方法,其特征在于:所述步骤S10的具体步骤如下:步骤S101,输入系统的自然语言文本为单词序列,s={w1,

,w
l
},其中w
i
,i∈{1,2,...,l},表示语句中的第i个单词,l为待抽取语句所含单词数量;构造基于BPE双字节编码方式的Word

Piece表征模型来表示向量空间中的单词,将输入句子中的每个单词都分割为细粒度的子词,输出子词表征序列其中t
i
,i∈{1,2,

,L},表示语句中的第i个子词,L为待抽取语句经过Word

Piece划分后的子词长度;步骤S102,将实体类型和关系类型预先输入系统进行向量表征,ε为实体类型的集合,R为关系类型的集合,对于输入系统的任意实体类型e∈ε和任意关系类型r∈R,分别构造基于多层感知机的实体类型和关系表征模型,将离散的实体类型符号和关系类型符号转化为连续的高维表征向量连续的高维表征向量以输出实体类型和关系类型的细粒度语义信息。3.根据权利要求1所述的融合实体类型表征与关系表征的关系抽取方法,其特征在于:所述步骤S20的具体步骤如下:步骤S201,构造基于BERT神经网络表示模型的命名实体编码器,将子词序列作为系统编码器的输入,顺序通过N个Transformer编码器块,通过微调参数对每个词元的双向上下文信息进行深层次编码,输出深度的双向语言表征向量序列其中,Trans表示Transformer编码器块,h
α
‑1表示上一个Transformer编码器块的编码结果;步骤S202,建立基于全连接神经网络的命名实体主体解码器和客体解码器,以抽取子词序列中的候选主体和候选客体,以编码器最后一个块的输出
为解码器的输入,对子词序列中的每个词元i,计算该词元为主体跨度起点、主体跨度终点、客体跨度起点、客体跨度终点的概率,公式分别如下:客体跨度起点、客体跨度终点的概率,公式分别如下:客体跨度起点、客体跨度终点的概率,公式分别如下:客体跨度起点、客体跨度终点的概率,公式分别如下:其中,W
start_s
,W
end_s
,W
start_o
,b
start_s
,b
end_s
,b
start_o
,用代表全连接神经网络中可学习的权重参数和偏差参数,σ是sigmoid激活函数;对比计算出的概率值type∈start_s,end_s,start_o,end_o是否超过预设定的阈值,若是,则相应的判定标签type∈start_s,end_s,start_o,end_o被分配为1,否则标签被分配为0;根据上述判定标签的结果输出对应的主体跨度起点、主体跨度终点、客体跨度起点、客体跨度终点的序列表示,点、客体跨度终点的序列表示,点、客体跨度终点的序列表示,步骤S203,对主体起点判定序列d
start_s
中的一个1标签,在主体终点判定序列d
end_s
中向右寻找最近的一个1标签,以组成一个潜在主体跨度sub
i
;对于客体判定序列进行相同的操作,输出一个潜在客体跨度obj
i
;对所有主体和客体起点判定序列中的1标签进行上述操作,分别输出潜在主体跨度序列H
sub

【专利技术属性】
技术研发人员:刘峤徐远扬骆妲赵海睿甘洋镭侯睿代婷婷佟飘
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1