一种基于语义增强机制的关系抽取方法及系统技术方案

技术编号:39746085 阅读:13 留言:0更新日期:2023-12-17 23:45
本发明专利技术提供一种基于语义增强机制的关系抽取方法及系统,所述方法的步骤包括:基于预设的编码模型对检测语句进行编码,得到初始语句向量,所述初始语句向量中包括对应检测语句中的每个词语的初始词向量;基于预设的主体识别模块识别初始语句向量中的可能主体词向量,并输入到语义增强模块中;基于语义增强模块的分类层对可能主体词向量进行预分类,并构建对于每个可能主体词向量的相似词表;基于可能主体词向量的预分类结果和相似词表构建对于每个主体词向量的增强词向量;基于可能主体词向量构建主体语句向量,基于增强词向量构建增强语句向量,将初始语句向量

【技术实现步骤摘要】
一种基于语义增强机制的关系抽取方法及系统


[0001]本专利技术涉及关系抽取
,尤其涉及一种基于语义增强机制的关系抽取方法及系统


技术介绍

[0002]关系抽取是自然语言处理领域中有关信息抽取的基本任务之一,主要是为了识别文本中实体与实体之间的关系,是自然语言处理中的一些下游任务,如文本理解,问答聊天等必不可少的步骤之一

关系抽取就是从非结构化文本中抽取出实体关系三元组,来表示两个实体之间所属的关系

[0003]随着技术的发展和进步,目前在关系抽取领域,主要存在着三种抽取方法:基于监督学习的关系抽取

基于半监督学习的关系抽取以及基于远程监督学习的关系抽取

基于半监督学习和基于远程监督学习的关系抽取方法由于所用的数据集都是弱标记样本的集合,包含大量的噪声;基于监督学习的关系抽取算法中,主要分为两类:基于管道学习的方法和联合学习方法

基于管道的方法将关系抽取中的两个步骤:实体识别,实体间关系识别分离开看成两个独立的任务,对他们分别定义模型,即先搭建模型进行实体识别,然后在实体识别的基础上进行关系分类;和基于管道的关系抽取方式相比,联合学习方法能充分利用实体和关系间的交互信息,在抽取实体的过程中完成实体对关系的分类

[0004]但现有的关系抽取方法往往存在抽取准确率较低的问题


技术实现思路

[0005]鉴于此,本专利技术的实施例提供了一种基于语义增强机制的关系抽取方法,以消除或改善现有技术中存在的一个或更多个缺陷

[0006]本专利技术的一个方面提供了一种基于语义增强机制的关系抽取方法,所述方法的步骤包括:
[0007]获取检测语句,基于预设的编码模型对所述检测语句进行编码,得到初始语句向量,所述初始语句向量中包括对应检测语句中的每个词语的初始词向量;
[0008]基于预设的主体识别模块识别所述初始语句向量中的可能主体词向量,将所述可能主体词向量输入到语义增强模块中;
[0009]基于所述语义增强模块中的分类层对每个可能主体词向量进行预分类,并基于所述语义增强模块中主体词库构建对于每个可能主体词向量的相似词表;
[0010]基于所述可能主体词向量的预分类结果和相似词表构建对于每个所述主体词向量的增强词向量;
[0011]基于全部可能主体词向量构建主体语句向量,基于全部增强词向量构建增强语句向量,将所述初始语句向量

主体语句向量和增强语句向量输入到预设的客体与关系识别模块,得到对于检测语句的关系分类结果

[0012]采用上述方案,本方案通过语义增强模块所述在实体抽取阶段引入语义增强机
制,基于所述可能主体词向量的预分类结果和相似词表构建对于每个所述主体词向量的增强词向量,对抽取出来的实体基于其可能所属的关系类型进行语义增强,并在最终通过所述初始语句向量

主体语句向量和增强语句向量得到对于检测语句的关系分类结果,提高关系抽取准确率

[0013]在本专利技术的一些实施方式中,在基于所述语义增强模块中的分类层对每个可能主体词向量进行预分类的步骤中,所述分类层输出所述可能主体词向量在每个类别的分类值,组合所述分类值得到对于每个可能主体词向量的预分类向量

[0014]在本专利技术的一些实施方式中,所述主体词库包括多个词类别,每个词类别向均预设有多个词向量,在基于所述语义增强模块中主体词库构建对于每个可能主体词向量的相似词表的步骤中,计算所述可能主体词向量与所述主体词库中每个词向量的相似度,并将所述相似度构建为相似词表

[0015]在本专利技术的一些实施方式中,在基于所述可能主体词向量的预分类结果和相似词表构建对于每个所述可能主体词向量的增强词向量的步骤中,基于所述相似词表中每个词类别下的相似度构建类别向量,基于每个类别向量和预分类向量计算每个所述可能主体词向量的增强词向量

[0016]在本专利技术的一些实施方式中,在基于每个类别向量和预分类向量计算每个所述可能主体词向量的增强词向量的步骤中,基于如下公式计算所述增强词向量:
[0017][0018]其中,
v
k
表示第
k
个可能主体词向量对应的增强词向量,
n
表示类别的数量,
w
i
表示该可能主体词向量在预分类向量中第
i
个类别对应的维度的值,
v
i
表示该可能主体词向量在第
i
个类别对应的类别向量

[0019]在本专利技术的一些实施方式中,基于所述相似词表中每个词类别下的相似度构建类别向量的步骤包括:
[0020]将所述相似词表中每个词类别下的相似度计算主体词库中每个词向量对所述可能主体词向量的贡献度;
[0021]基于所述贡献度计算所述类别向量

[0022]在本专利技术的一些实施方式中,在将所述相似词表中每个词类别下的相似度计算主体词库中每个词向量对所述可能主体词向量的贡献度的步骤中,基于如下公式计算所述相似度:
[0023][0024]其中,表示可能主体词向量中第
x
维度的值,表示主体词库中第
i
个词类别中第
y
个词向量的第
x
维度的值,
m
表示可能主体词向量的维度总数,表示可能主体词向量与主体词库中第
i
个词类别中第
y
个词向量的相似度;
[0025]在将所述相似词表中每个词类别下的相似度计算主体词库中每个词向量对所述可能主体词向量的贡献度的步骤中,基于如下公式计算主体词库中每个词向量对所述可能
主体词向量的贡献度:
[0026][0027]其中,表示主体词库中第
i
个词类别中第
y
个词向量对主体词向量的贡献度,表示可能主体词向量与主体词库中第
i
个词类别中第
y
个词向量的相似度,
δ
表示主体词库中第
i
个词类别中的词向量数量;
[0028]在基于所述贡献度计算所述类别向量的步骤中,基于如下公式计算所述类别向量:
[0029][0030]其中,
vi

示该可能主体词向量在第
i
个类别对应的类别向量,表示主体词库中第
i
个词类别中第
y
个词向量对主体词向量的贡献度,表示可能主体词向量与主体词库中第
i
个词类别中第
y
个词向量的相似度,
δ
表示主体词库中第
i
个词类别中的词向量数量

[0031]在本专利技术的一些实施方式中,将所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于语义增强机制的关系抽取方法,其特征在于,所述方法的步骤包括:获取检测语句,基于预设的编码模型对所述检测语句进行编码,得到初始语句向量,所述初始语句向量中包括对应检测语句中的每个词语的初始词向量;基于预设的主体识别模块识别所述初始语句向量中的可能主体词向量,将所述可能主体词向量输入到语义增强模块中;基于所述语义增强模块中的分类层对每个可能主体词向量进行预分类,并基于所述语义增强模块中主体词库构建对于每个可能主体词向量的相似词表;基于所述可能主体词向量的预分类结果和相似词表构建对于每个所述主体词向量的增强词向量;基于全部可能主体词向量构建主体语句向量,基于全部增强词向量构建增强语句向量,将所述初始语句向量

主体语句向量和增强语句向量输入到预设的客体与关系识别模块,得到对于检测语句的关系分类结果
。2.
根据权利要求1所述的基于语义增强机制的关系抽取方法,其特征在于,在基于所述语义增强模块中的分类层对每个可能主体词向量进行预分类的步骤中,所述分类层输出所述可能主体词向量在每个类别的分类值,组合所述分类值得到对于每个可能主体词向量的预分类向量
。3.
根据权利要求1所述的基于语义增强机制的关系抽取方法,其特征在于,所述主体词库包括多个词类别,每个词类别向均预设有多个词向量,在基于所述语义增强模块中主体词库构建对于每个可能主体词向量的相似词表的步骤中,计算所述可能主体词向量与所述主体词库中每个词向量的相似度,并将所述相似度构建为相似词表
。4.
根据权利要求1‑3任一项所述的基于语义增强机制的关系抽取方法,其特征在于,在基于所述可能主体词向量的预分类结果和相似词表构建对于每个所述可能主体词向量的增强词向量的步骤中,基于所述相似词表中每个词类别下的相似度构建类别向量,基于每个类别向量和预分类向量计算每个所述可能主体词向量的增强词向量
。5.
根据权利要求4所述的基于语义增强机制的关系抽取方法,其特征在于,在基于每个类别向量和预分类向量计算每个所述可能主体词向量的增强词向量的步骤中,基于如下公式计算所述增强词向量:其中,
v
k
表示第
k
个可能主体词向量对应的增强词向量,
n
表示类别的数量,
w
i
表示该可能主体词向量在预分类向量中第
i
个类别对应的维度的值,
v
i
表示该可能主体词向量在第
i
个类别对应的类别向量
。6.
根据权利要求4所述的基于语义增强机制的关系抽取方法,其特征在于,基于所述相似词表中每个词类别下的相似度构建类别向量的步骤包括:将所述相似词表中每个词类别下的相似度计算主体词库中每个词向量对所述可能主体词向量的贡献度;基于所述贡献度计算所述类别向量
。7.
根据权利要求6所述的基于语义增强机制的关系抽取方法,其特征在于,在将所述相似词表中每个词类别下的相似度计算主体词库中每个词向量对所述可能主体词向量的贡
献度的步骤中,基于如下公式计算所述相似度:其中,表示可能主体词向量中第
x
维度的值,表示主体词库中第
i
个词类别中第
y
个词向量的第
x
维度的值,
m
表示可能主体词向量的维度总数,表示可能主体词向量与主体词库中第
i
个词类别中第
y
个词向量的相似度;...

【专利技术属性】
技术研发人员:李雅文刘培宇邵蓥侠管泽礼
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1