【技术实现步骤摘要】
基于跨粒度交叉注意力融合的实体关系抽取方法、系统
[0001]本专利技术涉及关系抽取
,具体涉及一种基于跨粒度交叉注意力融合的实体关系抽取方法、系统。
技术介绍
[0002]关系抽取是信息抽取领域的子任务,是指使用包含实体对(主体,客体)提及的文档将实体对分类为一组已知的关系,从自然语言文本中提取关系三元组(主体,关系,客体)是构建大规模知识图谱的关键一步。传统的关系抽取模型大多基于模式匹配和统计,需要大量人工操作,最近基于神经网络的模型通过学习表示替换手动构建的特征,能够更高效地抽取语义特征并且在关系抽取任务中取得了相当大的成功。在基于神经网络的模型中,早期工作采用管道的方法,将实体识别和关系抽取视为两个独立的过程,先识别句子中的所有实体,然后对每个实体对进行关系分类,这种方法往往会造成错误传播。为此,学术界提出了联合抽取模型,联合建模实体、关系之间的内在联系,缓解了误差累积的问题。
[0003]现有的关系抽取方法大多采用序列标记,无法同时处理句子中包含重叠实体和重叠关系的场景。最近的工作尝试使用基于跨度的联 ...
【技术保护点】
【技术特征摘要】
1.一种基于跨粒度交叉注意力融合的实体关系抽取方法,其特征在于,包括如下步骤:步骤S10:构造基于Bert的句子语义信息表示模型,针对文本中的每个句子,建立基于span的语义信息表示和基于token的语义信息表示;步骤S20:建立线性映射层,将span和token语义表示分别映射为粗粒度的实体span语义表示以及细粒度的token语义表示;步骤S30:构造融合实体span和token语义的交叉注意力机制表示模型,生成跨粒度的全局信息表示,并结合实体span表示,辅助实体及类型检测,输出每个实体span的类型;步骤S40:过滤none类型的实体span,对剩余实体span进行线性映射,生成面向关系预测的span表示;步骤S50:利用交叉注意力机制融合关系span和token语义表示,作为关系抽取的全局信息表示,结合面向关系预测的span对表示,预测关系类型,输出文本中的实体关系三元组,实现关系抽取。2.根据权利要求1所述的基于跨粒度交叉注意力融合的实体关系抽取方法,其特征在于:步骤S10的具体步骤如下:步骤S101,将需要进行关系抽取的文本分解成多个句子,每个句子的原始表示为S
I
=[t1,t2,t3,...,t
l
],l为句子中单词的数量,原始句子经过预训练的Bert生成句子token表示和句子span表示其中n为句子经过分词后的token的数量,m为句子中span的数量,h
cls
和e
cls
分别为token粒度和span粒度的全局表示,每个实体span表示为token的最大池化d为Bert词向量维度。3.根据权利要求1所述的基于跨粒度交叉注意力融合的实体关系抽取方法,其特征在于:所述步骤S20的具体步骤如下:步骤S201,通过实体span映射函数将实体span表示为通过token映射函数将token表示为映射函数如下式:式:其中,b
s
,b
t
均为可学习参数,4.根据权利要求1所述的基于跨粒度交叉注意力融合的实体关系抽取方法,其特征在于:所述步骤S30的具体步骤如下:步骤S301,给定每个span的宽度k,生成宽度k的表示步骤S302,分别利用实体span粒度和token粒度的全局表示在token粒度的句子表示和实体span粒度的句子表示之间交换信息,然后与实体span粒度的原始全局和token粒度的原始全局表示交融,计算公式如下:
k1=W
k1
h
cross
,v1=W
v1
h
cross
k2=W
k2
s
ecross
,v2=W
v2
s
ecrosscrosscross
其中,是可学习的参数;步骤S303,将实体span表示和span宽度表示以及实体全局表示连接起来进行分类,计算公式如下...
【专利技术属性】
技术研发人员:刘峤,骆妲,徐远扬,赵海睿,甘洋镭,侯睿,代婷婷,佟飘,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。