基于BiLSTM结合多头注意力的中文重叠事件抽取系统技术方案

技术编号:34951200 阅读:69 留言:0更新日期:2022-09-17 12:28
本发明专利技术涉及一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统,属于自然语言处理领域,Bert编码器作为文本编码器,生成以标记上下文为条件的文本表示,并包含丰富的文本信息;事件类型检测解码器基于Bert文本分类模型,对事件进行分类;触发词提取解码器通过事件类型检测与触发词提取之间的条件依赖关系,根据获取到的事件类型提取出触发词;事件元素提取解码器采用多头注意力结合双向LSTM层对事件元素进行提取;损失权重调整模块结合多个损失函数,利用多个目标的同方差不确定性为每个任务动态分配权重。个任务动态分配权重。个任务动态分配权重。

【技术实现步骤摘要】
基于BiLSTM结合多头注意力的中文重叠事件抽取系统


[0001]本专利技术属于自然语言处理领域,涉及一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统。

技术介绍

[0002]随着互联网技术的发展,大量信息以文本的形式存储在计算机里,如何挖掘有价值的信息,已成为信息抽取的核心问题。事件抽取是信息抽取领域的研究热点之一,核心任务是从无结构化的自然语言文本中抽取指定类型的信息,并以半结构化或结构化的形式进行表示。
[0003]目前主流的研究方法大多基于神经网络,通过网络提取特征。Chen等人提出基于动态多池化卷积神经网络的方法,根据触发词和事件元素使用动态多池化层提取信息;Zeng等人提出用双向LSTM和CRF抽取句子特征,用卷积神经网络抽取语义特征进行中文事件抽取;Chen等人提出利用知识库的远程监督方法,生成大规模标注数据,应用到金融领域;Liu等人提出联合多事件提取框架用于重叠事件抽取;Yang等人提出根据角色分离事件元素的方法解决角色重叠问题。
[0004]在现有技术中,存在以下问题:(1)对于应用场景复杂的中文金融本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统,其特征在于:包括Bert编码器、事件类型检测解码器、触发词提取解码器、事件元素提取解码器和损失权重调整模块;所述Bert编码器作为文本编码器,生成以标记上下文为条件的文本表示,并包含丰富的文本信息;所述事件类型检测解码器基于Bert文本分类模型,对事件进行分类;所述触发词提取解码器通过事件类型检测与触发词提取之间的条件依赖关系,根据获取到的事件类型提取出触发词;所述事件元素提取解码器采用多头注意力结合双向LSTM层对事件元素进行提取;所述损失权重调整模块结合多个损失函数,利用多个目标的同方差不确定性为每个任务动态分配权重。2.根据权利要求1所述的基于BiLSTM结合多头注意力的中文重叠事件抽取系统,其特征在于:所述事件类型检测解码器基于Bert文本分类模型,将最后一层输出的第一个token位置当作句子的表示,然后连接全连接层进行分类,具体包括以下步骤:S11:首先初始化嵌入矩阵为类型嵌入,其中E表示事件类型集合,d为词向量维(d=768);S12:通过相似性函数δ来度量候选类型c∈C和标记表示之间的相关性;S13:通过测量具有相同相似度函数δ的自适应句子表征s
c
、类型嵌入c的相似度来预测事件类型。3.根据权利要求1所述的基于BiLSTM结合多头注意力的中文重叠事件抽取系统,其特征在于:所述触发词提取解码器利用条件融合函数建立事件类型检测和触发词提取之间的条件依赖关系模型,对类型检测和触发词提取之间的条件依赖性进行建模,通过自注意力层来进一步细化触发词提取的表示。4.根据权利要求1所述的基于BiLSTM结合多头注意力的中文重叠事件抽取系统,其特征在于:所述事件元素提取解码器首先使用条件融合函数φ对事件类型、触发词和事件元素进行依赖性建模,然后进行特征提取;采用多头注意力结合双向LSTM层来细化事件元素提取的表示:Z
ct
=[Z
ct
′...

【专利技术属性】
技术研发人员:甘玲张在军刘菊胡柳慧
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1