基于双重注意力机制的面向大坝应急工况事件抽取方法技术

技术编号:31914300 阅读:18 留言:0更新日期:2022-01-15 12:55
本发明专利技术公开了一种基于双重注意力机制的面向大坝应急工况事件抽取方法,步骤包括数据预处理、构建依赖关系图、构建双重注意力网络和文档级论元填充。数据预处理步骤包括大坝应急工况语料库的标记处理以及句子编码。构建依赖关系图步骤包括借助依赖关系,辅助模型挖掘句法关系。构建双重注意力网络步骤包括基于图转换网络,加权融合注意力网络,捕捉句中关键的语义信息。文档级论元填充步骤包括利用关键句检测和相似性排序,进行文档级论元填充。本发明专利技术引入依赖关系,基于双重注意力机制,克服了长距离依赖,识准确率高,减少了大量的人工成本。成本。成本。

【技术实现步骤摘要】
基于双重注意力机制的面向大坝应急工况事件抽取方法


[0001]本专利技术涉及一种基于双重注意力机制的面向大坝应急工况事件抽取方法,属于自然语言处理


技术介绍

[0002]在水利工程领域,大坝集防洪、蓄水、发电等功能于一身,在其长周期运行过程中,会遇到很多自然风险事件,如地震、洪水、暴雨等事件。在这些特殊事件发生后,全面地专项检查对大坝维护来说至关重要,此外,大坝的日常检查与检修也是保障大坝安全的重要措施。历年来,大坝应急工况下的安全运行记录会产出繁多的专项检查报告和日常巡检报告,报告都相对冗长,如何从这些大量的非结构化的文本数据中挖掘出有使用价值的信息,仍是一个难题。信息抽取研究正是这种背景下应运而生的,事件抽取是信息抽取研究中最具挑战性的任务之一。在信息时代的背景下,单纯依靠手工劳动来识别事件论元并整理成结构化数据费时又费力,因此大坝应急工况事件的自动抽取具有重要的意义。
[0003]我们在事件抽取的研究中发现,现有的卷积神经网络和递归神经网络等深度学习网络已被用于生成低维向量,以自动表示文本语义信息,并基于这些语义向量进一步提取事件论元。虽然深度神经网络可以自动学习底层特征,但没有充分利用句法关系,且事件信息通常分散在文档的多个句子中,易出现论元角色缺失的现象。

技术实现思路

[0004]专利技术目的:为了克服现有技术中存在的问题与不足,本专利技术引入依赖关系,提出基于双重注意力机制的面向大坝应急工况事件抽取方法。将大坝历年专项检查报告和日常巡检报告里的信息,以结构化的方式存储和展现,供用户查询和研究人员分析利用,极大地提高从非结构化信息中获取重要信息的效率。
[0005]技术方案:一种基于双重注意力机制的面向大坝应急工况事件抽取方法,能够基于图转换注意网络和注意力网络来挖掘句法关系,对大坝应急工况语料库进行事件论元角色抽取和填充,包括以下步骤:
[0006](1)数据预处理:包括对大坝应急工况语料库的标记处理以及将包含大坝应急工况事件信息的句子和文档进行编码;
[0007](2)构建依赖关系图:引入依赖关系,借助句子结构和语义结构构建依赖关系图,以识别和分类大坝应急工况事件的所有参数;
[0008](3)构建双重注意力网络:基于图转换注意网络生成新的依赖弧,并聚合节点信息,捕获长程依赖关系和潜在交互;然后,引入注意力网络,将图转换注意网络层和注意力网络层提取的特征按设定比例融合,捕捉句中关键的语义信息,抽取句子级事件论元;
[0009](4)文档级论元填充:检测大坝应急工况文档中具备关键事件的句子,利用孪生神经网络将周围句子中相似度最高的论元角色填充到关键事件缺失的部分,从而实现了面向大坝应急工况事件抽取。
[0010]进一步的,所述应急工况指的是:大坝在自然灾害下的工作状态。
[0011]进一步的,所述大坝应急工况语料库包括大坝历年专项检查报告和日常巡检报告。
[0012]进一步的,所述步骤(1)中数据预处理的具体步骤如下:采用BIO模式将大坝专项检查报告和日常巡检报告的数据进行标注;用ALBERT模型最后一层312维向量作为词嵌入向量,串联事件类型嵌入向量、实体类型嵌入向量和词性标注嵌入向量;通过双向长短记忆网络挖掘串联后的嵌入向量,得到隐藏向量H=h1,...,h
n
;所述事件类型嵌入向量为地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修、日常检查等典型事件所对应的数学向量,所述实体类型嵌入向量为人名、组织、位置、时间、日期、数值、百分比等对应的数学向量,所述词性标注嵌入向量为名词、动词、形容词、数量词、代词等对应的数学向量。
[0013]进一步的,所述步骤(2)中构建依赖关系图的具体步骤如下:根据大坝应急工况语料库中的单词关系构建依赖树的邻接矩阵A
d
和依赖标签分数矩阵通过计算步骤(1)获得的隐藏向量h
i
和h
j
之间分数得到语义分数矩阵A
s
;将A
d
、A
s
串联得到依赖关系图矩阵
[0014]进一步的,所述步骤(3)中构建双重注意力网络的具体步骤如下:提出图转换注意网络,将图卷积网络替换为图注意网络,进行合理的权重分配,图转换注意网络是对图转化网络的改进,将图转换网络中的图卷积网络替换成图注意网络。为依赖关系中触发器和关键论元的弧赋予更高的权重是合理的,能充分发挥依赖关系的作用;图转换注意网络通过图转换器层对邻接矩阵A集合采用1
×
1卷积,通过矩阵相乘生成新的元路径图A
l
(新的依赖弧);图注意层对元路径图A
l
每个通道应用图注意网络,并将多个节点表示串联为Z向量;计算注意力网络层权重矩阵α
a
,将α
a
点乘隐藏向量H生成向量用超参数λ连接图转换注意网络层生成的Z向量和注意力网络层生成的向量得到融合向量融合公式如下:
[0015][0016]其中,σ是sigmoid函数,最后通过序列标注的方式进行事件抽取,利用条件随机场CRF挖掘特征融合向量以预测每个字符的标签,以Focal loss损失函数和Adam优化器解决无用信息O冗余导致的样本不均衡问题。
[0017]进一步的,所述步骤(4)中文档级论元填充的具体步骤如下:将大坝专项检查报告和日常巡检报告的论元标签、实体类型、句子信息和文档信息四种嵌入向量进行串联;建立文本卷积神经网络,将串联后的向量作为输入向量,检测事件中关键句子并判别关键事件;使用基于曼哈顿长短记忆网络的孪生神经网络,计算句子间语义相似性,进行论元角色填充。
[0018]基于双重注意力机制的面向大坝应急工况事件抽取系统,其特征在于,包括以下模块:
[0019](1)数据预处理模块:包括对大坝应急工况语料库的标记处理以及将包含大坝应急工况事件信息的句子和文档进行编码;
[0020](2)构建依赖关系图模块:引入依赖关系,借助句子结构和语义结构构建依赖关系图,以识别和分类大坝应急工况事件的所有参数;
[0021](3)构建双重注意力网络模块:基于图转换注意网络生成新的依赖弧,并聚合节点信息,捕获长程依赖关系和潜在交互;然后,引入注意力网络,将图转换注意网络层和注意力网络层提取的特征按设定比例融合,捕捉句中关键的语义信息,抽取句子级事件论元;
[0022](4)文档级论元填充模块:检测大坝应急工况文档中具备关键事件的句子,利用孪生神经网络将周围句子中相似度最高的论元角色填充到关键事件缺失的部分。
[0023]系统的具体实现与方法相同。
[0024]一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于双重注意力机制的面向大坝应急工况事件抽取方法。
[0025]一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于双重注意力机制的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双重注意力机制的面向大坝应急工况事件抽取方法,其特征在于,基于图转换注意网络和注意力网络来挖掘句法关系,对大坝应急工况语料库进行事件论元角色抽取和填充,包括以下步骤:(1)数据预处理:包括对大坝应急工况语料库的标记处理以及将包含大坝应急工况事件信息的句子和文档进行编码;(2)构建依赖关系图:引入依赖关系,借助句子结构和语义结构构建依赖关系图,以识别和分类大坝应急工况事件的所有参数;(3)构建双重注意力网络:基于图转换注意网络生成新的依赖弧,并聚合节点信息,捕获长程依赖关系和潜在交互;然后,引入注意力网络,将图转换注意网络层和注意力网络层提取的特征按设定比例融合,捕捉句中关键的语义信息,抽取句子级事件论元;(4)文档级论元填充:检测大坝应急工况文档中具备关键事件的句子,利用孪生神经网络将周围句子中相似度最高的论元角色填充到关键事件缺失的部分。2.根据权利要求1所述的基于双重注意力机制的面向大坝应急工况事件抽取方法,其特征在于,所述大坝应急工况语料库包括大坝历年专项检查报告和日常巡检报告。3.根据权利要求1所述的基于双重注意力机制的面向大坝应急工况事件抽取方法,其特征在于,所述步骤(1)中数据预处理的具体步骤如下:采用BIO模式将大坝专项检查报告和日常巡检报告的数据进行标注;用ALBERT模型最后一层312维向量作为词嵌入向量,串联事件类型嵌入向量、实体类型嵌入向量和词性标注嵌入向量;通过双向长短记忆网络挖掘串联后的嵌入向量,得到隐藏向量H=h1,...,h
n
。4.根据权利要求1所述的基于双重注意力机制的面向大坝应急工况事件抽取方法,其特征在于,所述步骤(2)中构建依赖关系图的具体步骤如下:根据大坝应急工况语料库中的单词关系构建依赖树的邻接矩阵A
d
和依赖标签分数矩阵通过计算步骤(1)获得的隐藏向量h
i
和h
j
之间分数得到语义分数矩阵A
s
;将A
d
、A
s
串联得到依赖关系图矩阵5.根据权利要求1所述的基于双重注意力机制的面向大坝应急工况事件抽取方法,其特征在于,所述步骤(3)中构建双重注意力网络的具体步骤如下:提出图转换注意网络,将图卷积网络替换为图注意网络,进行合理的权重分配;图转换注意网络通过图转换器层对邻接矩阵A集合采用1
×
...

【专利技术属性】
技术研发人员:程永毛莺池肖海斌詹维勇陈豪王龙宝赵富刚方晗周晓峰张春锐谭彬谢文明聂斌斌陈智祥杨春睿
申请(专利权)人:华能澜沧江水电股份有限公司华能集团技术创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1