基于大坝运行日志的应急工况事件检测方法技术

技术编号:31803345 阅读:14 留言:0更新日期:2022-01-08 11:04
本发明专利技术公开一种面向大坝运行日志的应急工况事件检测方法,构建大坝应急工况事件类型集合;对大坝运行日志中的所有分词进行编码,转换成词对应的嵌入向量;融合分词对应的嵌入向量、命名实体类型与词性标注向量,强化分词的语义信息;使用句子

【技术实现步骤摘要】
基于大坝运行日志的应急工况事件检测方法


[0001]本专利技术涉及一种基于大坝运行日志的应急工况事件检测方法,对水工领域中的大坝运行日志进行事件检测,具体对大坝长周期运行下历经的各种特殊工况事件及其应对事件进行事件检测,属于自然语言处理


技术介绍

[0002]事件检测的任务是从大规模非结构化自然语言文本中识别事件触发词并正确分类事件类型,触发词指的是最能清晰明显表达事件出现的核心词语或短语。事件检测对事件语义建模具有重要意义,方便后续对事件的结构化管理与存储。
[0003]在水利工程领域,大坝设施提供了防洪、防凌、蓄水、供水、发电等多种功能,是我国水利事业发展的中流砥柱。在几十年的长周期运行过程中,大坝会遇到诸多自然风险事件,如洪水、地震、暴雨等事件,可能会危及大坝结构安全与大坝下游人民生命财产安全。因此,在特殊事件发生后,大坝管理人员会安排全面专项检查对大坝结构进行维护。此外,大坝的日常检查与检修也是保障大坝坝体安全的重要措施。在各种应对措施后,巡检人员会将本次巡检事件的原因与巡检结果进行文字记录,形成大坝运行日志文件。
[0004]通过对大坝运行日志进行一定的处理,能够剖析大坝自建坝以来安全状况以及形成大坝事件知识库,提升大坝智能管理水平。面向大坝运行日志的应急工况事件检测方法能够跳过事件触发器对大坝运行日志中的所有预定事件进行检测并分类每篇文档归属事件类型,为后续对事件的抽取、事件图谱的构建和事件知识库的构建任务提供基础。
[0005]中文文本中存在大量的歧义,而事件一般由事件触发器与事件论元组成。事件触发器多为动词,普遍具有一词多义性、触发器与词不匹配问题,导致以触发器识别为核心的事件检测方法易分类错误。

技术实现思路

[0006]专利技术目的:针对现有技术中存在的问题及大坝运行过程中遇到的各种自然事件及其应对措施事件,缺乏规范的针对事件的标准化记录,本专利技术提供了一种基于大坝运行日志的应急工况事件检测方法,避免了识别触发器的过程,通过模拟句子中的触发器来解决上述问题,从大坝运行日志中检测大坝特殊工况事件,并对每篇文档归属事件类型进行分类,为后续事件抽取提供基础。
[0007]技术方案:一种基于大坝运行日志的应急工况事件检测方法,包括如下步骤:
[0008](1)日志文件预处理:首先对大坝运行日志根据记录日期进行排序与拆分,给每个文档进行标号,对每个文档中的句子进行排序、标号与分词,每个词进行实体类型标注与词性标注,之后构建大坝应急工况事件类型集合;所述排序指的是对不同日期的日志进行排序;所述拆分指的是同一天的日志根据文档内容进行拆分;
[0009](2)编码向量嵌入:使用ALBERT预处理模型对大坝运行日志中的所有分词进行编码,转换成词对应的嵌入向量;
[0010](3)BiLSTM特征融合:使用BiLSTM融合分词对应的嵌入向量、命名实体类型与词性标注向量,强化分词的语义信息;
[0011](4)双重注意力机制语义强化:使用句子

文档双重注意力融合语境信息,句子级注意力提高每个句子中可能触发事件的重要词,文档级注意力提高每个日志文档中可能触发事件的重要句子,解决传统中文事件检测的一词多义和词与触发器不匹配问题;
[0012](5)利用Focal loss损失函数训练模型并实现分类:为避免普通大坝日志文档中每个句子最多包含2个事件而导致的二分类正负样本不均衡问题,采用Focal loss损失函数训练模型实现对所有文档归属事件的分类。
[0013]所述大坝应急工况事件类型集合,包括地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修、日常检查等典型事件。
[0014]所述命名实体类型包括人名、部门、位置、时间、日期、测值、百分比、缺陷类型等;所述词性标注向量包括名词、动词、形容词、数量词、代词等。
[0015]进一步的,所述步骤(1)中包括如下步骤:
[0016](1.1)首先将大坝运行日志文件根据日志记录日期分成多个文档,对每个文档进行排序标号,将每个文档中的句子进行排序标号,并使用jieba以词为单位进行分词;
[0017](1.2)对分词结果进行实体类型标注与词性标注,实体类型标注通过查找随机初始化的嵌入表将实体类型标注转换成低维向量,词性标注采用Stanford CoreNLP标注每个词的词性,之后再通过查找对应嵌入表将词性标注转换成低维向量;
[0018](1.3)预定义大坝应急工况事件类型,包括地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修、日常检查等典型事件。
[0019]进一步的,所述步骤(2)中包括如下步骤:
[0020]使用ALBERT预训练模型对(1.1)中的所有分词进行编码处理,转化成计算机能够处理的向量表示。
[0021]进一步的,所述步骤(3)中包括如下步骤:
[0022](3.1)将每个词对应的嵌入向量、实体类型向量与词性标注向量进行串联,其中嵌入向量为步骤(2)得到的向量,实体类型向量是所有分词命名实体识别结果如人名、组织、位置、时间、日期、数值、百分比等对应的数学向量,词性标注向量是所有分词的词性标注结果如名词、动词、形容词、数量词、代词等对应的数学向量;
[0023](3.2)使用BiLSTM模型对单个句子中的串联向量进行处理,每个向量为一个输入,利用双向LSTM单元捕获单词上下文信息,分别输出两个隐藏状态和将该两个向量合成为输出向量
[0024]进一步的,所述步骤(4)中包括如下步骤:
[0025](4.1)在训练集中,将每个句子所包含的应急工况预定义事件通过查找随机初始化的嵌入表转化成嵌入向量t1,将每个文档利用Dov2Vec转换成嵌入向量d;
[0026](4.2)对于每个句子中的所有分词,使用局部注意力机制,计算每个分词在本句中的权重,提高触发目标事件类型的单词注意力权值并模拟触发器,计算公式如下:
[0027][0028]其中h
k
是输出向量h中第k个部分,是局部注意力向量α
s
中第k个部分,是事件类型嵌入向量的转置;所述触发器指代事件触发器,即触发某事件的词,一般为动词;
[0029](4.3)对于每个句子中的所有分词,使用全局注意力机制,计算分词所在句子在其文档中的权重,获得触发器在该场景下唯一含义,辅助判断该句子的事件类型,解决触发器因语境信息产生的歧义问题,计算公式如下:
[0030][0031]其中h
k
是输出向量h中第k个部分,是全局注意力向量α
d
中第k个部分,是事件类型嵌入向量转置,d
T
是文档级嵌入向量转置;
[0032](4.4)加权融合局部注意力与全局注意力,提高事件检测精度,计算局部注意力、全局注意力对于事件的权重向量和加权融合公式如下:
[0033]v
s
=α
s
·
t本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大坝运行日志的应急工况事件检测方法,对水利领域中的大坝运行日志进行事件检测,其特征在于,包括如下步骤:(1)日志文件预处理:首先对大坝运行日志根据记录日期进行排序与拆分,给每个文档进行标号,对每个文档中的句子进行排序、标号与分词,每个词进行实体类型标注与词性标注,之后构建大坝应急工况事件类型集合;(2)编码向量嵌入:使用ALBERT预处理模型对大坝运行日志中的所有分词进行编码,转换成词对应的嵌入向量;(3)BiLSTM特征融合:使用BiLSTM融合分词对应的嵌入向量、命名实体类型与词性标注向量,强化分词的语义信息;(4)双重注意力机制语义强化:使用句子

文档双重注意力融合语境信息;(5)利用Focal loss损失函数训练模型并实现分类:采用Focal loss损失函数训练模型实现对所有文档归属事件的分类。2.根据权利要求1所述的基于大坝运行日志的应急工况事件检测方法,其特征在于,所述步骤(1)中包括如下步骤:(1.1)首先将大坝运行日志文件根据日志记录日期分成多个文档,对每个文档进行排序标号,将每个文档中的句子进行排序标号,并使用jieba以词为单位进行分词;(1.2)对分词结果进行实体类型标注与词性标注,实体类型标注通过查找随机初始化的嵌入表将其转换成低维向量,词性标注采用Stanford CoreNLP标注每个词的词性,之后再通过查找嵌入表将其转换成低维向量;(1.3)预定义大坝应急工况事件类型,包括地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修、日常检查等典型事件。3.根据权利要求1所述的基于大坝运行日志的应急工况事件检测方法,其特征在于,所述步骤(2)中使用ALBERT预训练模型对所有分词进行编码处理,转化成计算机能够处理的向量表示。4.根据权利要求1所述的基于大坝运行日志的应急工况事件检测方法,其特征在于,所述步骤(3)中包括如下步骤:(3.1)将每个词对应的嵌入向量、实体类型向量与词性标注向量进行串联,其中嵌入向量为步骤(2)得到的向量,实体类型向量是所有分词命名实体识别结果的数学向量,词性标注向量是所有分词的词性标注结果的数学向量;(3.2)使用BiLSTM模型对单个句子中的串联向量进行处理,每个向量为一个输入,利用双向LSTM单元捕获单词上下文信息,分别输出两个隐藏状态和将该两个向量合成为输出向量5.根据权利要求1所述的基于大坝运行日志的应急工况事件检测方法,其特征在于,所述步骤(4)中包括如下步骤:(4.1)在训练集中,将每个句子所包含的应急工况预定义事件通过查找随机初始化的嵌入表转化成嵌入向量t1,将每个文档利用Dov2Vec转换成嵌入向量d;(4.2)对于每个句子中的所有分词,使用局部注意力机制,计算每个分词在本句中的权重,提高触发目标事件类型的单词注意力权值并模拟触发器,计算公式如下:
其中h
k
是输出向量h中第k个部分,是局部注意力向量α
s
中第k个部分,是事件类型嵌入向量的转置;(4.3)对于每个句子中的所有分词,使用全局注意力机制,计算分词所在句子在其文档中的权重,获得触发器在该场景下唯一含义,辅助判断该句子的事件类型,解决触发器因语境信息产生的歧义问题,计算公式如下:其中h
k
是输出向量h中第k个部分,是全...

【专利技术属性】
技术研发人员:孙卫周华迟福东毛莺池李然陈豪王龙宝程永卢俊钟鸣夏旭东李玲赵欢罗松马建平袁溯吴胜亮
申请(专利权)人:河海大学华能集团技术创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1