基于文本挖掘的生产安全事故隐患预警方法及系统技术方案

技术编号:34194074 阅读:13 留言:0更新日期:2022-07-17 16:09
本发明专利技术提供了一种基于文本挖掘的生产安全事故隐患预警方案,包括如下步骤:从安全事故隐患报告中收集数据,并进行预处理;进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率;选择预测模型,将混频数据带入混频预测模型中,预测未来安全事故隐患的发生频率。本发明专利技术采用了基于注意力机制的堆栈双向长短时记忆网络提取文本特征,从文本中挖掘到了所需的生产安全事故隐患信息;使用了条件随机场模型添加约束,保证输出的重点向量是合理的,使所获得的文本数据更加精确;采用了混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中,提高未来安全事故隐患频率预测精度。高未来安全事故隐患频率预测精度。高未来安全事故隐患频率预测精度。

Early warning method and system of hidden dangers of production safety accidents based on Text Mining

【技术实现步骤摘要】
基于文本挖掘的生产安全事故隐患预警方法及系统


[0001]本专利技术涉及生产安全事故隐患预警
,特别涉及一种基于文本挖掘的生产安全事故隐患预警方法及系统。

技术介绍

[0002]随着我国工业发展水平的不断提升,我国经济发展水平也一路高歌。但是在经济发展水平的同时,生产安全事故发生的频率也不断增加。安全事故的发生不仅会阻碍企业的经济发展,危害员工健康,还会对社会造成很大的负面影响。以往的事故分析大多以事后分析为主,并不能有效避免事故的发生,因此需要依靠生产安全事故事前预警机制,对可能发生的事故隐患进行相应的警示,以便预先作出相应的措施,从而减少安全事故的发生。目前安全事故隐患预警方法大致分为两步:第一步从企业以往生产隐患排查数据中收集数据,并进行预处理,使用R语言下的jiebaR包进行分词,并使用词频

逆文本频率(TF

IDF)方法评估字词在文件集中的频率。第二步运用灰色系统中的GM(1.1)模型预测隐患词出现的频率。现有此类方法所用的灰色预测模型具有其局限性,其预测只适合近似于指数增长的数据,而有些文本挖掘数据并不适合该模型。在预测模型中,该类方法缺少使用混频模型,而混频模型能够融合不同频数据,而且还能提高预测精度。

技术实现思路

[0003]本专利技术的目的是:针对上述
技术介绍
中存在的不足,提供一种基于机器学习技术的、利用以往安全事故隐患报告预测未来不同安全事故隐患发生频率的方案。
[0004]为了达到上述目的,本专利技术提供了一种基于文本挖掘的生产安全事故隐患预警方法,包括如下步骤:S1,从安全事故隐患报告中收集数据,数据为以往安全事故隐患报告中记录的每天,或者每月发生的安全事故隐患,安全事故隐患包括作业场所、设备及设施的不安全状态,人的不安全行为和管理上的缺陷,这些都会记录在安全事故隐患报告中;进行预处理,将文本单词转换为向量;S2,进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率;S3,选择预测模型,将混频数据代入混频预测模型中,预测未来安全事故隐患发生频率,混频数据包括日度数据和月度数据,日度数据为每天都会发生的安全事故隐患,月度数据为每月都会发生的安全事故隐患。
[0005]进一步地,S1中在输入层使用word2vec模型将文本中的每一个单词转换为一维向量。
[0006]进一步地,S2具体包括如下子步骤:S21,利用堆栈双向长短时记忆网络(Bi

LSTM

Att)提取整条文本的特征;S22,利用softmax函数进行文本的分类,输出重点安全事故隐患文本;S23,基于条件随机场(CRF)添加约束;
S24,采用词频

逆文档频率(TF

IDF)模型,通过计算文本中各个词的TF

IDF获取重点安全事故隐患的发生频率。
[0007]进一步地,S21具体包括如下子步骤:S211,将word2vec模型的输出C乘以权重Wa,作为堆栈双向长短时记忆网络的输入,计算公式为:其中,为所得输入向量,为输入数据C的权重,b为偏执参数,g为Sigmod函数;S212,将输入向量输入隐层,Bi

LSTM在正向和反向的隐层上计算,最终将两个方向的结果相加作为输出,即,其中表示前向传播隐层向量,为后向传播隐层向量,计算过程为:其中,表示第个索引对应的的权重矩阵,是时刻隐层状态输出向量对应的权重矩阵,代表隐层的两个不同方向,表示第个索引对应的偏置向量;S213,将生成的嵌入向量发送至堆栈Bi

LSTM层,然后将注意力机制应用于堆栈Bi

LSTM中的最后一层,将最后一层的所有向量进行拼接,作为整个句子的特征向量:进行拼接,作为整个句子的特征向量:进行拼接,作为整个句子的特征向量:其中,为权重系数矩阵,为第i时刻注意力机制的偏移量,为i时刻隐层状态向量的权重值,通过计算与上下文向量的相似度得到,其中指的是新隐层状态中权重系数,然后与原隐层状态向量乘积的累加得到初始隐层状态映射。
[0008]进一步地,S22具体包括如下步骤:S221,对于每一条安全事故隐患记录,模型最终都会输出一个向量,表示该记录中属于安全事故隐患的概率:其中,为记录为安全事故隐患的概率,、和为Bi

LSTM网络输出层参数;S222,利用交叉熵损失函数作为目标函数,采用反向传播机制对安全事故隐患发生概率中的参数进行训练和更新,以最小化目标函数损失值:

[0009]进一步地,S24具体包括如下子步骤:S241,计算词频,具体公式为:;S242,计算逆文档频率,具体公式为:;S243,计算TF

IDF,将TF与IDF相乘,获取词频数据中的日度安全事故隐患频率和月度安全事故隐患频率。
[0010]进一步地,S3中将所获词频数据中的日度安全事故隐患频率和月度安全事故隐患频率代入混频贝叶斯向量自相关(MF

BVAR)模型中预测未来安全事故隐患发生频率。
[0011]进一步地,S3中构建P阶滞后混频向量自回归模型:地,S3中构建P阶滞后混频向量自回归模型:其中,的维数为,的维数为,则的维数为即;然后令则可表达为:此为MF

BVAR模型状态空间表示形式的状态转移方程,然后构建MF

BVAR的量测方程:其中,t代表时间,代表的是矩阵,表示的是不可观测的潜在序列与可观测的季度变量序列之间可以通过矩阵转化,依靠量测方程预测事故词汇出现的频率趋势,从而获取未来安全事故隐患发生频率。
[0012]本专利技术还提供了一种基于文本挖掘的生产安全事故隐患预警系统,包括数据预处理模块、特征处理模块以及频率预测模块;所述数据预处理模块用于从安全事故隐患报告中收集数据,并进行预处理;所述特征处理模块进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率;所述频率预测模块选择预测模型,通过混频数据预测未来安全事故隐患发生频率。
[0013]本专利技术的上述方案有如下的有益效果:
本专利技术提供的基于文本挖掘的生产安全事故隐患预警方案,依靠以往安全事故隐患发生记录或者报告进行预测,采用了基于注意力机制的堆栈双向长短时记忆网络(Bi

LSTM

Att)提取文本特征,从文本中挖掘到了所需的生产安全事故隐患信息;使用了条件随机场(CRF)模型添加约束,保证输出的重点向量是合理的,使所获得的文本数据更加精确;采用了混频动态因子模型,和混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中,提高未来安全事故隐患发生频率预测精度;本专利技术的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
[0014]图1为本专利技术的方法步骤流程图;图2为本专利技术中word2vec模型向量转换示意图;图3为本专利技术中堆栈双向长短时记忆网络(Bi

...

【技术保护点】

【技术特征摘要】
1.一种基于文本挖掘的生产安全事故隐患预警方法,其特征在于,包括如下步骤:S1,从安全事故隐患报告中收集数据,数据为以往安全事故隐患报告中记录的每天,或者每月发生的安全事故隐患,安全事故隐患包括作业场所、设备及设施的不安全状态,人的不安全行为和管理上的缺陷;进行预处理,将文本单词转换为向量;S2,进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率;具体包括S21,利用堆栈双向长短时记忆网络提取整条文本的特征;S22,利用softmax函数进行文本的分类,输出重点安全事故隐患文本;S23,基于条件随机场添加约束;S24,采用词频

逆文档频率模型,通过计算文本中各个词的词频

逆文档频率获取重点安全事故隐患的发生频率;S3,选择预测模型,将混频数据代入混频预测模型中,预测未来安全事故隐患发生频率,混频数据包括日度数据和月度数据,日度数据为每天都会发生的安全事故隐患,月度数据为每月都会发生的安全事故隐患。2.根据权利要求1所述的基于文本挖掘的生产安全事故隐患预警方法,其特征在于,S1中在输入层使用word2vec模型将文本中的每一个单词转换为一维向量。3.根据权利要求2所述的基于文本挖掘的生产安全事故隐患预警方法,其特征在于,S21具体包括如下子步骤:S211,将word2vec模型的输出C乘以权重Wa,作为堆栈双向长短时记忆网络的输入,计算公式为:其中,为所得输入向量,为输入数据C的权重,b为偏执参数,g为Sigmod函数;S212,将输入向量输入隐层,Bi

LSTM在正向和反向的隐层上计算,最终将两个方向的结果相加作为输出,即,其中表示前向传播隐层向量,为后向传播隐层向量,计算过程为:其中,表示第个索引对应的的权重矩阵,是时刻隐层状态输出向量对应的权重矩阵,代表隐层的两个不同方向,表示第个索引对应的偏置向量;S213,将生成的嵌入向量发送至堆栈Bi

LSTM层,然后将注意力机制应用于堆栈Bi

LSTM中的最后一层,将最后一层的所有向量进行拼接,作为整个句子的特征向量:进行拼接,作为整个句子的特征向量:
其中,为权重系数矩阵,为第i时刻注意力机制的偏移量,为i时刻隐层状态向量的权重值,通过计算与上下文向量的相似度得到,其中指的是新隐层状态中权重系数,然...

【专利技术属性】
技术研发人员:姚婷刘佳斌吴伟平
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1