基于文本挖掘的生产安全事故隐患预警方法及系统技术方案

技术编号：34194074 阅读：13 留言：0更新日期：2022-07-17 16:09

本发明专利技术提供了一种基于文本挖掘的生产安全事故隐患预警方案，包括如下步骤：从安全事故隐患报告中收集数据，并进行预处理；进行特征提取，筛选出重点安全事故隐患，记录重点安全事故隐患发生频率；选择预测模型，将混频数据带入混频预测模型中，预测未来安全事故隐患的发生频率。本发明专利技术采用了基于注意力机制的堆栈双向长短时记忆网络提取文本特征，从文本中挖掘到了所需的生产安全事故隐患信息；使用了条件随机场模型添加约束，保证输出的重点向量是合理的，使所获得的文本数据更加精确；采用了混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中，提高未来安全事故隐患频率预测精度。高未来安全事故隐患频率预测精度。高未来安全事故隐患频率预测精度。

Early warning method and system of hidden dangers of production safety accidents based on Text Mining

全部详细技术资料下载

【技术实现步骤摘要】
基于文本挖掘的生产安全事故隐患预警方法及系统

[0001]本专利技术涉及生产安全事故隐患预警
，特别涉及一种基于文本挖掘的生产安全事故隐患预警方法及系统。

技术介绍

[0002]随着我国工业发展水平的不断提升，我国经济发展水平也一路高歌。但是在经济发展水平的同时，生产安全事故发生的频率也不断增加。安全事故的发生不仅会阻碍企业的经济发展，危害员工健康，还会对社会造成很大的负面影响。以往的事故分析大多以事后分析为主，并不能有效避免事故的发生，因此需要依靠生产安全事故事前预警机制，对可能发生的事故隐患进行相应的警示，以便预先作出相应的措施，从而减少安全事故的发生。目前安全事故隐患预警方法大致分为两步：第一步从企业以往生产隐患排查数据中收集数据，并进行预处理，使用R语言下的jiebaR包进行分词，并使用词频
‑
逆文本频率(TF
‑
IDF)方法评估字词在文件集中的频率。第二步运用灰色系统中的GM(1.1)模型预测隐患词出现的频率。现有此类方法所用的灰色预测模型具有其局限性，其预测只适合近似于指数增长的数据，而有些文本挖掘数据并不适合该模型。在预测模型中，该类方法缺少使用混频模型，而混频模型能够融合不同频数据，而且还能提高预测精度。

技术实现思路

[0003]本专利技术的目的是：针对上述
技术介绍
中存在的不足，提供一种基于机器学习技术的、利用以往安全事故隐患报告预测未来不同安全事故隐患发生频率的方案。
[0004]为了达到上述目的，本专利技术提供了一种基于文本挖掘的

【技术保护点】

【技术特征摘要】
1.一种基于文本挖掘的生产安全事故隐患预警方法，其特征在于，包括如下步骤：S1，从安全事故隐患报告中收集数据，数据为以往安全事故隐患报告中记录的每天，或者每月发生的安全事故隐患，安全事故隐患包括作业场所、设备及设施的不安全状态，人的不安全行为和管理上的缺陷；进行预处理，将文本单词转换为向量；S2，进行特征提取，筛选出重点安全事故隐患，记录重点安全事故隐患发生频率；具体包括S21，利用堆栈双向长短时记忆网络提取整条文本的特征；S22，利用softmax函数进行文本的分类，输出重点安全事故隐患文本；S23，基于条件随机场添加约束；S24，采用词频
‑
逆文档频率模型，通过计算文本中各个词的词频
‑
逆文档频率获取重点安全事故隐患的发生频率；S3，选择预测模型，将混频数据代入混频预测模型中，预测未来安全事故隐患发生频率，混频数据包括日度数据和月度数据，日度数据为每天都会发生的安全事故隐患，月度数据为每月都会发生的安全事故隐患。2.根据权利要求1所述的基于文本挖掘的生产安全事故隐患预警方法，其特征在于，S1中在输入层使用word2vec模型将文本中的每一个单词转换为一维向量。3.根据权利要求2所述的基于文本挖掘的生产安全事故隐患预警方法，其特征在于，S21具体包括如下子步骤：S211，将word2vec模型的输出C乘以权重Wa，作为堆栈双向长短时记忆网络的输入，计算公式为：其中，为所得输入向量，为输入数据C的权重，b为偏执参数，g为Sigmod函数；S212，将输入向量输入隐层，Bi
‑
LSTM在正向和反向的隐层上计算，最终将两个方向的结果相加作为输出，即，其中表示前向传播隐层向量，为后向传播隐层向量，计算过程为：其中，表示第个索引对应的的权重矩阵，是时刻隐层状态输出向量对应的权重矩阵，代表隐层的两个不同方向，表示第个索引对应的偏置向量；S213，将生成的嵌入向量发送至堆栈Bi
‑
LSTM层，然后将注意力机制应用于堆栈Bi
‑
LSTM中的最后一层，将最后一层的所有向量进行拼接，作为整个句子的特征向量：进行拼接，作为整个句子的特征向量：
其中，为权重系数矩阵，为第i时刻注意力机制的偏移量，为i时刻隐层状态向量的权重值，通过计算与上下文向量的相似度得到，其中指的是新隐层状态中权重系数，然...

【专利技术属性】
技术研发人员：姚婷，刘佳斌，吴伟平，
申请(专利权)人：湖南工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人