基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法技术

技术编号:32359709 阅读:27 留言:0更新日期:2022-02-20 03:25
本发明专利技术涉及基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法,它包括以下步骤:步骤1:文本搜集,文本搜集来源于国家能源局电力安全监管司编写的《全国电力事故和电力安全事件汇编》(2014

【技术实现步骤摘要】
基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法


[0001]本专利技术涉及安全管理
,具体涉及一种基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法。

技术介绍

[0002]随着我国电网发展和电网复杂程度越来越高,以及我国经济发展带来的电力需求逐渐增长,电力生产安全问题日益重要。电力人身伤亡事故即在电力行业的生产、工程建设、营销及产业领域过程中造成人身伤亡的事件,其往往包括触电、高处坠落、物体打击、坍垮塌压埋等事故类型,严重威胁多方人员的生命安全,影响电力企业和国家经济发展,急需找出事故原因,预防事故发生;因此,提供一种筛选与提取电力人身伤亡事故关键隐患因素、为电力企业的事故预防工作提供参考的基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法是非常有必要的。

技术实现思路

[0003]本专利技术的目的是为了克服现有技术的不足,而提供一种筛选与提取电力人身伤亡事故关键隐患因素、为电力企业的事故预防工作提供参考的基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法。
[0004]本专利技术的目的是这样实现的:基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法,它包括以下步骤:
[0005]步骤1:文本搜集,文本搜集来源于国家能源局电力安全监管司编写的《全国电力事故和电力安全事件汇编》(2014

2018年);
[0006]步骤2:文本存储,存储每篇事故报告中的包括事故简述和事故原因;
[0007]步骤3:文本预处理,由于电力人身伤亡事故报告中的大量文本数据具有冗余性、不完整性及复杂性特点,因此首先需要对其内容进行预处理操作,以提升文本挖掘的效果;
[0008]步骤4:文本挖掘,通过词云分析技术对文本数据中出现频率较高的“关键词”进行突出显示,将这些“关键词”形成像云一样的彩色图片,从而使得浏览者能够一眼领略或了解文本所传达的主旨;
[0009]步骤5:实验结果分析及对比,运用词数统计和TF

IDF相结合的词频统计方法,首先对隐患因素相关词语设定词数统计阈值α=5,从中筛选出隐患因素相关重要词语;之后,分别计算得到各隐患因素相关重要词语的三个特征值:各隐患因素相关重要词语数(C
ijk
)、各隐患因素相关重要词语的综合累计频数(Q
ijk
)和各隐患因素相关重要词语的综合平均最高TF

IDF值最后,基于实验结果的总体分布情况设定阈值如下:对于某个具体隐患因素AP
ij
(i=1,2,

,4;j=1,2,

,13)来说,若C
ijk
≥10,Q
ijk
≥200且则认为该隐患因素为电力人身伤亡事故关键隐患因素;
[0010]步骤6:构建电力人身伤亡事故关键隐患因素体系,最终构建的电力人身伤亡事故
关键隐患因素体系涉及人、物、管理三个方面。
[0011]步骤3中,文本预处理方法包括停用词过滤、中文分词、自定义词典;
[0012]停用词过滤:原始事故报告文本中存在着大量的标点符号如“,”“、
”“……”
和对于实验目的来说无意义的字词如“着”、“的”、“十分”、“有限公司”、“供电所”,将这些标点符号、无效字词去除,因此首先定义停用词表过滤文本内容;
[0013]中文分词:在电力人身伤亡事故报告中,隐藏在完整语句中的某些特定词语代表了所要挖掘和提取的电力人身伤亡事故关键隐患因素的具体内涵,如“砌筑小工头李晓X自我保护意识淡薄,安全意识差”中的“自我保护意识”和“安全意识”都直接反映了该起事故的发生与人员隐患中的工作技能水平/知识水平/能力素质这一具体的隐患因素有关;因此,需要通过中文分词手段对文本内容进行分词操作,分离出各隐患因素的相关词语,为其后续的特征计算及约简做准备;
[0014]自定义词典:中文语句是由有意义的实词和辅助构成句子语法的虚词组成的,字词之间不存在空格间隔,因此其往往需要借助词典或算法完成分词操作;本申请采用基于Python语言的结巴(Jieba)分词工具对电力人身伤亡事故报告文本完成分词,为了确保各隐患因素相关词语分词结果的准确性和完整性,避免出现类似
“……
自我/保护/意识/淡薄,安全/意识/差”的专有名词被分割现象,导入自定义词典,实现“自我保护意识”、“安全意识”等与各隐患因素相关的词语的固定搭配组合,以确保后续实验的进行。
[0015]步骤4中的词云分析主要运用文本挖掘和可视化技术,对于电力人身伤亡事故报告中的事故原因文本,基于其中直接反映隐患因素内涵的词语的词数统计结果绘制词云图,再基于词数统计结果筛选其中的相关重要词语,引入TF

IDF方法,统计每篇事故原因文本中获得最高TF

IDF值的相关重要词语及其TF

IDF值,分类归并后可以得到各隐患因素的相关重要词语在电力人身伤亡事故报告中的综合平均最高TF

IDF值,由此反映各隐患因素对于一起电力人身伤亡事故的重要性和影响力。
[0016]TF

IDF方法是基于相对词频统计思想的一种重要模型,是一种用于信息检索与数据挖掘的常用加权方法,其中,TF是词频(Term Frequency),指的是某一个给定的词语在该文本中出现的频率,是对词数的归一化,以防止它偏向长的文本;IDF是逆向文本频率(Inverse Document Frequency),是一个词语普遍重要性的度量。
[0017]步骤5中对于某个具体隐患因素AP
ij
(i=1,2,3;j=1,2,

,5)来说,C
ijk
越大,Q
ijk
越大,说明该隐患因素在普遍电力人身伤亡事故中出现的次数越多,若越大,说明该隐患因素对于一起电力人身伤亡事故造成的影响更大。
[0018]本专利技术的有益效果:基于实际安全管理问题与需求,旨在筛选与提取电力人身伤亡事故关键隐患因素,为电力企业的事故预防工作提供参考。首先,基于现有研究成果归纳事故原因及影响因素,结合隐患的定义,识别电力人身伤亡事故隐患因素;之后,基于词数统计、词云分析及TF

IDF方法对事故报告文本进行挖掘和分析,构建包含人、物、管理三个方面的电力人身伤亡事故关键隐患因素体系,对于电力企业的隐患排查治理和事故预防工作具有重要意义;本专利技术具有一种筛选与提取电力人身伤亡事故关键隐患因素、为电力企业的事故预防工作提供参考的优点。
附图说明
[0019]图1是本专利技术电力人身伤亡事故报告的文本挖掘实验流程图。
[0020]图2是本专利技术电力人身伤亡事故隐患因素相关重要词语的词云分析流程图。
[0021]图3是2014

2018年电力人身伤亡事故隐患因素相关重要词语的词云统计图。
具体实施方式
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法,其特征在于:它包括以下步骤:步骤1:文本搜集,文本搜集来源于国家能源局电力安全监管司编写的《全国电力事故和电力安全事件汇编》(2014

2018年);步骤2:文本存储,存储每篇事故报告中的包括事故简述和事故原因;步骤3:文本预处理,由于电力人身伤亡事故报告中的大量文本数据具有冗余性、不完整性及复杂性特点,因此首先需要对其内容进行预处理操作,以提升文本挖掘的效果;步骤4:文本挖掘,通过词云分析技术对文本数据中出现频率较高的“关键词”进行突出显示,将这些“关键词”形成像云一样的彩色图片,从而使得浏览者能够一眼领略或了解文本所传达的主旨;步骤5:实验结果分析及对比,运用词数统计和TF

IDF相结合的词频统计方法,首先对隐患因素相关词语设定词数统计阈值α=5,从中筛选出隐患因素相关重要词语;之后,分别计算得到各隐患因素相关重要词语的三个特征值:各隐患因素相关重要词语数(C
ijk
)、各隐患因素相关重要词语的综合累计频数(Q
ijk
)和各隐患因素相关重要词语的综合平均最高TF

IDF值最后,基于实验结果的总体分布情况设定阈值如下:对于某个具体隐患因素AP
ij
(i=1,2,

,4;j=1,2,

,13)来说,若C
ijk
≥10,Q
ijk
≥200且则认为该隐患因素为电力人身伤亡事故关键隐患因素;步骤6:构建电力人身伤亡事故关键隐患因素体系,最终构建的电力人身伤亡事故关键隐患因素体系涉及人、物、管理三个方面。2.如权利要求1所述的基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法,其特征在于:所述步骤3中,文本预处理方法包括停用词过滤、中文分词、自定义词典;停用词过滤:原始事故报告文本中存在着大量的标点符号如“,”“、
”“……”
和对于实验目的来说无意义的字词如“着”、“的”、“十分”、“有限公司”、“供电所”,将这些标点符号、无效字词去除,因此首先定义停用词表过滤文本内容;中文分词:在电力人身伤亡事故报告中,隐藏在完整语句中的某些特定词语代表了所要挖掘和提取的电力人身伤亡事故关键隐患因素的具体内涵,如“砌筑小工头李晓X自我保护意识淡薄,安全意识差”中的“自我保护意识”和“安全意识”都直接反映了该起事故的发生与人员隐患中的工作技能水平/知...

【专利技术属性】
技术研发人员:卢丹张建立许长清张琳娟郭祥富邱超韩军伟周志恒陈婧华
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1