System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数字化工业生产事故案例库构建方法、系统、设备及介质技术方案_技高网

数字化工业生产事故案例库构建方法、系统、设备及介质技术方案

技术编号:41246464 阅读:4 留言:0更新日期:2024-05-09 23:56
本发明专利技术涉及工业生产安全技术领域,尤其涉及一种数字化工业生产事故案例库构建方法、系统、设备及介质,包括利用文本挖掘分词方法对事故报告文本库进行分词,并利用TF‑IDF算法对分词事故报告进行特征指标值提取,以生成关键词词典;采用Skip‑gram模型对关键词词典进行词向量构建,并通过基于改进高斯混合模型对词向量进行聚类,对聚类关键词词典进行同类关键词事故致因提取,构建安全事故致因体系;根据安全事故致因体系数字化事故案例文本信息,建立数字化事故案例库。本发明专利技术通过文本分词挖掘、基于改进高斯混合模型的聚类算法等技术构建了具有高数字化程度、关键信息突出等特点的事故案例库,提高了事故信息的管理和分析效率。

【技术实现步骤摘要】

本专利技术涉及工业生产安全,尤其涉及一种数字化工业生产事故案例库构建方法、系统、设备及介质


技术介绍

1、工业生产行业作为国家社会稳定的基石,不仅为社会生活和经济发展提供必要的物质和能源保障,但同时由于工作环境的高危险性,工业生产行业成为了安全问题频发高发的领域,以火电厂为例,其工作环境中的燃烧、高温高压蒸汽、转动机械、高电压强电流、高处作业等工业生产危险特点,都使得安全事故一旦发生,会导致严重后果,这不仅对国家经济造成损失,同时也对从业人员的生命安全构成威胁,因此,建立并执行严格的安全管理制度,是保障安全生产的关键。

2、尽管国家已经大力加强安全管理,但工业生产行业的事故仍时有发生,据2019年的统计数据,中国工业生产行业共发生了近580起事故,其中包括火灾、爆炸、泄漏等各类事故,事故类型多样,致因复杂,为了更深入地理解并预防工业生产行业的事故,建立一个系统化的事故案例库已成为关键,事故案例库将收录各类事故报告,并对其进行归纳描述,旨在还原事故真相,分析原因,发现规律,进而吸取经验教训,避免类似事故再次发生。

3、然而,目前的事故案例库主要采用传统的文本描述方式,存在规范性差、文本堆积、信息提取困难、缺乏数据分析能力等问题,同时,由于计算机难以处理文本类型的数据,仅依靠人力无法充分发挥事故案例库的经验总结、借鉴以及风险评估和管理的作用,虽然专利cn111242203a提供了一种水利工程事故案例库的匹配方法,通过文本属性相似度对案例进行分类和检索相似案例,但其主要是基于人为定义的事故属性,缺乏科学性,同时,其所建的事故案例库包含多种数据类型,计算复杂,因此,对于工业生产行业的事故案例库的建立与优化仍需进一步研究和探索。


技术实现思路

1、本专利技术提供了一种数字化工业生产事故案例库构建方法、系统、设备及介质,解决的技术问题是,传统事故案例库构建方法采用传统文本描述方式,存在规范性差、信息提取困难、缺乏数据分析能力等问题。

2、为解决以上技术问题,本专利技术提供了一种数字化工业生产事故案例库构建方法、系统、设备及介质。

3、第一方面,本专利技术提供了一种数字化工业生产事故案例库构建方法,所述方法包括以下步骤:

4、获取工业生产的事故案例报告,构建事故报告文本库;

5、利用文本挖掘分词方法对事故报告文本库进行分词,得到分词事故报告;

6、利用tf-idf算法对所述分词事故报告进行特征指标值提取,并根据预设筛选规则从特征指标值中筛选出若干关键词,生成关键词词典;

7、采用skip-gram模型对所述关键词词典进行词向量构建,并通过基于改进高斯混合模型对词向量进行聚类,得到聚类关键词词典;

8、对所述聚类关键词词典进行同类关键词事故致因提取,构建安全事故致因体系;

9、根据安全事故致因体系对事故案例文本信息进行数字化,建立数字化事故案例库。

10、在进一步的实施方案中,所述利用文本挖掘分词方法对事故报告文本库进行分词,得到分词事故报告的步骤包括:

11、构建所述事故报告文本库对应的有向无环图,并基于所述有向无环图,利用动态规划算法建立领域专业词典;

12、将所述领域专业词典输入到bert模型中,输出bert分词结果;

13、计算bert分词结果中各个词语之间的标准化互信息值和词频,并根据所述标准化互信息值和所述词频评估bert分词结果的词语关联度;

14、计算bert分词结果的左右信息熵,并根据所述左右信息熵评估bert分词结果的词组自由度;

15、根据所述词语关联度和所述词组自由度,从bert分词结果中筛选出满足预设的词性搭配规则约束条件和预先定义的短语结构类型的词组组合,根据所述词组组合得到分词事故报告。

16、在进一步的实施方案中,所述构建所述事故报告文本库对应的有向无环图,并基于所述有向无环图,利用动态规划算法建立领域专业词典的步骤包括:

17、以每个词语起始位置为节点、相邻节点之间所组成的词语为边,构建所述事故报告文本库对应的有向无环图;

18、计算有向无环图中每个词语的词语频率,并根据所述词语频率和词语长度,利用动态规划算法求解所述有向无环图的最优分词结果;

19、根据所述最优分词结果切分所述事故报告文本库中的文本,得到词语序列;

20、采用hmm模型对所述词语序列进行未登录词处理,建立领域专业词典。

21、在进一步的实施方案中,所述通过基于改进高斯混合模型对词向量进行聚类,得到聚类关键词词典的步骤包括:

22、初始化最大迭代次数,并确定作为初始聚类中心的词向量;

23、根据各个词向量与初始聚类中心之间的欧氏距离,将所述词向量划分到距离最近的聚类中心所在的簇中,得到若干个聚类簇,并定义每个聚类簇的模型参数;所述模型参数包括词向量维度分量均值、标准方差和簇分布权重;

24、将所述聚类簇中每个初始聚类中心的参数分别赋值给词向量维度分量均值,并计算簇内词向量数在整体词向量中的占比,将所述占比赋值给簇分布权重;

25、根据所述词向量维度分量均值计算每个聚类簇在各个词向量维度分量上的标准方差,组成方差向量;

26、根据所述方差向量和所述词向量维度分量均值计算每个聚类簇中各个词向量的基础概率,并结合所述簇分布权重得到每个词向量由高斯混合模型生成的条件概率;

27、根据所述条件概率和所述方差向量计算各个聚类簇的词向量相似度信息熵;

28、根据所述词向量相似度信息熵和所述条件概率更新各个聚类簇的模型参数,以用于下一轮迭代,对模型参数进行多轮迭代更新,直到达到预设的最大迭代次数,得到每个词向量属于每个聚类簇的最优条件概率;

29、根据所述最优条件概率确定每个词向量的聚类簇分配,得到聚类关键词词典。

30、在进一步的实施方案中,所述确定作为初始聚类中心的词向量的步骤包括:

31、设置不同的初始分簇数量,并依次遍历各个所述初始分簇数量,根据每个初始分簇数量的随机词向量损失与实际词向量损失之间的损失差值,确定最优分簇数量;

32、计算各个词向量与簇中心之间的中心距离,根据所述中心距离计算各个词向量被选为初始聚类中心的词向量概率;

33、基于词向量概率,利用轮盘赌算法选择初始聚类中心,直至初始聚类中心的数量达到所述最优分簇数量。

34、在进一步的实施方案中,所述条件概率的数学表达式为:

35、

36、式中,εij表示第i个词向量在第j个聚类簇中的条件概率;fi表示第i个词向量的簇分布权重;aij表示第i个词向量在第j个聚类簇中的基础概率;n表示词向量数量;

37、当每个词向量的维度均为c维时,所述词向量相似度信息熵的数学表达式为:

38、

39、式中,zj表示第j个聚类簇的本文档来自技高网...

【技术保护点】

1.一种数字化工业生产事故案例库构建方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述利用文本挖掘分词方法对事故报告文本库进行分词,得到分词事故报告的步骤包括:

3.如权利要求2所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述构建所述事故报告文本库对应的有向无环图,并基于所述有向无环图,利用动态规划算法建立领域专业词典的步骤包括:

4.如权利要求1所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述通过基于改进高斯混合模型对词向量进行聚类,得到聚类关键词词典的步骤包括:

5.如权利要求4所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述确定作为初始聚类中心的词向量的步骤包括:

6.如权利要求4所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述条件概率的数学表达式为:

7.如权利要求4所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述模型参数的更新公式为:

8.一种数字化工业生产事故案例库构建系统,其特征在于,所述系统包括:

9.一种计算机设备,其特征在于:包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种数字化工业生产事故案例库构建方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述利用文本挖掘分词方法对事故报告文本库进行分词,得到分词事故报告的步骤包括:

3.如权利要求2所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述构建所述事故报告文本库对应的有向无环图,并基于所述有向无环图,利用动态规划算法建立领域专业词典的步骤包括:

4.如权利要求1所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述通过基于改进高斯混合模型对词向量进行聚类,得到聚类关键词词典的步骤包括:

5.如权利要求4所述的一种数字化工业生产事故案例库构建方法,其特征在于,所述确定作为初始聚类中心的词向量的步...

【专利技术属性】
技术研发人员:郭为民朱峰李冰雷丽君赵伟梁正玉李童张广涛沙谦刘建海秦超
申请(专利权)人:润电能源科学技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1