System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种事故报告文本智能分类TF-IDF-GloVe-LDA方法技术_技高网
当前位置: 首页 > 专利查询>三峡大学专利>正文

一种事故报告文本智能分类TF-IDF-GloVe-LDA方法技术

技术编号:40467865 阅读:7 留言:0更新日期:2024-02-22 23:22
本发明专利技术提供了一种事故报告文本智能分类TF‑IDF‑GloVe‑LDA方法,包括如下步骤:S1、采集电力人身伤亡事故报告,构建数据集;S2、对数据集进行预处理操作,包括数据清洗、分词以及去停止词;S3、构建TF‑IDF‑GloVe‑LDA文本特征提取模型;S4、将提取的词向量矩阵,输入到SVM中进行训练,实现事故报告文本的分类。该方法通过模型设计,充分利用文本与主题之间的关系及上下文信息,提高了文本特征的提取能力,可适用于事故报告文本的智能分类。

【技术实现步骤摘要】

本专利技术涉及机器学习、文本分类和安全管理领域,特别涉及一种事故报告文本智能分类tf-idf-glove-lda方法。


技术介绍

1、事故报告中记载了大量信息,这些信息对事故原因的辨识至关重要。然而,事故报告通常以非结构化文本的形式记录,从大量事故报告中手动挖掘重要信息效率低且成本高。近年来,文本分类技术开始应用于事故报告的分类任务,通过将事故报告文档分类后,分析事故的共有特征和共有原因,为事故原因的辨识工作提供了有效方法,可以帮助安全管理人员快速识别事故发生的潜在风险因素进而采取预防措施。

2、词频-逆文本频率(term frequency-inverse document frequency,tf-idf)是应用最为广泛的文本特征提取方法,但存在向量维度过高、数据稀疏以及忽略字词间的语义关系等问题。google发布的word2vec词向量训练工具,基于词语的上下文分布信息将词语转化为低纬度的实数向量,相似的词被映射到向量空间中相近的位置,能够解决“稀疏性”问题。但word2vec只考虑到了词的局部信息(上下文信息),没有考虑词与局部窗口外词的关联(全局信息),依然存在“语义丢失”的问题。

3、隐含狄利克雷分布(latent dirichlet allocation,lda)是一种概率生成模型,相比传统的潜在语义分析(latent semanticanalysis,lsa)、概率潜在语义分析(probabilistic latent semantic analysis,plsa),lda主题模型能够在概率信息的基础上对文本进行建模,挖掘文本中潜在的语义结构,有效避免了随着文本数量增加而产生的过拟合问题,但在特征提取时忽略了上下文的语义信息。全局词向量(global vectors forword representation,glove)模型是一种基于词共现矩阵理论的词向量模型。该模型突破了word2vec模型在词汇类比方面表现不佳的缺点,将上下文窗口信息和整体词汇共现的统计信息相结合训练词向量,取得较好的效果。


技术实现思路

1、本专利技术所要解决的技术问题是提供一种事故报告文本智能分类tf-idf-glove-lda方法,通过模型设计,充分利用文本与主题之间的关系及上下文信息,提高了对文本特征的提取能力,可适用于事故报告文本的智能分类。

2、为解决上述技术问题,本专利技术所采用的技术方案是:一种事故报告文本智能分类tf-idf-glove-lda方法,包括如下步骤:

3、s1、采集电力人身伤亡事故报告,构建数据集;

4、s2、对数据集进行预处理操作,包括数据清洗、分词以及去停止词;

5、s3、构建tf-idf-glove-lda文本特征提取模型;

6、s4、将提取的词向量矩阵,输入到svm中进行训练,实现事故报告文本的分类。

7、优选的方案中,所述s1中,包括如下步骤:

8、s1.1、采集若干年份的电力人身伤亡事故报告;

9、s1.2、将采集的电力人身伤亡事故文本分为accident、process、cause、problem和response五类;

10、s1.3、分别为五类文本打标签,其中,accident记录的是事故简述;process中记录的是事故经过;cause记录的是事故原因;problem记录的是事故暴露的问题;response记录的是事故发生后的防范和整改措施,以此完成数据集构建;

11、s1.4、将标记好的数据集,按照比例划分训练集和测试集。

12、优选的方案中,所述s2中,包括如下步骤:

13、s2.1、数据清洗:包括删除无关信息,去除重复或冗余数据;

14、s2.2、分词:添加电力人身伤亡事故领域的成熟词库,并在提取特征词的基础上,构建与电力行业安全生产数据相匹配的专业词库,词库内容包含了多项电力人身伤亡事故的专用词汇;

15、s2.3、去停止词:构建电力人身伤亡事故专用停用词表,将对文本特征的贡献小的词语及标点符号予以去除,对本文特征项进行降维。

16、优选的方案中,所述s3中,将glove训练的词向量经过tf-idf加权后和lda模型进行向量拼接,进而构建全局向量矩阵,tf-idf-glove-lda文本特征提取模型包括特征表达和特征联合两部分。

17、优选的方案中,所述特征表达部分,分别用tf-idf、glove和lda训练预处理好的数据集,提取文本特征词的统计信息、上下文信息和主题信息,采用glove算法训练语料库中的词向量,构建基于glove全局文本的词向量矩阵vij,利用tf-idf对词向量矩阵vij进行加权,获取加权的文本词向量

18、

19、式中:vij为基于glove全局文本的词向量矩阵;ωij为对应词语的权重;m为词向量矩阵的行数;n为词向量矩阵的列数。

20、优选的方案中,所述特征联合部分,将每个词语的词向量vij矩阵与lda模型的主题-词分布矩阵相匹配,用最大主题的前r个词向量作为该词向量矩阵vij的扩展,得到

21、

22、式中:为vij基于lda的扩展模型,(c1,c2,…,cr)为词向量矩阵vij的r个扩展;

23、将glove经过tf-idf加权的词向量矩阵与经过lda训练的最大主题概率扩展的词向量矩阵进行拼接,获取包含文档、主题和上下文信息的全局词向量矩阵

24、

25、本专利技术提供的一种事故报告文本智能分类tf-idf-glove-lda方法,具有以下有益效果:

26、1、s1中,采集电力人身伤亡事故报告,并创造性的将事故报告文本划分为accident、process、cause、problem和response五类用于模型训练。

27、2、s2中,对数据集进行预处理,能够根据文本中的特征项进行准确的文本分类。

28、3、s3中,构建的tf-idf-glove-lda文本特征提取模型优点如下:

29、a)特征表达部分,融合了tf-idf和glove算法,将glove训练的全局词向量矩阵vij经tf-idf进行加权,获取文本词向量矩阵充分融合了文本的统计信息和上下文信息,较好的反映了词语对语料库的重要程度。

30、b)特征联合部分,将每个词语w的词向量vij与lda模型的主题-词分布矩阵相匹配,得到词向量矩阵并于进行拼接,获取是在的基础上进一步融合了文本的主题信息。实现文本主题分布、语义知识和句法关系的充分整合,为有效解决传统基于词向量的文本特征提取方法存在的维度过高、稀疏性以及语义丢失问题,提供了理论参考,也为其在文本分类任务中的应用提供了技术支撑。

本文档来自技高网...

【技术保护点】

1.一种事故报告文本智能分类TF-IDF-GloVe-LDA方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种事故报告文本智能分类TF-IDF-GloVe-LDA方法,其特征在于,所述S1中,包括如下步骤:

3.根据权利要求1所述的一种事故报告文本智能分类TF-IDF-GloVe-LDA方法,其特征在于,所述S2中,包括如下步骤:

4.根据权利要求1所述的一种事故报告文本智能分类TF-IDF-GloVe-LDA方法,其特征在于,所述S3中,将GloVe训练的词向量经过TF-IDF加权后和LDA模型进行向量拼接,进而构建全局向量矩阵,TF-IDF-GloVe-LDA文本特征提取模型包括特征表达和特征联合两部分。

5.根据权利要求4所述的一种事故报告文本智能分类TF-IDF-GloVe-LDA方法,其特征在于,所述特征表达部分,分别用TF-IDF、GloVe和LDA训练预处理好的数据集,提取文本特征词的统计信息、上下文信息和主题信息,采用GloVe算法训练语料库中的词向量,构建基于GloVe全局文本的词向量矩阵Vij,利用TF-IDF对词向量矩阵Vij进行加权,获取加权的文本词向量矩阵

6.根据权利要求4所述的一种事故报告文本智能分类TF-IDF-GloVe-LDA方法,其特征在于,所述特征联合部分,将每个词语的词向量Vij与LDA模型的主题-词分布矩阵相匹配,用最大主题的前r个词向量作为该词向量矩阵Vij的扩展,得到

...

【技术特征摘要】

1.一种事故报告文本智能分类tf-idf-glove-lda方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种事故报告文本智能分类tf-idf-glove-lda方法,其特征在于,所述s1中,包括如下步骤:

3.根据权利要求1所述的一种事故报告文本智能分类tf-idf-glove-lda方法,其特征在于,所述s2中,包括如下步骤:

4.根据权利要求1所述的一种事故报告文本智能分类tf-idf-glove-lda方法,其特征在于,所述s3中,将glove训练的词向量经过tf-idf加权后和lda模型进行向量拼接,进而构建全局向量矩阵,tf-idf-glove-lda文本特征提取模型包括特征表达和特征联...

【专利技术属性】
技术研发人员:陈述曹坤煜张鑫凯李智孙孟文张光飞卢冰王典学
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1