一种基于地震内容热点的舆情分析方法及其系统技术方案

技术编号：28146391 阅读：13 留言：0更新日期：2021-04-21 19:31

本发明专利技术提出了一种基于地震内容热点的舆情分析方法及其系统，通过TextCNN分类下游接入DeepLIFT，获取到每篇文章的高置信度的关键词，也避免了通过LR模型获取到的关键词不变的缺点；通过本实施例的地震舆情框架，可以输出可解释的层次化的地震舆情文章，并且对文章进行了基准的归档和关键词提取，避免负面舆情新闻的扩展传播，提供了有效的关键词布控。提供了有效的关键词布控。提供了有效的关键词布控。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于地震内容热点的舆情分析方法及其系统

[0001]本专利技术涉及地震安全社会舆论领域，尤其涉及一种基于地震内容热点的舆情分析方法及其系统。

技术介绍

[0002]地震事件属于社会安全范畴，具有小概率、突发性、不确定性、潜在灾害风险大等特点，因此容易激发短时间内广泛的高度社会关注。因此，对于地震突发事件，做好网络舆情的监控、评估、预警以及有效引导，在地震事件应急处置过程中掌握主动至关重要。
[0003]由于爬取到的文章，基本上是长文本的文章。采用直接长文截断+短文本分类的方式，会有一定的误差。传统用TF
‑
IDF+LR的方式进行长文本分类，但该方式只是单纯的对词进行建模，没有涉及到词与词上下文的关系。同时LR在模型解释性方面，其特征权重只是对高置信的词突出出来，并且高置信的词不会随着文本的改变而改变，这背离了通过模型可解释性来挖掘文本关键词的初心。因此，为了解决上述问题，本专利技术提供了一种基于地震内容热点的舆情分析方法及其系统，利用自然语言解析加强上下文语义识别，发现潜在的弱相关关键词，挖掘并获取分类模块未识别出的新关键词或不易被识别的关键词，并采用模型可解释性的方式抽取关键词，提高计算速度和效率。

技术实现思路

[0004]有鉴于此，本专利技术提出了一种基于地震内容热点的舆情分析方法及其系统，利用自然语言解析加强上下文语义识别，发现潜在的弱相关关键词，挖掘并获取分类模块未识别出的新关键词或不易被识别的关键词，并采用模型可解释性的方式抽取关键词，提高计算速度和效率。r/>[0005]本专利技术的技术方案是这样实现的：一方面，本专利技术提供了一种基于地震内容热点的舆情分析方法，包括以下步骤：
[0006]S1、通过预训练的聚类模型，训练出文本对应的词向量和词权重，通过词向量和词权重获取文档的向量，并通过聚类算法建立聚类中心库；
[0007]S2、分类模块为每个分类模型进行阈值划分，对大于分类阈值的文章，归档到聚类中心库中对应的类簇，并通过基于DeepLIFT模型解释器的模型可解释性方法挖掘文本关键词，通过关键词确定文章锚点，通过textCNN文本分类方式进行地震舆情的精确归档；对未被分类模型命中的文章，流入到聚类模块；
[0008]S3、聚类模块采用聚类算法对未被分类模块分类的文档进行分类划分，并更新聚类中心库；
[0009]S4、监控报警模块针对聚类模块采用textBank的方式抽取响应的关键词，针对分类模块采用基于DeepLIFT模型解释器的模型可解释方式抽取关键词，并统计关键词出现次数，对超过频次的关键词进行声量监控预警。
[0010]在以上技术方案的基础上，优选的，S1具体包括以下步骤：
[0011]S101、对历史地震文章进行文本预处理，收集网页关键词，组成地震词表；
[0012]S102、对历史地震文章进行文本分词，进行word2vec词向量学习；
[0013]S103、对历史地震文章进行词频统计，抽取响应分词的IDF作为IDF词权重；
[0014]S104、结合词向量和词权重，通过TF
‑
IDF和word2vec加权平均的方式，表示成词向量；
[0015]S105、采用手肘法和K
‑
means聚类，寻找到最优的初始聚类，建立聚类中心库。
[0016]在以上技术方案的基础上，优选的，S3中具体包括以下步骤：通过cosine相似度计算，获取聚类中心中与当前流入文章距离最近的一个类簇中心，若两者的cosine的相似度大于阈值x，便会将该新流入的文章归并到这个类簇中，更新该类簇的中心向量；若两者的cosine相似度小于阈值x，该新流入的文章单独作为一类，并将其文章向量作为类簇的中心向量，更新到聚类中心库中。
[0017]另一方面，本专利技术提供一种基于地震内容热点的舆情分析系统，其包括知识中心、分类模块、聚类模块和监控报警模块，分类模块包括文本预处理模块、阈值划分模块、分类模型、模型解释器、文章锚点确定模块和第一归档模块；
[0018]知识中心通过预训练的聚类模型，训练出文本对应的词向量和词权重，通过词向量和词权重获取文档的向量，并通过聚类算法建立聚类中心库；
[0019]文本预处理模块对输入的历史地震文章进行清洗；
[0020]阈值划分模块为分类模型划分阈值，对于大于分类阈值的文章，归档到相应的分类模型中；对于未被分类模型命中的文章，流入到聚类模块；
[0021]分类模型用于存储符合其分类要求的文章；
[0022]模型解释器采用模型可解释方法挖掘文本关键词，并将关键词输入至文章锚点确定模块；
[0023]文章锚点确定模块通过关键词确定文章锚点；
[0024]第一归档模块通过textCNN文本分类方式来对舆情精确归档；
[0025]聚类模块对未被分类模型命中的文章进行分类划分，并更新聚类中心库；
[0026]监控报警模块抽取分类模块和聚类模块中的关键词，并统计关键词出现次数，对超过频次的关键词进行声量监控预警。
[0027]文本预处理模块的输入端输入从网络站点获取的历史地震文章，文本预处理模块的输出端与阈值划分模块的输入端连接，知识中心输出文本向量至阈值划分模块的输入端，阈值划分模块的输出端与分类模型的输入端以及聚类模块的输入端连接，分类模型的输出端通过依次串联的模型解释器、文章锚点确定模块与第一归档模块的输入端连接，第一归档模块的输出端与监控报警模块连接；
[0028]聚类模块的输出端分别与知识中心以及监控报警模块连接。
[0029]在以上技术方案的基础上，优选的，知识中心包括词向量学习模块、词权重计算模块、词向量生成模块和聚类中心库；
[0030]词向量学习模块对历史地震文章进行文本分词，进行word2vec词向量学习；
[0031]词权重计算模块对历史地震文章进行词频统计，抽取响应分词的IDF作为IDF词权重；
[0032]词向量生成模块结合词向量和词权重，通过TF
‑
IDF和word2vec加权平均的方式，
表示成词向量；
[0033]聚类中心库采用手肘法和K
‑
means聚类，寻找到最优的初始聚类，建立聚类中心库；
[0034]词向量学习模块的输入端和词权重计算模块的输入端输入从网络站点获取的历史地震文章，词向量学习模块的输出端和词权重计算模块的输出端分别与词向量生成模块的输入端连接，词向量生成模块的输出端分别与聚类中心库以及阈值划分模块的输入端连接。
[0035]在以上技术方案的基础上，优选的，聚类模块包括相似度计算模块、未知类簇、已知类簇和第二归档模块；
[0036]相似度计算模块的输入端分别与阈值划分模块的输出端以及聚类中心库连接，相似度计算模块的输出端分别与未知类簇以及已知类簇连接，未知类簇与聚类中心库连接，已知类簇与第二归档模块的输入端连接，第二归档模块的输出端与监控报警模块本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于地震内容热点的舆情分析方法，其特征在于：包括以下步骤：S1、通过预训练的聚类模型，训练出文本对应的词向量和词权重，通过词向量和词权重获取文档的向量，并通过聚类算法建立聚类中心库；S2、分类模块为每个分类模型进行阈值划分，对大于分类阈值的文章，归档到聚类中心库中对应的类簇，并通过基于DeepLIFT模型解释器的模型可解释性方法挖掘文本关键词，通过关键词确定文章锚点，通过textCNN文本分类方式进行地震舆情的精确归档；对未被分类模型命中的文章，流入到聚类模块；S3、聚类模块采用聚类算法对未被分类模块分类的文档进行分类划分，并更新聚类中心库；S4、监控报警模块针对聚类模块采用textBank的方式抽取响应的关键词，针对分类模块采用基于DeepLIFT模型解释器的模型可解释方式抽取关键词，并统计关键词出现次数，对超过频次的关键词进行声量监控预警。2.如权利要求1所述的一种基于地震内容热点的舆情分析方法，其特征在于：所述S1具体包括以下步骤：S101、对历史地震文章进行文本预处理，收集网页关键词，组成地震词表；S102、对历史地震文章进行文本分词，进行word2vec词向量学习；S103、对历史地震文章进行词频统计，抽取响应分词的IDF作为IDF词权重；S104、结合词向量和词权重，通过TF
‑
IDF和word2vec加权平均的方式，表示成词向量；S105、采用手肘法和K
‑
means聚类，寻找到最优的初始聚类，建立聚类中心库。3.如权利要求1所述的一种基于地震内容热点的舆情分析方法，其特征在于：所述S3中具体包括以下步骤：通过cosine相似度计算，获取聚类中心中与当前流入文章距离最近的一个类簇中心，若两者的cosine的相似度大于阈值x，便会将该新流入的文章归并到这个类簇中，更新该类簇的中心向量；若两者的cosine相似度小于阈值x，该新流入的文章单独作为一类，并将其文章向量作为类簇的中心向量，更新到聚类中心库中。4.一种基于地震内容热点的舆情分析系统，其包括知识中心、分类模块、聚类模块和监控报警模块，其特征在于：所述分类模块包括文本预处理模块、阈值划分模块、分类模型、模型解释器、文章锚点确定模块和第一归档模块；所述知识中心通过预训练的聚类模型，训练出文本对应的词向量和词权重，通过词向量和词权重获取文档的向量，并通过聚类算法建立聚类中心库；所述文本预处理模块对输入的历史地震文章进行清洗；所述阈值划分模块为分类模型划分不同的阈值，对于大于分类阈值的文章，归档到相应的分类模型中；对于未被分类模型命中的文章，流入到聚类模块；所述分类模型用于存储符合其分类要求的文章；所述模型解释器采用模型可解释方法挖掘文本关键词，并将关键词输入至文章锚点确...

【专利技术属性】
技术研发人员：刘小利，贾治革，陈晓琳，李力，刘珠妹，夏涛，
申请(专利权)人：湖北省地震局中国地震局地震研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人