一种基于主题算法与网络理论的空气污染舆情分析方法技术

技术编号：38762304 阅读：8 留言：0更新日期：2023-09-10 10:35

本发明专利技术属于空气污染网络舆情的分析技术领域，涉及一种基于主题算法与网络理论的空气污染舆情分析方法。本发明专利技术方法对空气污染舆情数据进行挖掘，得到热点主题，利用关键词共现网络抽象主题和关键词之间的关系，通过对网络的度分布、聚类系数、节点介数、网络鲁棒性的计算，得到主题和关键词之间的联系，以及重点主题的分布情况，为舆情治理有关决策提供科学依据。据。据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题算法与网络理论的空气污染舆情分析方法

[0001]本专利技术属于空气污染网络舆情的分析
，涉及一种基于主题算法与网络理论的空气污染舆情分析方法。

技术介绍

基于社交媒体数据的网络空气污染舆情分析可以为和有关决策部门理解公众对于环境污染治理的有关诉求，构建多位一体的环境治理体系和制度体制提供科学依据，提高生态环境治理体系和治理能力现代化水平，具有重要的应用意义。
[0004]相关的学术文献1(Kay,S.,Zhao,B.,Sui,D.,2015.Can Social Media Clear the Air？A Case Study of the Air Pollution Problem in Chinese Cities.The Professional Geographer 67(3),351
‑
363.)，该研究搜集了2012年10月到2013年6月这个时间段内微博上空气污染话题的代表案例，结合了其他来源的舆情数据，利用案例分析的方法分析得到公民在微博上的意见可以促进环境保护，并且等有关部门可以从微博了解环境污染有关社交媒体舆情的发展。但是该方法依赖较多的人工数据采集和定性分析，且只能实现相关话题和事件的事后归因和分析，无法做到空气污染舆情的实时监控与反馈。
[0005]学术文献2(Zheng,S.,Wang,J.,Sun,C.,Zhang,X.,Kahn,M.E.,2019.Air pollution lowers Chinese urbanites

【技术保护点】

【技术特征摘要】
1.一种基于主题算法与网络理论的空气污染舆情分析方法，其特征在于，步骤如下：步骤000：基于采集的社交媒体舆情数据，获取到每日公众关注空气污染的详细文本内容，将数据存储于数据库中；步骤100：基于词频
‑
逆文档频率算法TF
‑
IDF计算关键词权重，提取社交媒体舆情文本中的重要关键词，TF
‑
IDF的计算公式如下：其中，TF表示关键词在文本中出现的概率，m表示某个关键词t在单篇文档中出现的次数，M代表文档中所有词出现的次数；IDF体现了特定词语的重要程度，N表示文档的中个数，n
t
代表包含特定关键词t的文档的个数；步骤200：将经过TF
‑
IDF算法的处理的文本作为潜在狄利克雷分布主题模型LDA的输入，形成TF
‑
IDF
‑
LDA模型，输出最后的主题；步骤300：基于主题的结果，构建主题关键词共现网络；步骤400：分析所构建的共现网络的拓扑指标特征，汇总结果；具体地，步骤100包括如下步骤：步骤110：将原始文本切分为关键词；步骤120：基于TF
‑
IDF算法计算关键词权重；步骤130：输出关键词的权重；具体地，步骤200包括如下步骤：步骤210：选择合适的主题数，以及合适的超参数向量；步骤220：对应语料库中每一篇文档的每一个词，随机的赋予一个主题编号；步骤230：重新扫描语料库，对于每...

【专利技术属性】
技术研发人员：杨光飞，董选赫，关晓微，
申请(专利权)人：大连凌空数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人