一种基于主题算法与网络理论的空气污染舆情分析方法技术

技术编号:38762304 阅读:8 留言:0更新日期:2023-09-10 10:35
本发明专利技术属于空气污染网络舆情的分析技术领域,涉及一种基于主题算法与网络理论的空气污染舆情分析方法。本发明专利技术方法对空气污染舆情数据进行挖掘,得到热点主题,利用关键词共现网络抽象主题和关键词之间的关系,通过对网络的度分布、聚类系数、节点介数、网络鲁棒性的计算,得到主题和关键词之间的联系,以及重点主题的分布情况,为舆情治理有关决策提供科学依据。据。据。

【技术实现步骤摘要】
一种基于主题算法与网络理论的空气污染舆情分析方法


[0001]本专利技术属于空气污染网络舆情的分析
,涉及一种基于主题算法与网络理论的空气污染舆情分析方法。

技术介绍

基于社交媒体数据的网络空气污染舆情分析可以为和有关决策部门理解公众对于环境污染治理的有关诉求,构建多位一体的环境治理体系和制度体制提供科学依据,提高生态环境治理体系和治理能力现代化水平,具有重要的应用意义。
[0004]相关的学术文献1(Kay,S.,Zhao,B.,Sui,D.,2015.Can Social Media Clear the Air?A Case Study of the Air Pollution Problem in Chinese Cities.The Professional Geographer 67(3),351

363.),该研究搜集了2012年10月到2013年6月这个时间段内微博上空气污染话题的代表案例,结合了其他来源的舆情数据,利用案例分析的方法分析得到公民在微博上的意见可以促进环境保护,并且等有关部门可以从微博了解环境污染有关社交媒体舆情的发展。但是该方法依赖较多的人工数据采集和定性分析,且只能实现相关话题和事件的事后归因和分析,无法做到空气污染舆情的实时监控与反馈。
[0005]学术文献2(Zheng,S.,Wang,J.,Sun,C.,Zhang,X.,Kahn,M.E.,2019.Air pollution lowers Chinese urbanites

expressed happiness on social media.Nature Human Behaviour 3(3),237

243.),该研究基于2014年144个中国城市的每日污染物浓度数据与社交媒体舆情数据,利用基线线性回归、工具变量回归、异质性分析方法分析得到了污染物浓度的变化对于公众幸福感的影响。基于该方法,可以利用社交媒体的舆情数据得到公众对于生活质量的实时反馈,具有一定的现实意义。该方法的局限性是对于舆情数据的利用角度较为有限,仅分析了舆情数据中包含的情感倾向,忽略了对于具体的舆情内容的分析和利用。并且该方案对于数据的要求较高,需要假定数据符合特定的分布才能利用该研究中的方法,限制了该方法在社交媒体数据在空气污染舆情分析中的应用范围。
[0006]相关的现有专利1(CN202210539480.3,一种基于Bert的网络舆情分析方法)公开了一种基于Bert的网络舆情分析方法,该专利技术主要是针对传统方法复杂度高的问题,提出了的可提升分析效率的方法,该专利技术的Bert为只有编码器的Transformer,将输入的文本序列映射到查询、键、值三个空间,得到查询向量、键向量和值向量,然后对每一个查询向量,使用Softmax指数归一化函数作用在查询向量与键向量的内积上得到编码向量,再将编码向量输入训练好的分类器,从而得到网络舆情的情感分析倾向。
[0007]现有专利2(CN201910853147.8,基于BS架构的环保舆情系统)公开了一种基于BS架构的环保舆情系统。该系统包括舆情地图子模块、舆情管理子模块,所述舆情地图子模块用于对不同区域的环保舆情数据进行统计及筛选;所述舆情管理子模块用于为环保舆情系统用户提供全文模糊检索与精确检索功能,从舆情地图子模块中的舆情信息中搜索出输入关键信息的相关环保舆情。该专利技术实现对环保舆情信息的数字化管理,为环保监管人员开展数字化、信息化办公提供了技术性平台。
[0008]上述两项相关的现有专利技术存在以下问题:专利1对于网络舆情数据的分析仅局限于情感分析,忽略了对舆情具体文本内容和主题方面的分析,具有较强的局限性和片面性;专利2虽然实现了环保舆情数据的管理和内容的存储,但是缺乏对舆情数据的细粒度分析,无法基于相关数据得到空气污染舆情的关注重点和重点治理方向,实际应用价值相对有限。
[0009]现有的技术存在以下的不足:
[0010]1.目前的针对空气污染网络舆情的分析的粒度还比较粗,缺乏针对舆情主题和内容的具体分析,无法满足精细化环境管理与治理决策的要求。
[0011]2.采用的模型(如深度学习模型)复杂度较高,需要大量的算力支持,如专用GPU等,模型训练成本较高。
[0012]3.模型需要提前假定形式,数据需要满足模型的基本假设才能使用模型,现有模型适用性还有待提高。
[0013]4.现有模型忽略了空气污染舆情不同主题间、不同关键词之间的内在关联,且缺乏主题之间、关键词之间关联的定量分析,导致舆情治理的效果无法被准确评估。

技术实现思路

[0014]本专利技术要解决的问题是克服现有技术中的不足,提供一种新的利用社交媒体数据来进行空气污染舆情分析的框架与分析方法,利用主题算法结合复杂网络建模方法,实现了对于空气污染舆情数据的细粒度与定量分析,提高了舆情分析的科学性与可靠性。
[0015]本专利技术的技术方案:
[0016]一种基于主题算法与网络理论的空气污染舆情分析方法,步骤如下:
[0017]步骤000:基于采集的社交媒体舆情数据,获取到每日公众关注空气污染的详细文本内容,将数据存储于数据库中;
[0018]步骤100:基于词频

逆文档频率算法(TF

IDF)计算关键词权重,提取社交媒体舆情文本中的重要关键词,TF

IDF的计算公式如下:
[0019][0020]其中,TF表示关键词在文本中出现的概率,m表示某个关键词t在单篇文档中出现的次数,M代表文档中所有词出现的次数;IDF体现了特定词语的重要程度,N表示文档的中个数,n
t
代表包含特定关键词t的文档的个数。
[0021]步骤200:将经过TF

IDF算法的处理的文本作为潜在狄利克雷分布主题模型(LDA)的输入,形成TF

IDF

LDA模型,输出最后的主题。
[0022]步骤300:基于主题的结果,构建主题关键词共现网络。
[0023]步骤400:分析所构建的共现网络的拓扑指标特征,汇总结果。
[0024]优选地,步骤100包括如下步骤:
[0025]步骤110:将原始文本切分为关键词。
[0026]步骤120:基于TF

IDF算法计算关键词权重。
[0027]步骤130:输出关键词的权重。
[0028]优选地,步骤200包括如下步骤:
[0029]步骤210:选择合适的主题数,以及合适的超参数向量。
[0030]步骤220:对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号。
[0031]步骤230:重新扫描语料库,对于每一个词,利用Gibbs采样公式更新他的主题编号。
[0032]步骤240:重复Gibbs采样,直到Gibbs采样收敛。...

【技术保护点】

【技术特征摘要】
1.一种基于主题算法与网络理论的空气污染舆情分析方法,其特征在于,步骤如下:步骤000:基于采集的社交媒体舆情数据,获取到每日公众关注空气污染的详细文本内容,将数据存储于数据库中;步骤100:基于词频

逆文档频率算法TF

IDF计算关键词权重,提取社交媒体舆情文本中的重要关键词,TF

IDF的计算公式如下:其中,TF表示关键词在文本中出现的概率,m表示某个关键词t在单篇文档中出现的次数,M代表文档中所有词出现的次数;IDF体现了特定词语的重要程度,N表示文档的中个数,n
t
代表包含特定关键词t的文档的个数;步骤200:将经过TF

IDF算法的处理的文本作为潜在狄利克雷分布主题模型LDA的输入,形成TF

IDF

LDA模型,输出最后的主题;步骤300:基于主题的结果,构建主题关键词共现网络;步骤400:分析所构建的共现网络的拓扑指标特征,汇总结果;具体地,步骤100包括如下步骤:步骤110:将原始文本切分为关键词;步骤120:基于TF

IDF算法计算关键词权重;步骤130:输出关键词的权重;具体地,步骤200包括如下步骤:步骤210:选择合适的主题数,以及合适的超参数向量;步骤220:对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号;步骤230:重新扫描语料库,对于每...

【专利技术属性】
技术研发人员:杨光飞董选赫关晓微
申请(专利权)人:大连凌空数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1