一种智能互联网舆情预警与处置方法及系统技术方案

技术编号:32804934 阅读:52 留言:0更新日期:2022-03-26 19:57
一种智能互联网舆情预警与处置方法及系统,所述方法包括:步骤1,构建分词词典与情感词典;步骤2,获取互联网舆情数据;步骤3,将步骤2获取到的互联网舆情数据的文本基于分词词典进行分词处理,获取分词词语,将分词词语作为情绪分类算法的输入数据;步骤4,通过情绪分类算法对步骤3的输入数据在情感词典中进行建模,获取综合情感指数评价;步骤5,基于获取的综合情感指数评价,进行情感指数排名,基于情感指数排名,对对应互联网舆情数据产生舆情预警,并进行处置。本发明专利技术基于文本情感分析,提供一种互联网舆情分析方法,旨在解决网络舆情的监控,控制负面新闻的进一步发酵,从而对舆情进行更加精准控制。进行更加精准控制。进行更加精准控制。

【技术实现步骤摘要】
一种智能互联网舆情预警与处置方法及系统


[0001]本专利技术涉及舆情处理领域,具体涉及一种智能互联网舆情预警与处置方法及系统。

技术介绍

[0002]随着移动互联网、物联网等新技术得迅速发展,人类进入了数据时代,数据带来得信息风暴正在无时无刻得改变着我们得生活、工作以及思维方式,同时对互联网舆情管理也带来深刻影响。网络舆情具备传播速度快、传播范围广和突发性强的特点。全媒体时代,人人都有话语权,广大网民借助网络表达自己的意见和态度,当网民意见聚合时,网络舆论呈现爆炸式的增长。进行网络舆情监测,可以及时控制舆论进一步发酵,控制舆情。

技术实现思路

[0003]鉴于现有技术中存在的技术缺陷和技术弊端,本专利技术实施例提供克服上述问题或者至少部分地解决上述问题的一种智能互联网舆情预警与处置方法及系统,旨在解决网络舆情的监控,控制负面新闻的进一步发酵,从而对舆情进行更加精准控制,具体方案如下:
[0004]一种智能互联网舆情预警与处置方法,所述方法包括:
[0005]步骤1,构建分词词典与情感词典;
[0006]步骤2,获取互联网舆情数据;
[0007]步骤3,将步骤2获取到的互联网舆情数据的文本基于分词词典进行分词处理,获取分词词语,将分词词语作为情绪分类算法的输入数据;
[0008]步骤4,通过情绪分类算法对步骤3的输入数据在情感词典中进行建模,获取综合情感指数评价;
[0009]步骤5,基于获取的综合情感指数评价,进行情感指数排名,基于情感指数排名,对对应互联网舆情数据产生舆情预警,并进行处置。
[0010]进一步地,步骤1中,所述分词词典采用互联网开源的IK Analyzer分词器构建;所述情感词典为利用已有电子词典扩展生成,具体为:利用PMI 互信息计算与左右熵来发现所需要的新词,将其添加到已有的情感词典,以对已有电子词典进行扩展。
[0011]进一步地,利用PMI互信息计算与左右熵来发现所需要的新词,将其添加到已有的情感词典具体为:
[0012]基于开源的情感词典情感种子词,计算分好词的语料中各个词语与情感种子词的互信息度与左右熵,再将互信息度与左右熵结合起来,选择出与情感种子词关联度最高的TopN个词语,将其添加到对应的情感词典。
[0013]进一步地,步骤2中,获取互联网舆情数据具体为:
[0014]注册公众开放平台API调用及开发者账号;
[0015]申请消息接口,成为开发者,获取access_token;
[0016]调用message_api_start接口进行获取互联网舆情数据,并保存在存储设备中。
[0017]进一步地,步骤3中,采用逆向最大匹配法(RMM)对互联网舆情数据的文本进行分词处理。
[0018]进一步地,采用逆向最大匹配法(RMM)对互联网舆情数据的文本进行分词处理具体为:
[0019]先设置一个k值,然后从互联网舆情数据文本的最后一个字开始向前截取k个字,先把这k个字和步骤1产生的分词字典进行匹配,确定能否找到匹配的词语,若不能,则剔除这k个字最左边的字,然后再把这k

1个字与分词字典匹配,依次类推,一直到匹配成功,或者前k

1个字都没匹配成功,则将第k个字当成一个独立的词,然后再向前移动分出来的词的长度,再截取k个字,依次类推,一直到全部文本分好词为止。
[0020]进一步地,通过情绪分类算法对步骤3的输入数据进行建模,获取综合情感指数评价具体为:
[0021]通过情绪分类算发逐个遍历分词后的语句中的词语,如果词语命中情感词典,则基于词语的性质进行相应权重的处理,获取综合情感指数评价,具体为:对正面性质的词语的权重做加法处理,负面性质的词语的权重做减法处理,否定性质的词语的重取相反数处理,程度副词性质的词语的权重则和对应修饰的词语权重做相乘处理。
[0022]作为本专利技术的第二方面,提供一种智能互联网舆情预警与处置系统,所述系统包括词典构建模块、舆情获取模块、分词模块、综合评价模块以及预警模块。
[0023]所述词典构建模块用于构建分词词典与情感词典;
[0024]所述舆情获取模块用于获取互联网舆情数据;
[0025]所述分词模块用于将获取到的互联网舆情数据的文本基于分词词典进行分词处理,获取分词词语,将分词词语作为情绪分类算法的输入数据;
[0026]所述综合评价模块用于通过情绪分类算法对输入数据在情感词典中进行建模,获取综合情感指数评价;
[0027]所述预警模块用于基于获取的综合情感指数评价,进行情感指数排名,基于情感指数排名,对对应互联网舆情数据产生舆情预警,并进行处置。
[0028]进一步地,所述分词词典采用互联网开源的IK Analyzer分词器构建;所述情感词典为利用已有电子词典扩展生成,具体为:利用PMI互信息计算与左右熵来发现所需要的新词,将其添加到已有的情感词典,以对已有电子词典进行扩展。
[0029]进一步地,采用逆向最大匹配法(RMM)对互联网舆情数据的文本进行分词处理。
[0030]本专利技术具有以下有益效果:
[0031]本专利技术基于文本情感分析,提供一种互联网舆情分析方法,旨在解决网络舆情的监控,控制负面新闻的进一步发酵,从而对舆情进行更加精准控制。
附图说明
[0032]图1为本专利技术实施例提供的一种智能互联网舆情预警与处置方法流程示意图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分,而不是全部的实施例。基于本专利技术
中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0034]如图1所示,为本专利技术实施例提供的一种智能互联网舆情预警与处置方法,所述方法包括:
[0035]步骤1,构建分词词典与情感词典;
[0036]构建分词词典:采用开源IK Analyzer分词器,分词器存储结构如下表:
[0037][0038][0039]构建情感词典:情感词典的构建主要是通过将目前开源的情感词典整合起来,筛去重复和无用的单词,目前网上开源的情感词典包含有:知网 (HowNet)情感词典、台湾大学(NTSUSD)简体中文情感极性词典、大连理工大学情感词汇本体,由于上述情感词典年代都已经比较久远,所以我们可以采取一定方法对其扩展。这里我们采用的方法是将词典的同义词添加到词典里,构建互联网舆情领域的情感词典需要利用PMI互信息计算与左右熵来发现所需要的新词。
[0040]简单的说,如果一个词和积极的词语一起出现的频率高,那么这个词是积极倾向的可能性也会大,反之亦然。所以,只要计算一个词和积极词出现的频率和消极词出现的频率之差,并设定某个阈值,就可以粗略的得知这个词的情感倾向了;
[0041]体方法我们可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能互联网舆情预警与处置方法,其特征在于,所述方法包括:步骤1,构建分词词典与情感词典;步骤2,获取互联网舆情数据;步骤3,将步骤2获取到的互联网舆情数据的文本基于分词词典进行分词处理,获取分词词语,将分词词语作为情绪分类算法的输入数据;步骤4,通过情绪分类算法对步骤3的输入数据在情感词典中进行建模,获取综合情感指数评价;步骤5,基于获取的综合情感指数评价,进行情感指数排名,基于情感指数排名,对对应互联网舆情数据产生舆情预警,并进行处置。2.根据权利要求1所述的智能互联网舆情预警与处置方法,其特征在于,步骤1中,所述分词词典采用互联网开源的IKAnalyzer分词器构建;所述情感词典为利用已有电子词典扩展生成,具体为:利用PMI互信息计算与左右熵来发现所需要的新词,将其添加到已有的情感词典,以对已有电子词典进行扩展。3.根据权利要求2所述的智能互联网舆情预警与处置方法,其特征在于,利用PMI互信息计算与左右熵来发现所需要的新词,将其添加到已有的情感词典具体为:基于开源的情感词典情感种子词,计算分好词的语料中各个词语与情感种子词的互信息度与左右熵,再将互信息度与左右熵结合起来,选择出与情感种子词关联度最高的TopN个词语,将其添加到对应的情感词典。4.根据权利要求1所述的智能互联网舆情预警与处置方法,其特征在于,步骤2中,获取互联网舆情数据具体为:注册公众开放平台API调用及开发者账号;申请消息接口,成为开发者,获取access_token;调用message_api_start接口进行获取互联网舆情数据,并保存在存储设备中。5.根据权利要求1所述的智能互联网舆情预警与处置方法,其特征在于,步骤3中,采用逆向最大匹配法对互联网舆情数据的文本进行分词处理。6.根据权利要求5所述的智能互联网舆情预警与处置方法,其特征在于,采用逆向最大匹配法对互联网舆情数据的文本进行分词处理具体为:先设置一个k值,然后从互联网舆情数据文本的最后一个字开始向前截取k个字,先把这k个字和步骤1产生的分词字典进行匹配,...

【专利技术属性】
技术研发人员:李达
申请(专利权)人:武汉众智数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1