一种基于分布式多任务的社会负面舆情实时分析方法技术

技术编号:28623438 阅读:23 留言:0更新日期:2021-05-28 16:19
一种基于分布式多任务的社会负面舆情实时分析方法,属于人工智能技术领域,包括如下步骤,S1:信息采集,实时采集互联网上的原始数据,并进行存储;S2:数据处理,对存储后的原始数据进行处理,获得修整数据;S3:实时数据分析;对修整数据进行统计以及NLP情感分析算法实时分析,及时获得负面舆情;S4:实时报警;其中,所述信息采集和所述数据处理均采用分布式多任务进行;本发明专利技术通过采用分布式系统多任务方式,进行海量的网络舆情信息采集;其次数据进行分析处理,并结合NLP情感分析技术等,实时监控热点及舆情,最终实时发现社会负面舆情信息,进而实时报警反馈,得到快速响应和及时处理,尽早控制负面舆情消息蔓延。

【技术实现步骤摘要】
一种基于分布式多任务的社会负面舆情实时分析方法
本专利技术属于人工智能
,特别涉及一种基于分布式多任务的社会负面舆情实时分析方法及方法。
技术介绍
互联网的日益发达,社会信息发展的非常迅速,很多网络舆情负面消息也日益彰显。互联网时代每天会有大量的负面舆情通过网络而自由传播,这些内容包括图文、视频、音频等,内容情感方面有正面、有负面甚至有涉恐、涉暴、涉黄、涉毒等不良信息。对于舆情监测如何快速抓取、分析、危害社会治安或者可能造成不良影响的舆论,成为稳定社会舆情的难题。
技术实现思路
(1)要解决的技术问题本专利技术的实施例提供一种基于分布式多任务的社会负面舆情实时分析方法,通过设置若干个预警警亭、物联网模块以及云端服务器,解决了如何快速发现有利和不利的文章和舆论,以便迅速应对不利于社会发展的突发事件的问题。(2)技术方案本专利技术的实施例提出了一种基于分布式多任务的社会负面舆情实时分析方法,包括如下步骤,S1:信息采集,实时采集互联网上的原始数据,并进行存储;S2:数据处理,对存储后的原始数据进行处理,获得修整数据;S3:实时数据分析;对修整数据进行统计以及NLP情感分析算法实时分析,及时获得负面舆情;S4:实时报警;其中,所述信息采集和所述数据处理均采用分布式多任务进行。进一步地,S1中所述信息采集具体步骤如下:I:通过各大网站以及APP进行信息数据采集;其中,在采集过程中采用多分布多线程和多任务执行,从多个队列中并行读取数据,读写同时进行;II:存放到Hadoop分布式存储集群中。进一步地,S2中所述数据处理具体步骤如下:①:简单清洗;对原始数据中存在的乱码、多余空格、多余空行等进行祛噪点;②:条件筛选:根据数据渠道以及数据类型对数据进行筛选;③:复杂清洗:祛除数据中广告性质的文字。进一步地,S3中所述实时数据分析的具体步骤如下:SS1:对舆情信息数据进行统计;SS2:NLP情感分析算法对舆情信息数据进行处理分析;SS3:汇总每日、周、月、区域等相关舆情信息传播情况,包括整体趋势、媒体监测情况、周热点、舆论重点等方面;SS4:分析总结监测结果,形成报告提供给用户使用。进一步地,所述NLP情感分析算法包括:输入门:Rt=σ(DtWdr+Yt-1Wyr+cr);遗忘门:St=σ(DtWds+Yt-1Wys+cs);输出门:Ut=σ(DtWdu+Yt-1Wyu+cu);候选记忆细胞:记忆细胞:隐藏状态:Yt=Ut⊙tanh(Et);其中,Wdr、Wds、Wdu、和Wyr、Wys、Wyu、cr、cs、cu、Wdr、Wds、Wdu、Wde、Wyr、Wys、Wyu、Wye均是权重参数,cr、cs、cu、ce均是偏差参数,σ、tanh分别为sigmoid函数、双曲正切函数,符号⊙表示按元素乘法来完成计算,分别表示p×q、q×q、1×q、n×q矩阵接矩阵元素为实数,n、p为输入值Dt的行列数,q为任意正整数。(3)有益效果综上所述,本专利技术通过采用分布式系统多任务方式,进行海量的网络舆情信息采集;其次数据进行分析处理,并结合NLP情感分析技术等,实时监控热点及舆情,重点舆情信息分析报告,监测负面信息发展趋势及舆论走向,分析传播路径和核心传播用户,通过数据分析汇总产生舆情报告;最终实时发现社会负面舆情信息,进而实时报警反馈,得到快速响应和及时处理,尽早控制负面舆情消息蔓延。把握舆情态势,快速了解网络上的各种声音,对负面舆情实时告警,为社会或企业解决舆情监测的问题,助力快速顺利地处置突发负面舆情信息。附图说明图1是本专利技术整体框架示意图;图2是本专利技术中数据采集模块示意图;图3是本专利技术中数据处理模块示意图;图4是本专利技术中数据分析模块示意图;图5是本专利技术中负面舆情类型示意图。图中:100-信息采集;101-数据处理;102-实时数据分析;103-实时报警。具体实施方式下面结合附图和实施例对本专利技术的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本专利技术的原理,但不能用来限制本专利技术的范围,即本专利技术不限于所描述的实施例,在不脱离本专利技术的精神的前提下覆盖了零件、部件和连接方式的任何修改、替换和改进。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参照附图并结合实施例来详细说明本申请。实施例1:如图1-5所示的一种基于分布式多任务的社会负面舆情实时分析方法,包括如下步骤,S1:信息采集100,实时采集互联网上的原始数据,并进行存储;S2:数据处理101,对存储后的原始数据进行处理,获得修整数据;S3:实时数据分析102;对修整数据进行统计以及NLP情感分析算法实时分析,及时获得负面舆情;S4:实时报警103;其中,所述信息采集100和所述数据处理101均采用分布式多任务进行;本专利技术通过采用分布式系统多任务方式,进行海量的网络舆情信息采集;其次数据进行分析处理,并结合NLP情感分析技术等,实时监控热点及舆情,重点舆情信息分析报告,监测负面信息发展趋势及舆论走向,分析传播路径和核心传播用户,通过数据分析汇总产生舆情报告;最终实时发现社会负面舆情信息,进而实时报警反馈,得到快速响应和及时处理,尽早控制负面舆情消息蔓延。把握舆情态势,快速了解网络上的各种声音,对负面舆情实时告警,为社会或企业解决舆情监测的问题,助力快速顺利地处置突发负面舆情信息。值得注意的是,所述分布式多任务的具体过程是:底层采用hadoop构建出一个由几十台服务器组成的大集群,并实现其分布式存储与分布式计算,hadoop采用的是移动计算的方式,通过将计算脚本复制到集群中的每一台机器上,让其读取本地数据来提高计算的效率。实现对海量数据的存储与计算,通过将多台服务器共同组成一个大的集群的方式,将多台服务器的硬盘空间组成一个共同的文件系统,这个文件系统分布在多台服务器上,并且可以任意一台服务器都可以访问这个文件系统,同时对海量数据计算时,也可以充分利用多台服务器的硬件设备,起到一个并行计算的作用,加快对海量数据的处理速度。进一步地,S1中所述信息采集100的具体步骤如下:I:通过各大网站以及APP端进行信息数据采集;其中,在采集过程中采用多分布多线程和多任务执行,从多个队列中并行读取数据,读写同时进行;其中,APP端包括客户端、微信、头条、抖音等;II:存放到Hadoop分布式存储集群中。进一步地,S2中所述数据处理101的具体步骤如下:①:简单清洗;对原始数据中存在的乱码、多余空格、多余空行等进行祛噪点;②:条件筛选:根据数据渠道以及数据类型对数据进行筛选;③:复杂清洗:祛除数据中广告性质的文字。进一步地本文档来自技高网...

【技术保护点】
1.一种基于分布式多任务的社会负面舆情实时分析方法,其特征在于:包括如下步骤,/nS1:信息采集,实时采集互联网上的原始数据,并进行存储;/nS2:数据处理,对存储后的原始数据进行处理,获得修整数据;/nS3:实时数据分析;对修整数据进行统计以及NLP情感分析算法实时分析,及时获得负面舆情;/nS4:实时报警;/n其中,所述信息采集和所述数据处理均采用分布式多任务进行。/n

【技术特征摘要】
1.一种基于分布式多任务的社会负面舆情实时分析方法,其特征在于:包括如下步骤,
S1:信息采集,实时采集互联网上的原始数据,并进行存储;
S2:数据处理,对存储后的原始数据进行处理,获得修整数据;
S3:实时数据分析;对修整数据进行统计以及NLP情感分析算法实时分析,及时获得负面舆情;
S4:实时报警;
其中,所述信息采集和所述数据处理均采用分布式多任务进行。


2.根据权利要求1所述的一种基于分布式多任务的社会负面舆情实时分析方法,其特征在于:S1中所述信息采集具体步骤如下:
I:通过各大网站以及APP进行信息数据采集;其中,在采集过程中采用多分布多线程和多任务执行,从多个队列中并行读取数据,读写同时进行;
II:存放到Hadoop分布式存储集群中。


3.根据权利要求2所述的一种基于分布式多任务的社会负面舆情实时分析方法,其特征在于:S2中所述数据处理具体步骤如下:
①:简单清洗;对原始数据中存在的乱码、多余空格、多余空行等进行祛噪点;
②:条件筛选:根据数据渠道以及数据类型对数据进行筛选;
③:复杂清洗:祛除数据中广告性质的文字。


4.根据权利要求3所述的一种基于分布式多任务的社会负面舆情实时分析...

【专利技术属性】
技术研发人员:孟宪坤边树森任珠
申请(专利权)人:浙江华坤道威数据科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1