一种基于大数据的舆情分析系统技术方案

技术编号:23149930 阅读:15 留言:0更新日期:2020-01-18 13:47
本发明专利技术提出了一种基于大数据的舆情分析系统,通过设置舆情分析模块包括话题追踪模块,话题追踪模块可以追踪话题的种类、最新动态、舆情相关作者的动态,最新动态包括舆情主体的评论和热度变化等,舆情相关作者的动态包括舆情作者的发帖和交互关系等,重点统计舆情作者的发帖量、舆论倾向和舆论态度变化,可以全面追踪舆情信息中话题的种类、最新动态以及舆情态度变化,为后期的舆情决策模块提供分析基础;通过设置舆情决策模块包括时间线分析模块、同类事件提取模块、舆情发展预测模块,可以将舆情事件按照时间线排布,并提出同类事件进行分析,根据以往的舆情事件的发展状态预测既有的舆情事件发展方向和结果。

A public opinion analysis system based on big data

【技术实现步骤摘要】
一种基于大数据的舆情分析系统
本专利技术涉及大数据分析领域,尤其涉及一种基于大数据的舆情分析系统。
技术介绍
随着网民的不断增长,越来越多的人把互联网作为获取信息的首选渠道。互联网舆情监控已经成为必不可少的手段。传统的舆情监控方法一般采用流量镜像方法、基于搜索引擎监控方法、文本内聚和文本分析方法。其中,流量镜像方法能够比较全面的收集网络信息,信息追溯也很容易实现,但是成本高、缺乏针对性,监控范围不全;基于搜索引擎监控方法一般基于网络信息的不同采集模型将带有敏感信息的关键词收集到数据库中分析整理,可以降低成本,但是对信息的全面收集和处理性能大大降低;文本内聚和文本分析方法将大规模的信息整理成不同的类别,同一类别的文本信息相似度高,但是只能对已知的信息进行处理和分析,不能根据热点的不同而进行更新和变化。上述的几种传统的舆情监控方法都均在各种的优缺点,为了综合上述四种传统的舆情监控方法的优点,本专利技术提供一种基于大数据的舆情分析系统,可以全面采集舆情信息,并且可以根据舆情信息综合分析得出舆情决策。
技术实现思路
有鉴于此,本专利技术提出了一种基于大数据的舆情分析系统,可以全面采集舆情信息,并且可以根据舆情信息综合分析得出舆情决策。本专利技术的技术方案是这样实现的:本专利技术提供了一种基于大数据的舆情分析系统,其包括舆情采集模块、舆情信息预处理模块、舆情监测模块、舆情分析模块和舆情决策模块,舆情分析模块包括话题追踪模块、舆情分类模块、热点话题识别模块和时间更新模块;舆情采集模块实时采集网络上的舆情信息,以及该舆情信息相关的评论量、转发量、观点统计和事件焦点,并将采集的舆情信息发送给舆情信息预处理模块;舆情信息预处理模块对舆情采集模块采集的舆情信息进行除噪音干扰,得到纯净的文本信息,并将文本信息发送给舆情监测模块;舆情监测模块对舆情信息预处理模块发送的文本信息进行分词处理和语义分析处理,并对爆发式舆情进行预警,将预警信息发送给舆情决策模块;话题追踪模块追踪话题的种类、最新动态、舆情相关作者的动态;热点话题识别模块根据舆情监测模块得出的语义分析结果,分析舆情的事件属性,并形成事件记录,并从事件记录中识别舆情信息中的热点话题;舆情分类模块根据事件包含的新闻性、网络性和可行性划分多个子类目;时间更新模块记录话题的开始和结束时间,并结合热点话题识别模块判断当前话题是否是热点话题,更新热点话题的时间,根据时间判断热点话题是否失效;舆情决策模块根据舆情分析模块分析的结果和对舆情发展的预测生成决策方案。在以上技术方案的基础上,优选的,事件记录包括:事件时间、事件性质、事件当事人及参与人和事件的时间线。进一步优选的,多个子类目包括突发公共事件、关系处理、社会焦点和涉外舆情。进一步优选的,舆情信息预处理模块包括去噪模块和分词模块;去噪模块去掉舆情采集模块发送的舆情信息中的广告、版权信息、友情链接和相关推荐,得到纯净的文本信息;分词模块通过中文分词算法对纯净的文本信息进行分词处理,获取语义信息,并将语义信息发送给舆情监测模块。进一步优选的,舆情监测模块包括语义分析模块和舆情预警模块;语义分析模块接收分词模块发送的语义信息,并采用词频统计法、词频权重法对文本信息中出现词语出现的频次、位置及词性进行分析,确定文本信息的关键词;舆情预警模块判断舆情信息的相关指标是否超过舆情信息预设的预警阈值,当舆情信息超过阈值时,将预警信息发送给舆情决策模块。进一步优选的,舆情决策模块包括时间线分析模块、同类事件提取模块、舆情发展预测模块;时间线分析模块根据舆情发布时间生成事件时间轴,并配以事件参与人的面貌聚类分析和观点聚类分析,根据面貌聚类分析和观点聚类分析的分析结果生成事件传播过程图;同类事件提取模块提取历史事件中具有相同内容特征、舆情发展趋势特征的事件;舆情发展预测模块根据历史事件信息、既有的舆情发展模型及事件自身的时间线,采用机器学习为主、人工监督为辅的方法,预测不同类型的决策引发的舆情发展趋势。本专利技术的一种基于大数据的舆情分析系统相对于现有技术具有以下有益效果:(1)通过设置舆情分析模块包括话题追踪模块,话题追踪模块可以追踪话题的种类、最新动态、舆情相关作者的动态,最新动态包括舆情主体的评论和热度变化等,舆情相关作者的动态包括舆情作者的发帖和交互关系等,重点统计舆情作者的发帖量、舆论倾向和舆论态度变化,可以全面追踪舆情信息中话题的种类、最新动态以及舆情态度变化,为后期的舆情决策模块提供分析基础;(2)通过设置舆情决策模块包括时间线分析模块、同类事件提取模块、舆情发展预测模块,可以将舆情事件按照时间线排布,并提出同类事件进行分析,根据以往的舆情事件的发展状态预测既有的舆情事件发展方向和结果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种基于大数据的舆情分析系统的结构图;图2为本专利技术一种基于大数据的舆情分析系统中舆情采集模块的流程图。具体实施方式下面将结合本专利技术实施方式,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。如图1所示,本专利技术的一种基于大数据的舆情分析系统,其包括舆情采集模块、舆情信息预处理模块、舆情监测模块、舆情分析模块和舆情决策模块。舆情采集模块,利用爬虫采集社交媒体数据,实时采集网络上的舆情信息,以及该舆情信息相关的评论量、转发量、观点统计和事件焦点,并将采集的舆情信息发送给舆情信息预处理模块。如图2所示,其具体工作流程为:S1、从社交媒体网页中抓取用户的链接地址并存放入网页链接地址队列中;S2、爬虫从网页链接地址队列中依次读取待抓取链接地址,访问并下载该页面;S3、通过解析下载页面,把需要的文本数据以及对应图片保存到数据库中,同时检测是否有其他用户的链接地址,如果有并且未抓取过则存放入网页链接地址队列中;S4、跳转S2,直到网页链接地址队列为空。本实施例S2下载的页面包括portal页面、频道页面、列表页面和内容详情页面等,每一个上级页面的规则决定了系统将如何搜寻都下级页面的入口。舆情信息预处理模块对舆情采集模块采集的舆情信息进行除噪音干扰,得到纯净的文本信息,并将文本信息发送给舆情监测模块。由于舆情采集模块采集的是网页信息,因此,为了满足多维度的舆情数据挖掘和后续的舆情数据分析就必须对舆情相关的网页数据进行结构话的信息抽取,即进行网页去噪。本文档来自技高网...

【技术保护点】
1.一种基于大数据的舆情分析系统,其包括舆情采集模块、舆情信息预处理模块、舆情监测模块、舆情分析模块和舆情决策模块,其特征在于:所述舆情分析模块包括话题追踪模块、舆情分类模块、热点话题识别模块和时间更新模块;/n所述舆情采集模块实时采集网络上的舆情信息,以及该舆情信息相关的评论量、转发量、观点统计和事件焦点,并将采集的舆情信息发送给舆情信息预处理模块;/n所述舆情信息预处理模块对舆情采集模块采集的舆情信息进行除噪音干扰,得到纯净的文本信息,并将文本信息发送给舆情监测模块;/n所述舆情监测模块对舆情信息预处理模块发送的文本信息进行分词处理和语义分析处理,并对爆发式舆情进行预警,将预警信息发送给舆情决策模块;/n所述话题追踪模块追踪话题的种类、最新动态、舆情相关作者的动态;/n所述热点话题识别模块根据舆情监测模块得出的语义分析结果,分析舆情的事件属性,并形成事件记录,并从事件记录中识别舆情信息中的热点话题;/n所述舆情分类模块根据事件包含的新闻性、网络性和可行性划分多个子类目;/n所述时间更新模块记录话题的开始和结束时间,并结合热点话题识别模块判断当前话题是否是热点话题,更新热点话题的时间,根据时间判断热点话题是否失效;/n所述舆情决策模块根据舆情分析模块分析的结果和对舆情发展的预测生成决策方案。/n...

【技术特征摘要】
1.一种基于大数据的舆情分析系统,其包括舆情采集模块、舆情信息预处理模块、舆情监测模块、舆情分析模块和舆情决策模块,其特征在于:所述舆情分析模块包括话题追踪模块、舆情分类模块、热点话题识别模块和时间更新模块;
所述舆情采集模块实时采集网络上的舆情信息,以及该舆情信息相关的评论量、转发量、观点统计和事件焦点,并将采集的舆情信息发送给舆情信息预处理模块;
所述舆情信息预处理模块对舆情采集模块采集的舆情信息进行除噪音干扰,得到纯净的文本信息,并将文本信息发送给舆情监测模块;
所述舆情监测模块对舆情信息预处理模块发送的文本信息进行分词处理和语义分析处理,并对爆发式舆情进行预警,将预警信息发送给舆情决策模块;
所述话题追踪模块追踪话题的种类、最新动态、舆情相关作者的动态;
所述热点话题识别模块根据舆情监测模块得出的语义分析结果,分析舆情的事件属性,并形成事件记录,并从事件记录中识别舆情信息中的热点话题;
所述舆情分类模块根据事件包含的新闻性、网络性和可行性划分多个子类目;
所述时间更新模块记录话题的开始和结束时间,并结合热点话题识别模块判断当前话题是否是热点话题,更新热点话题的时间,根据时间判断热点话题是否失效;
所述舆情决策模块根据舆情分析模块分析的结果和对舆情发展的预测生成决策方案。


2.如权利要求1所述的一种基于大数据的舆情分析系统,其特征在于:所述事件记录包括:事件时间、事件性质、事件当事人及参与人和事件的时间线。


3.如权利要求2所述的一种基于大数据的舆情分析系统,其特征在于:所述多个...

【专利技术属性】
技术研发人员:范双萍彭秀胜
申请(专利权)人:武汉海昌信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1