【技术实现步骤摘要】
一种基于大数据的舆情聆听系统
本专利技术属于互联网信息处理
,具体涉及为一种基于大数据的舆情聆听系统。
技术介绍
舆情监控,整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。现有的舆情监测系统主要实现对舆情事件的获取和分析功能,在对舆情事件进一步处理时,不能对舆情事件的状态进行实时追踪。例如,在食药领域,当舆情事件比较多时,食药监督工作人员通常无法对舆情事件做出及时响应(对负面信息进行澄清、回应、辟谣等),致使在对舆情进行控制时延误最佳时机。因此,如何提供一种舆情监控的系统,以使舆情事件得到及时处理,成为现有技术中亟需解决的技术问题。
技术实现思路
本专利技术的目的在于克服上述提到的缺陷和不足,而提供一种基于大数据的舆情聆听系统。本专利技术实现其目的采用的技术方案如下。一种基于大数据的舆情聆听系统,其特征在于,包括:信息采集单元:在大数据的基础上,采用技术手段进行舆情信息的采集,将预设的主题词,从网络平台上筛选出包含主题词的网络页面文本数据;信息爬取单元:连接信息采集单元,对包含主题词的网络页面文本数据进行分析,使用已有的网络爬虫技术,通过分词技术对网络页面文本数据进行分词处理,获得多个词组;并根据多个网络页面中出现的该词组的频率,将出现频率高的词组确定为与主题词相关联的关键词;噪声过滤单元:连接信息采集单元并接收从信息采集单元传输过来的关键词的集合信息和主题词 ...
【技术保护点】
1.一种基于大数据的舆情聆听系统,其特征在于,包括:信息采集单元(1):在大数据的基础上,采用技术手段进行舆情信息的采集,将预设的主题词,从网络平台上筛选出包含主题词的网络页面文本数据;信息爬取单元(2):连接信息采集单元(1),对包含主题词的网络页面文本数据进行分析,使用已有的网络爬虫技术,通过分词技术对网络页面文本数据进行分词处理,获得多个词组;并根据多个网络页面中出现的该词组的频率,将出现频率高的词组确定为与主题词相关联的关键词;噪声过滤单元(3):连接信息采集单元(1)并接收从信息采集单元(1)传输过来的关键词的集合信息和主题词的词频,并对关键词进行去噪;权重分配单元(4),连接噪声过滤单元(3)并接收从噪声过滤单元(3)传输过来的关键词的集合信息和主题词的词频;根据主题词出现的频率,确定舆情的级别,筛选出成长期的舆情和成熟期的舆情,作为后续监控和分析的“凸显舆情”;同时,根据关键词出现的频率,确定“凸显舆情”的性质;舆情分析单元(5),连接权重分配单元(4),实时接收权重分配单元(4)发送过来的舆情值、关键词的集合信息和主题词的词频;针对成长期和成熟期的舆情的现状进行风险评估 ...
【技术特征摘要】
1.一种基于大数据的舆情聆听系统,其特征在于,包括:信息采集单元(1):在大数据的基础上,采用技术手段进行舆情信息的采集,将预设的主题词,从网络平台上筛选出包含主题词的网络页面文本数据;信息爬取单元(2):连接信息采集单元(1),对包含主题词的网络页面文本数据进行分析,使用已有的网络爬虫技术,通过分词技术对网络页面文本数据进行分词处理,获得多个词组;并根据多个网络页面中出现的该词组的频率,将出现频率高的词组确定为与主题词相关联的关键词;噪声过滤单元(3):连接信息采集单元(1)并接收从信息采集单元(1)传输过来的关键词的集合信息和主题词的词频,并对关键词进行去噪;权重分配单元(4),连接噪声过滤单元(3)并接收从噪声过滤单元(3)传输过来的关键词的集合信息和主题词的词频;根据主题词出现的频率,确定舆情的级别,筛选出成长期的舆情和成熟期的舆情,作为后续监控和分析的“凸显舆情”;同时,根据关键词出现的频率,确定“凸显舆情”的性质;舆情分析单元(5),连接权重分配单元(4),实时接收权重分配单元(4)发送过来的舆情值、关键词的集合信息和主题词的词频;针对成长期和成熟期的舆情的现状进行风险评估,分析主题词和关键词随时间变化的热度,确定舆情的发展脉络,还原事态的发展,并对未来发展态势进行趋势预测,及时发出舆情风险评估;报警与应对单元(6),连接舆情分析单元(5)和信息采集单元(1),针对“凸显舆情”,通过消息推送,将舆情分析内容反馈给客户,还原事态的发展,展现对于该事件的舆情的最主要的关切点,建议采用的应对措施。2.如权利要求1所述的一种基于大数据的舆情聆听系统,其特征在于,所述信息采集单元(1)中的大数据涵盖了传统媒体、微博、微信、各类媒体分发平台、网络讨论区论坛。3.如权利要求1所述的一种基于大数据的舆情聆听系统,其特征在于,所述权重分配单元(4)中,舆情的级别,分为:1.孵化期:舆情的热度较低,尚未形成规模化的讨论,影响范围仅局限在小范围内,但是有转换为热点舆情的可能;设定阈值N;阈值N为经验常数;当舆情的主题词出现的频率接近于N时,表示该舆情时间为热点舆情;孵化期的主题词出现的频率<N/5;2.成长期:舆情的热度中等,但是成长速度和传播速度较高,影响到的范围越来越广;N/5≤成长期的...
【专利技术属性】
技术研发人员:孟宪坤,张蕾,刘杰,
申请(专利权)人:浙江华坤道威数据科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。