一种基于大数据的舆情聆听系统技术方案

技术编号:22167049 阅读:22 留言:0更新日期:2019-09-21 10:38
一种基于大数据的舆情聆听系统,互联网信息处理技术领域,包括:依次信号连接的信息采集单元、信息爬取单元、噪声过滤单元、权重分配单元、舆情分析单元、报警与应对单元。本方案,统一对大数据中的舆情进行监测和分析,自动获得相应数据,建立有效的舆情风险评估研判机制。本方案,用于捕捉网络舆情信息,在海量数据中实时把握网络舆情导向,有助于客户在第一时间对负面舆情作出应对,防止网络水军对舆情做出误导。

A Public Opinion Listening System Based on Big Data

【技术实现步骤摘要】
一种基于大数据的舆情聆听系统
本专利技术属于互联网信息处理
,具体涉及为一种基于大数据的舆情聆听系统。
技术介绍
舆情监控,整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。现有的舆情监测系统主要实现对舆情事件的获取和分析功能,在对舆情事件进一步处理时,不能对舆情事件的状态进行实时追踪。例如,在食药领域,当舆情事件比较多时,食药监督工作人员通常无法对舆情事件做出及时响应(对负面信息进行澄清、回应、辟谣等),致使在对舆情进行控制时延误最佳时机。因此,如何提供一种舆情监控的系统,以使舆情事件得到及时处理,成为现有技术中亟需解决的技术问题。
技术实现思路
本专利技术的目的在于克服上述提到的缺陷和不足,而提供一种基于大数据的舆情聆听系统。本专利技术实现其目的采用的技术方案如下。一种基于大数据的舆情聆听系统,其特征在于,包括:信息采集单元:在大数据的基础上,采用技术手段进行舆情信息的采集,将预设的主题词,从网络平台上筛选出包含主题词的网络页面文本数据;信息爬取单元:连接信息采集单元,对包含主题词的网络页面文本数据进行分析,使用已有的网络爬虫技术,通过分词技术对网络页面文本数据进行分词处理,获得多个词组;并根据多个网络页面中出现的该词组的频率,将出现频率高的词组确定为与主题词相关联的关键词;噪声过滤单元:连接信息采集单元并接收从信息采集单元传输过来的关键词的集合信息和主题词的词频,并对关键词进行去噪;权重分配单元,连接噪声过滤单元并接收从噪声过滤单元传输过来的关键词的集合信息和主题词的词频;根据主题词出现的频率,确定舆情的级别,筛选出成长期的舆情和成熟期的舆情,作为后续监控和分析的“凸显舆情”;同时,根据关键词出现的频率,确定“凸显舆情”的性质;舆情分析单元,连接权重分配单元,实时接收权重分配单元发送过来的舆情值、关键词的集合信息和主题词的词频;针对成长期和成熟期的舆情的现状进行风险评估,分析主题词和关键词随时间变化的热度,确定舆情的发展脉络,还原事态的发展,并对未来发展态势进行趋势预测,及时发出舆情风险评估;报警与应对单元,连接舆情分析单元和信息采集单元,针对“凸显舆情”,通过消息推送,将舆情分析内容反馈给客户,还原事态的发展,展现对于该事件的舆情的最主要的关切点,建议采用的应对措施。所述信息采集单元中的大数据涵盖了传统媒体、微博、微信、各类媒体分发平台、网络讨论区论坛。所述权重分配单元中,舆情的级别,分为:1.孵化期:舆情的热度较低,尚未形成规模化的讨论,影响范围仅局限在小范围内,但是有转换为热点舆情的可能;设定阈值N;阈值N为经验常数;当舆情的主题词出现的频率接近于N时,表示该舆情时间为热点舆情;孵化期的主题词出现的频率<N/5;2.成长期:舆情的热度中等,但是成长速度和传播速度较高,影响到的范围越来越广;N/5≤成长期的主题词出现的频率<4N/5;3.成熟期:舆情的关注度炙热,影响范围非常广,基本上各个平台都有讨论;成熟期的主题词出现的频率≥4N/5;4.衰退期:舆情的热度逐步衰减;孵化期、成长期和成熟期都有可能直接进入衰退期。对针对“凸显舆情”进行研判,是指针对“凸显舆情”中不同的关键词,给予不同的权重:S1,权重分配单元内设语义分析模块,比对“凸显舆情”关键词,确定关键词类型;关键词类型包括:1.是事实陈述的关键词;事实陈述的关键词,隶属于以下领域:舆情来源、采集时间、涉及类别、事件名称、事发地点、涉及单位、伤亡人数、发生时间、基本情况、报告人、报告时间;事实陈述的关键词,仅作为还原事件经过的关键词;2.语气倾向的关键词,可分为褒义词、中性词和贬义词;语气倾向的关键词,作为舆情事件的定性内容;S2,根据关键词的类型、出现热度、倾向,赋予该关键词舆情值;舆情本身是一种矢量,其基本指标包括热度、倾向;重点分析语气倾向的关键词;已知该类关键词T的词频Tf,表示其热度;关键词T的词性Tx,表示倾向;正面的积极的关键词T词性Tx为大于1的正数,负面的关键词T性Tx为小于-1的负数,中性的关键词T性Tx为0;词性Tx由系统预设,人为可调整其具体的数值;Tx的绝对值位于[1,3];舆情值其中,A为舆情值,Tif表示第i个关键词的词频,Tix表示第i个关键词的词性,N表示包含主题词的网络页面总数量;当舆情值A小于报警阈值-B,则表示该舆情事件为负面事件,需要紧急处理;其中,B为大于0的经验常数;当舆情值A大于报警阈值B,则表示该舆情事件为正面事件;其中,B为大于0的经验常数。所述舆情分析单元中,舆情分析内容包括:1.根据事实陈述的关键词,还原舆情事件的概况;2.根据舆情值,确定舆情事件的性质为正面舆情还是负面舆情;3.根据多个时间点采集的舆情值,还原舆情事件的性质发展历史,并对发展趋势做合理的预测;4.罗列出现最多的几项关键词。所述报警与应对单元中,应对措施为:事件澄清、回应、辟谣、资源调度中至少一种。本方案,统一对大数据中的舆情进行监测和分析,自动获得相应数据,建立有效的舆情风险评估研判机制。本方案,用于捕捉网络舆情信息,在海量数据中实时把握网络舆情导向,有助于客户在第一时间对负面舆情作出应对,防止网络水军对舆情做出误导。附图说明图1是本专利技术的结构示意图;图2是本专利技术的原理图;图中:信息采集单元1、信息爬取单元2、噪声过滤单元3、权重分配单元4、舆情分析单元5、报警与应对单元6。具体实施方式下面结合附图,对本专利技术作进一步详细说明。一种基于大数据的舆情聆听系统,包括信息采集单元1、信息爬取单元2、噪声过滤单元3、权重分配单元4、舆情分析单元5、报警与应对单元6。所述信息采集单元1,在大数据的基础上,采用技术手段进行舆情信息的采集,将预设的主题词,从网络平台上筛选包含主题词的网络页面文本数据。随着互联网的普及,舆情呈现多元化,承载舆情的载体,不仅体现在新闻媒体、社交媒体、境外媒体等传统媒体,还包括微博、微信、各类媒体分发平台(包括新闻网站、新闻客户端等)、网络讨论区论坛。因此,本方案建立在大数据的基础上,大数据涵盖了新闻媒体、社交媒体、境外媒体等传统媒体,还包括微博、微信、各类媒体分发平台(包括新闻网站、新闻客户端等)、网络讨论区论坛。所述信息爬取单元2,连接信息采集单元1,对包含主题词的网络页面文本数据进行分析,使用已有的网络爬虫技术,通过分词技术对网络页面文本数据进行分词处理,获得多个词组;并根据多个网络页面中出现的该词组的频率,将出现频率高的词组确定为与主题词相关联的关键词。所述噪声过滤单元3,连接信息采集单元1并接收从信息采集单元1传输过来的关键词的集合信息和主题词的词频,并对关键词进行去噪。例如,在关键词的集合信息中,去除“的”“我”等常见的无事实性内容的词语。所述权重分配单元4,连接噪声过滤单元3并接收从噪声过滤单元3传输过来的关键词的集合信息和主题词的词频,根据主题词出现的频率,确定舆情的级别,筛选出成长期的舆情和成熟期的舆情,作为后续监控和分析的“凸显舆情”;同时,根据关键词出现的频率,确定“凸显舆情”的性本文档来自技高网...

【技术保护点】
1.一种基于大数据的舆情聆听系统,其特征在于,包括:信息采集单元(1):在大数据的基础上,采用技术手段进行舆情信息的采集,将预设的主题词,从网络平台上筛选出包含主题词的网络页面文本数据;信息爬取单元(2):连接信息采集单元(1),对包含主题词的网络页面文本数据进行分析,使用已有的网络爬虫技术,通过分词技术对网络页面文本数据进行分词处理,获得多个词组;并根据多个网络页面中出现的该词组的频率,将出现频率高的词组确定为与主题词相关联的关键词;噪声过滤单元(3):连接信息采集单元(1)并接收从信息采集单元(1)传输过来的关键词的集合信息和主题词的词频,并对关键词进行去噪;权重分配单元(4),连接噪声过滤单元(3)并接收从噪声过滤单元(3)传输过来的关键词的集合信息和主题词的词频;根据主题词出现的频率,确定舆情的级别,筛选出成长期的舆情和成熟期的舆情,作为后续监控和分析的“凸显舆情”;同时,根据关键词出现的频率,确定“凸显舆情”的性质;舆情分析单元(5),连接权重分配单元(4),实时接收权重分配单元(4)发送过来的舆情值、关键词的集合信息和主题词的词频;针对成长期和成熟期的舆情的现状进行风险评估,分析主题词和关键词随时间变化的热度,确定舆情的发展脉络,还原事态的发展,并对未来发展态势进行趋势预测,及时发出舆情风险评估;报警与应对单元(6),连接舆情分析单元(5)和信息采集单元(1),针对“凸显舆情”,通过消息推送,将舆情分析内容反馈给客户,还原事态的发展,展现对于该事件的舆情的最主要的关切点,建议采用的应对措施。...

【技术特征摘要】
1.一种基于大数据的舆情聆听系统,其特征在于,包括:信息采集单元(1):在大数据的基础上,采用技术手段进行舆情信息的采集,将预设的主题词,从网络平台上筛选出包含主题词的网络页面文本数据;信息爬取单元(2):连接信息采集单元(1),对包含主题词的网络页面文本数据进行分析,使用已有的网络爬虫技术,通过分词技术对网络页面文本数据进行分词处理,获得多个词组;并根据多个网络页面中出现的该词组的频率,将出现频率高的词组确定为与主题词相关联的关键词;噪声过滤单元(3):连接信息采集单元(1)并接收从信息采集单元(1)传输过来的关键词的集合信息和主题词的词频,并对关键词进行去噪;权重分配单元(4),连接噪声过滤单元(3)并接收从噪声过滤单元(3)传输过来的关键词的集合信息和主题词的词频;根据主题词出现的频率,确定舆情的级别,筛选出成长期的舆情和成熟期的舆情,作为后续监控和分析的“凸显舆情”;同时,根据关键词出现的频率,确定“凸显舆情”的性质;舆情分析单元(5),连接权重分配单元(4),实时接收权重分配单元(4)发送过来的舆情值、关键词的集合信息和主题词的词频;针对成长期和成熟期的舆情的现状进行风险评估,分析主题词和关键词随时间变化的热度,确定舆情的发展脉络,还原事态的发展,并对未来发展态势进行趋势预测,及时发出舆情风险评估;报警与应对单元(6),连接舆情分析单元(5)和信息采集单元(1),针对“凸显舆情”,通过消息推送,将舆情分析内容反馈给客户,还原事态的发展,展现对于该事件的舆情的最主要的关切点,建议采用的应对措施。2.如权利要求1所述的一种基于大数据的舆情聆听系统,其特征在于,所述信息采集单元(1)中的大数据涵盖了传统媒体、微博、微信、各类媒体分发平台、网络讨论区论坛。3.如权利要求1所述的一种基于大数据的舆情聆听系统,其特征在于,所述权重分配单元(4)中,舆情的级别,分为:1.孵化期:舆情的热度较低,尚未形成规模化的讨论,影响范围仅局限在小范围内,但是有转换为热点舆情的可能;设定阈值N;阈值N为经验常数;当舆情的主题词出现的频率接近于N时,表示该舆情时间为热点舆情;孵化期的主题词出现的频率<N/5;2.成长期:舆情的热度中等,但是成长速度和传播速度较高,影响到的范围越来越广;N/5≤成长期的...

【专利技术属性】
技术研发人员:孟宪坤张蕾刘杰
申请(专利权)人:浙江华坤道威数据科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1