当前位置: 首页 > 专利查询>暨南大学专利>正文

一种网络舆情监控系统及方法技术方案

技术编号:4211947 阅读:831 留言:0更新日期:2012-04-11 18:40
本发明专利技术为一种网络舆情监控系统及方法,其中系统包括舆情采集模块、舆情处理模块、舆情服务模块、管理控制模块和数据库服务器。本发明专利技术将采集的网页文本数据首先进行分词处理、关键词处理、敏感词处理和聚类分析,从而将网页文本数据处理成标准化结构形式以供舆情服务模块进行处理,有效解决了传统舆情监控系统存在的较长时间滞后性的缺点,舆情服务模块采用数据挖掘来获取热点话题,有效的解决了传统舆情监控系统存在的计算机复杂度较高的缺点,从而保证了热点话题的实时性和准确性。

【技术实现步骤摘要】

本专利技术涉及网络信息安全技术,具体涉及。
技术介绍
随着Internet的迅猛发展,网络信息已经成为人们生活中必不可少的一部分,目 前中国网民数量已经超过2亿,中国网页数量也超过了 80亿。网络媒体已被公认为继报纸、 广播和电视之后的"第四媒体",网络成为反应社会舆情的主要载体之一。网络舆情与社会 舆情相互作用、相互影响,网络舆情与社会舆情在内容表现形态方面具有一致性,网络舆情 一定程度上会影响社会舆情的发展趋势,因此网络舆情热点话题的发现具有十分重要的意 义。 目前关于网络舆情热点的研究主要是基于自然语言处理技术的词频统计方法的研究,涉及到的技术有未登录词的识别、中英文分词等等,该方法针对热点话题的快速发现,对各种论坛系统进行分类研究,依靠论坛的共享目标、信息互惠、共享环境等多种度量指标,使用多维向量来度量话题活性。但是,这种研究方法无法在不基于历史信息的情况下,针对大量话题快速发现舆情热点话题,具有较长的时间滞后性和较高的计算复杂度。 现实社会中的舆论热点在形成的早期,存在一个意见逐渐在人群中流行的过程,即热点话题,但现实社会中关于话题传播的数据难以采集,发现与监测也无法实现。这是舆情研究相对困难的原因之一。然而现实社会中的热点话题,在互联网上也会形成大量相关信息,同时互联网上的数据可以通过网络爬虫实时采集,这为研究舆论热点问题提供了数据基础。
技术实现思路
本专利技术的目的在于克服上述现有技术存在的不足,提供一种网络舆情监控系统, 本专利技术将采集的网页文本数据首先进行分词处理、关键词处理、敏感词处理和聚类分析,从 而将网页文本数据处理成标准化结构形式以供舆情服务模块进行处理,有效解决了传统舆 情监控系统存在的较长时间滞后性的缺点,舆情服务模块采用数据挖掘来获取热点话题, 有效的解决了传统舆情监控系统存在的计算机复杂度较高的缺点,从而保证了热点话题的 实时性和准确性。 本专利技术的另一个目的在于提供上述一种网络舆情监控系统实现舆情监控的方法。本专利技术目的通过下述技术方案来实现一种网络舆情监控系统,包括舆情采集模块、舆情预处理模块、舆情服务模块、管理控制模块和数据库服务器; 所述舆情采集模块,用于根据采集策略采集论坛网页数据,提取网页文本数据; 所述舆情预处理模块包括分词处理模块,用于根据数据库服务器中词库的关键词、敏感词及情感倾向词,从网页文本数据分析出关键词、敏感词及情感倾向词;关键词及情感倾向词处理模块,用于依据分词处理模块分析出关键词及情感倾向词对网页文本数据进行过滤,存储关键词及情感倾向词过滤记录;敏感词处理模块,用于依据分词处理模块的后的网页文本数据进行过滤;聚类分析模块, 用于将敏感词处理模块过滤后的网页文本数据,按照网页所属类别和关键词进行自动聚类 分析出论坛言论数据; 所述舆情服务模块包括内容预警模块,从论坛言论数据分析出带有负面信息的 言论;热点分析模块,采用数据挖掘技术,按照舆情处理模块分析出的关键词,从论坛言论 数据分析出热点话题。 所述管理控制模块包括任务管理模块,用于给用户提供舆情服务模块中各模块 处理的结果; 用户管理模块,用于设置系统各模块的参数。 所述舆情服务模块还可以包括舆情简报(统计分析)模块,用于对内容预警模块 分析出的带有负面信息的言论,和热点分析模块分析出的热点话题进行统计分析,获取舆 情简报。 所述舆情服务模块还可以包括舆情检索模块,用于为用户提供论坛信息查询。其 中,舆情检索模块可以自动推荐检索关键词,该关键词包括内容预警模块获取的负面信息 和热点分析模块分析出热点话题。 上述一种网络舆情监控系统实现舆情监控的方法,包括以下步骤 (1)舆情采集模块根据采集策略采集论坛网页数据,提取网页文本数据; (2)分词处理模块根据从词库调用关键词、敏感词及情感倾向词,从网页文本数据分析出关键词、敏感词及情感倾向词; (3)关键词处理模块依据分词处理模块分析出关键词及情感倾向词对网页文本数 据进行过滤,存储关键词及情感倾向词过滤记录; (4)敏感词处理模块依据分词处理模块的敏感词,对关键词及情感倾向词处理模 块过滤后的网页文本数据进行过滤; (5)聚类分析模块将敏感词处理模块过滤后的网页文本数据,按照网页所属类别 和关键词进行自动聚类分析出论坛言论数据; (6)内容预警模块从论坛言论数据分析出带有负面信息的言论; (7)热点分析模块采用数据挖掘技术,按照舆情处理模块分析出的关键词,从论坛言论数据分析出热点话题。 上述方法中,在步骤(6)分析出带有负面信息的言论和步骤(7)分析出热点话题 之后,还可以由舆情简报(统计分析)模块对负面信息的言论,和热点分析模块分析出的热 点话题进行统计分析,获取舆情简报。 上述方法中,步骤(1)所述舆情采集模块根据采集策略采集论坛网页数据,提取 网页文本数据,具体采用网络爬虫进行采集和提取。 上述方法中,步骤(2)所述分词处理模块具体采用中文分词技术从网页文本数据 分析出关键词、敏感词及情感倾向词。 上述方法中,所述敏感词为国家相关法律法规所规定的敏感词。 上述方法中,步骤(6)所述负面信息的言论,具体为有危害影响的帖子、有明显反动性质的帖子,带有恶意煽动性质的热点言论。 上述方法中,步骤(7)所述热点分析模块分析出热点话题之后,还针对该话题分析其话题热度(依据文本中关键词的单位时间内的频度及关键词出现次数的增长速度来 分析)、社会影响和情感倾向,并将其与热点话题组成热点话题报告,提供给舆情简报(统 计分析)模块。 本专利技术相对于现有技术的优点和有益效果如下本专利技术将采集的网页文本数据首 先进行分词处理、关键词处理、敏感词处理和聚类分析,从而将网页文本数据处理成标准化 结构形式以供舆情服务模块进行处理,由舆情服务模块实现了内容预警、热点分析、预警简 报(统计分析)、舆情检索等功能。本专利技术可以采用网络爬虫来进行网页信息的采集,有效 提高了网页数据采集的速度,在传统的基于中文分词技术研究舆情热点的基础上,采用聚 类分析方法有效解决了传统舆情监控系统存在的较长时间滞后性的缺点,采用数据挖掘来 获取热点话题,有效的解决了传统舆情监控系统存在的计算机复杂度较高的缺点,同时为 用户提供易于操作的管理控制模块,用户可以根据自身专业领域需要来设定舆情监控系统 所关注热点问题,提供各不同专业领域的舆情监控系统,很好的完成了网络舆情监控系统 所需的各项功能。附图说明 图1为本专利技术网络舆情监控系统的结构示意图; 图2为本专利技术网络舆情监控系统的监控流程图。具体实施例方式下面结合实施例及附图,对本专利技术作进一步地详细说明,但本专利技术的实施方式不 限于此。 实施例 本专利技术网络舆情监控系统可以通过系统用户接口设置为校园舆情监控系统,监控国内各大高校BBS舆情信息,关注国内大学生的热点话题,及时把握高校大学生群体中的最新舆论动态,有助于提高国家制定政策提高教育质量,维护社会和谐稳定。 如图1所示,本专利技术之网络舆情监控系统包括舆情采集模块、舆情预处理模块、舆情服务模块、管理控制模块和数据库服务器。所述数据库服务器存储有词库,还用于存储舆情预处理模块和舆情服务模块的处理结果等等。 其中,舆情采集模块,用于负责论坛网页数据的采集,是整个网络舆情监控系统的 待分析信息的输本文档来自技高网...

【技术保护点】
一种网络舆情监控系统,其特征在于,包括:舆情采集模块、舆情预处理模块、舆情服务模块、管理控制模块和数据库服务器;所述舆情采集模块,用于根据采集策略采集论坛网页数据,提取网页文本数据;所述舆情预处理模块包括:分词处理模块,用于根据数据库服务器中词库的关键词、敏感词及情感倾向词,从网页文本数据分析出关键词、敏感词及情感倾向词;关键词及情感倾向词处理模块,用于依据分词处理模块分析出关键词及情感倾向词对网页文本数据进行过滤,存储关键词及情感倾向词过滤记录;敏感词处理模块,用于依据分词处理模块的敏感词,对关键词及情感倾向词处理模块过滤后的网页文本数据进行过滤;聚类分析模块,用于将敏感词处理模块过滤后的网页文本数据,按照网页所属类别和关键词进行自动聚类分析出论坛言论数据;所述舆情服务模块包括:内容预警模块,从论坛言论数据分析出带有负面信息的言论;热点分析模块,采用数据挖掘技术,按照舆情处理模块分析出的关键词,从论坛言论数据分析出热点话题;所述管理控制模块包括:任务管理模块,用于给用户提供舆情服务模块中各模块处理的结果;用户管理模块,用于设置系统各模块的参数。

【技术特征摘要】

【专利技术属性】
技术研发人员:姚国祥罗伟其官全龙李佩宋嘎子
申请(专利权)人:暨南大学
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1