一种互联网舆情信息监测系统及监测方法技术方案

技术编号:9087047 阅读:182 留言:0更新日期:2013-08-28 23:37
本发明专利技术提供一种互联网舆情信息监测系统及监测方法,该系统包括采集模块、数据预处理模块、存储处理模块、服务监控模块与显示模块;所述采集模块的输出端与数据预处理模块的输入端通过有线连接,所述数据预处理模块与存储处理模块通过有线连接,所述服务监控模块与存储处理模块通过有线连接,所述存储处理模块与显示模块通过有线连接。本发明专利技术还提供一种互联网舆情信息监测方法。本发明专利技术集信息采集、分析处理、服务监控、存储、显示于一体,自动发现并深入分析互联网信息热点,帮助用户方便快捷地了解舆情事件的来龙去脉。

【技术实现步骤摘要】
一种互联网舆情信息监测系统及监测方法
本专利技术涉及互联网信息智能分析处理
,具体是一种互联网舆情信息监测系统及监测方法。
技术介绍
近几年来,随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。根据中国互联网络信息中心(CNNIC)最新发布的《中国互联网络发展状况统计报告》显示,截至2011年底,我国的网民规模已经突破5亿,互联网普及率也进一步提升。随着网络普及率的上升和网民规模的持续扩大,互联网平台的信息量大幅度增加。然而,互联网的开放性、及时性和互动性,产生了大量的包含虚假、色情、暴力和反动的垃圾信息和不良信息。在信息类型多、数据量大的互联网平台中,如何获取有效的舆情信息以及如何对获取的舆情信息进行快速精确的分析和处理,是目前亟待解决的重要问题。
技术实现思路
本专利技术要解决的技术问题是提供一种能够获取有效的舆情信息并对获取的舆情信息进行快速精确的分析处理的互联网舆情信息监测系统及监测方法。本专利技术的技术方案为:一种互联网舆情信息监测系统,该系统包括采集模块、数据预处理模块、存储处理模块、服务监控模块与显示模块;所述采集模块的输出端与数据预处理模块的输入端通过有线连接,所述数据预处理模块与存储处理模块通过有线连接,所述服务监控模块与存储处理模块通过有线连接,所述存储处理模块与显示模块通过有线连接;所述采集模块,用于对互联网上的舆情信息进行采集,获取网页数据;所述数据预处理模块,用于对采集模块获取的网页数据进行分词及语义分析预处理并将预处理结果传输至存储处理模块进行存储;所述服务监控模块,用于对存储处理模块存储的预处理结果进行统计,形成统计图表,并将形成的统计图表传输至存储处理模块进行存储,以及对达到预警阈值的信息进行预警通知;所述存储处理模块,用于对数据预处理模块和服务监控模块传输过来的数据进行存储并通过有线传输至显示模块进行结果显示。所述的互联网舆情信息监测系统,所述数据预处理模块包括分词子模块与语义分析子模块;所述分词子模块,用于对采集模块获取的网页数据进行分词处理及词性标注,对词语的倾向性、主题属性进行解析;所述语义分析子模块,用于对分词处理后的网页数据的句法进行分析,对每个网页上的文章热点指数、情感倾向性指数、文章主题进行分析判断。所述的互联网舆情信息监测系统,所述服务监控模块包括计算子模块、统计图表形成子模块、参数设置子模块以及预警子模块;所述计算子模块,用于对每个网页上的文章热点指数、情感倾向性指数的判断结果进行汇总计算;所述统计图表形成子模块,用于形成文章热度排行报表、预警信息分布报表、舆情站点分布报表、舆情状态统计报表以及舆情趋势走向分析图;所述参数设置子模块,用于对预警话题以及情感倾向性指数的预警阈值进行预先设置;所述预警子模块,用于对达到预警阈值的信息进行预警通知。所述的互联网舆情信息监测系统,显示模块进一步包括显示端语义分析子模块,所述显示端语义分析子模块用于对用户输入的文本和检索问题进行分析处理,并将分析处理结果传输至存储处理模块。所述的互联网舆情信息监测系统,所述采集模块、数据预处理模块、存储处理模块和服务监控模块运行在服务器上,所述显示模块运行在客户端上。一种互联网舆情信息监测方法,包括以下步骤:1)对互联网上的舆情信息进行采集,获取网页数据;2)对获取的网页数据进行分词及语义分析预处理并将预处理结果进行存储;3)对存储的预处理结果进行统计,形成统计图表,并将形成的统计图表进行存储,以及对达到预警阈值的信息进行预警通知;4)对存储的数据进行结果显示。所述的互联网舆情信息监测方法,步骤1)中,具体采用规则采集与搜索引擎以及蜘蛛爬行相结合的方法对互联网上的舆情信息进行采集。所述的互联网舆情信息监测方法,步骤2)中,对获取的网页数据进行分词及语义分析预处理,具体包括以下步骤:1)采用基于球面四叉树的多级Hash结构的分词机制对获取的网页数据进行分词处理,分词的同时根据词的语法属性、情感属性、词类属性进行词性标注,解析出词语的倾向性、主题属性;2)根据汉语句子的构造原则,对分词处理后的网页数据文本进行句子切分,抽取文本的每一个句子,然后对每个句子进行句法分析,将整个文本的句子的语法形成语法网状规则图;根据语义建立语义规则库,根据语义规则库将语法网状规则图通过点对点映射,转换为语义概念图;根据语义概念图判断每个网页上的文章热点指数、情感倾向性指数,分析文章主题。所述的互联网舆情信息监测方法,步骤3)中,对存储的预处理结果进行统计,形成统计图表,并将形成的统计图表进行存储,以及对达到预警阈值的信息进行预警通知,包括以下步骤:1)对每个网页上的文章热点指数、情感倾向性指数的判断结果进行汇总计算;2)形成文章热度排行报表、预警信息分布报表、舆情站点分布报表、舆情状态统计报表以及舆情趋势走向分析图;3)对预警话题以及情感倾向性指数的预警阈值进行预先设置;4)对达到预警阈值的信息通过邮件、短信进行预警通知。所述的互联网舆情信息监测方法,所述基于球面四叉树的多级Hash结构的分词机制的构建包括以下步骤:1)依次对每个字建立Hash索引,构成多级TRIE树;2)所述TRIE树的结点构成Hash桶,将每个Hash桶内存放多个具有相同的前N个字的词,N为正整数;3)用循环算法对建立的每一级Hash桶内的词的个数进行计算,若计算结果大于预先设定的阈值,则以该Hash桶为基础建立下一级的Hash桶,直至每个Hash桶内的词的数量均小于或等于阈值。本专利技术集信息采集、分析处理、服务监控、存储、显示于一体,自动发现并深入分析互联网信息热点,帮助用户方便快捷地了解舆情事件的来龙去脉。针对互联网海量数据信息具有增长性和变动性的特点,采用规则采集为主,其他采集方式包括爬虫技术、搜索引擎技术相结合的方法对互联网舆情信息进行采集,具有全面性和时效性;采用基于球面四叉树的多级Hash结构的高速分词技术,不仅可以标注常用词语的词法,还能够标注自然语言中关键情感词类与情感程度,其速度比一般的分词技术提高10—100倍;对文章主题、热点指数、情感倾向性指数进行分析计算,达到对舆情的高效管理和正确引导;对预警话题以及情感倾向性指数的预警阈值进行预先设置,对达到预警阈值的信息通过邮件、短信进行预警通知,达到实时监控实时反馈通讯的效果;舆情分析处理的结果以网页的形式呈现给用户,为用户提供决策支持。附图说明图1是本专利技术具体实施方式提供的一种互联网舆情信息监测系统的模块示意图。具体实施方式下面结合附图及具体实施例进一步说明本专利技术。如图1所示,一种互联网舆情信息监测系统,其特征在于:该系统包括采集模块1、数据预处理模块2、存储处理模块3、服务监控模块4与显示模块5;所述采集模块1的输出端与数据预处理模块2的输入端通过有线连接,所述数据预处理模块2与存储处理模块3通过有线连接,所述服务监控模块4与存储处理模块3通过有线连接,所述存储处理模块3与显示模块5通过有线连接;所述采集本文档来自技高网...
一种互联网舆情信息监测系统及监测方法

【技术保护点】
一种互联网舆情信息监测系统,其特征在于:该系统包括采集模块(1)、数据预处理模块(2)、存储处理模块(3)、服务监控模块(4)与显示模块(5);所述采集模块(1)的输出端与数据预处理模块(2)的输入端通过有线连接,所述数据预处理模块(2)与存储处理模块(3)通过有线连接,所述服务监控模块(4)与存储处理模块(3)通过有线连接,所述存储处理模块(3)与显示模块(5)通过有线连接;?所述采集模块(1),用于对互联网上的舆情信息进行采集,获取网页数据;所述数据预处理模块(2),用于对采集模块(1)获取的网页数据进行分词及语义分析预处理并将预处理结果传输至存储处理模块(3)进行存储;所述服务监控模块(4),用于对存储处理模块(3)存储的预处理结果进行统计,形成统计图表,并将形成的统计图表传输至存储处理模块(3)进行存储,以及对达到预警阈值的信息进行预警通知;所述存储处理模块(3),用于对数据预处理模块(2)和服务监控模块(4)传输过来的数据进行存储并通过有线传输至显示模块(5)进行结果显示。

【技术特征摘要】
1.一种互联网舆情信息监测方法,其特征在于:包括以下步骤:1)对互联网上的舆情信息进行采集,获取网页数据;2)对获取的网页数据进行分词及语义分析预处理并将预处理结果进行存储;3)对存储的预处理结果进行统计,形成统计图表,并将形成的统计图表进行存储,以及对达到预警阈值的信息进行预警通知;4)对存储的数据进行结果显示;步骤2)中,对获取的网页数据进行分词及语义分析预处理,具体包括以下步骤:采用基于球面四叉树的多级Hash结构的分词机制对获取的网页数据进行分词处理,分词的同时根据词的语法属性、情感属性、词类属性进行词性标注,解析出词语的倾向性、主题属性;根据汉语句子的构造原则,对分词处理后的网页数据文本进行句子切分,抽取文本的每一个句子,然后对每个句子进行句法分析,将整个文本的句子的语法形成语法网状规则图;根据语义建立语义规则库,根据语义规则库将语法网状规则图通过点对点映射,转换为语义概念图;根据语义概念图判断每个网页上的文章热点指数、情感倾向性指数,分析文章主题;所述基于球面四叉树的多级Hash结构的分词机制的构建包括以下步骤:...

【专利技术属性】
技术研发人员:胡玉龙李元方谋富石琴方杨毛毛李晓徽
申请(专利权)人:安徽雷越网络科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1