当前位置: 首页 > 专利查询>潘大庆专利>正文

部署于互联网的舆情监测应用系统及运用方法技术方案

技术编号:9956821 阅读:128 留言:0更新日期:2014-04-23 17:01
本发明专利技术公开了一种部署于互联网的舆情监测应用系统,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统。同时公开了一种监测应用系统的运用方法。对采集的多种类型的页面信息能够快速有效的提取数据,能够利用分词模块快速有效的提取出页面的核心内容,并将所提取到的数据融合在一起进行综合处理。从而达到实时、全面的收集网络信息,从而避免网络谣言的目的。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种部署于互联网的舆情监测应用系统,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统。同时公开了一种监测应用系统的运用方法。对采集的多种类型的页面信息能够快速有效的提取数据,能够利用分词模块快速有效的提取出页面的核心内容,并将所提取到的数据融合在一起进行综合处理。从而达到实时、全面的收集网络信息,从而避免网络谣言的目的。【专利说明】
本专利技术涉及信息通信领域,具体地,涉及一种。
技术介绍
目前,随着互联网应用越来越广泛,人们能够在互联网上表达自己的看法。当网络中的群体针对某一热点事件,集中关注并纷纷发表意见时,很容易形成网络舆情,网络舆情对国家安全、社会稳定和企业个人的声誉都会造成非常严重的影响,因此有效的开展舆情监测技术有着十分广泛的应用需求。然而随着互联网传输媒介的种类呈现多样化的发展趋势,互联网信息发布的源头呈现爆炸式的发展势头,使得在网络上开展实时有效的舆情监测技术难度越来越高,现有技术均不可以实时、全面的收集网络信息。
技术实现思路
本专利技术的目的在于,针对上述问题,提出一种,以实现实时、全面的收集网络信息,从而避免网络谣言的优点。为实现上述目的,本专利技术采用的技术方案是: 一种部署于互联网的舆情监测应用系统,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统; 所述数据采集子系统:对网络上的信息进行自动采集,从对采集的信息进行去重、过滤、筛选后提取有分析价值潜力的网络信息; 所述基本数据存储中心:完成系统工作过程中所需要的数据存储功能; 所述数据挖掘处理子系统:通过预先设定的数据处理周期,对处于当前周期内的所有网络信息,首先进行分词和聚类提取出每个页面的核心内容,之后根据网络信息的排名回贴数据和转发次数,对网络信息的热门程度进行评价,给出网络信息的热点特征; 所述舆情监测管理子系统:实现人机交互,且对上述数据挖掘子系统输出的网络信息中的热点事件和页面的热门评价结果转化成舆情态势显示,并对热点事件进行统计,同时对舆情的发展趋势进行记录;且根据用户输入的检索关键词,对相关的原始网络信息进行检索和输出。根据本专利技术的优选实施例,所述网络信息至少包括网络上的网页、微博和论坛信肩、O根据本专利技术的优选实施例,所述数据采集子系统包括网络爬虫模块、数据去重模块、数据过滤模块和数据筛选模块; 所述网络爬虫模块,通过将网络爬虫在网络上进行自动的传播和扩散,从而自动的对网络上的网页、微博和论坛进行数据采集; 所述数据去重模块,将由上述网络爬虫采集到的页面原始数据经数据去重处理后,剔除在采集过程中所得到的重复数据; 所述数据过滤模块,根据预先设定的数据过滤规则,将不需要进行处理的页面类型和页面信息进行过滤; 所述数据筛选模块,根据上述舆情监测管理子系统内预先设定的数据采集敏感值,对所采集到的数据进行筛选,提取出有分析价值潜力的页面数据。根据本专利技术的优选实施例,所述舆情监测管理子系统包括用户接口模块、舆情显示模块、热点统计模块、舆情趋势动向显示模块和数据检索模块; 所述用户接口模块、实现系统与用户之间的人机交互; 所述舆情显示模块、对上述数据挖掘子系统输出的各种热点事件和页面的热门评价结果转化成舆情态势显示; 所述热点统计模块、对热点事件进行统计; 所述舆情趋势动向显示模块,对舆情的发展趋势进行记录并显示; 所述数据检索模块、根据用户输入的检索关键词,对相关的页面原始数据进行检索和输出。根据本专利技术的优选实施例,所述舆情显示模块,将其接收到的舆情信息分别在页面中实时的进行记录和显示。根据本专利技术的优选实施例,所述舆情趋势动向显示模块,将在一段时间记录到的热点事件依次进行统计和记录,以曲线图的形式绘制热点事件。根据本专利技术的优选实施例,所述数据挖掘处理子系统具有分词、分词聚类、页面排名统计、回贴数量统计、页面转发次数统计和处理周期设定功能。同时本专利技术的技术方案还公开了一种权利部署于互联网的舆情监测应用系统的运用方法,包括以下步骤: 步骤1、通过舆情监测管理子系统中的用户接口模块,输入监测的敏感事件关键词;步骤2、由数据采集子系统对网络数据进行采集,通过网络爬虫模块在互联网中快速进行传播,对多种信息媒介内容进行采集; 步骤3、将上述采集到的原始数据分别经过数据去重、数据过滤和数据筛选提取出有分析价值的页面数据; 步骤4、将上述步骤2采集到的原始数据送入基本数据存储中心,以通用的数据格式将所采集到的所有数据存储在基本数据存储中心; 步骤5、启动数据挖掘处理子系统中的分词功能,依次从基本数据存储中心提取页面数据,并从中抽取出各分词结果; 步骤6、应用分词聚类功能的分词聚类算法对分词结果进行聚类,给出每一个页面的主体内容描述; 步骤7、启动页面排名统计、页面回贴次数统计和页面转发次数统计功能,按照页面数据的类型分别相应的计入页面的特征参数; 步骤8、应用热点事件评价模型对当前页面的内容、热门程度进行评价; 步骤9、如果事件达到预先设定的热门敏感程序预值,则进行热点事件的报警,将预警结果输出至舆情监测管理子系统; 步骤10、所述舆情监测管理子系统针对所接收到的预警信息,将舆情状况实时的进行显示,同时对累计收到的各种热点事件进行统计,并对舆情发展趋势进行显示。本专利技术的技术方案具有以下有益效果: 本专利技术的技术方案,对采集的多种类型的页面信息能够快速有效的提取数据,能够利用分词模块快速有效的提取出页面的核心内容,并将所提取到的数据融合在一起进行综合处理。从而达到实时、全面的收集网络信息,从而避免网络谣言的目的。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。【专利附图】【附图说明】图1为本专利技术实施例所述的部署于互联网的舆情监测应用系统的原理框图; 图2为本专利技术实施例所述的部署于互联网的舆情监测应用系统的运用流程图。【具体实施方式】以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。如图1所示,一种部署于互联网的舆情监测应用系统,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统; 数据采集子系统:对网络上的信息进行自动采集,从对采集的信息进行去重、过滤、筛选后提取有分析价值潜力的网络信息; 基本数据存储中心:完成系统工作过程中所需要的数据存储功能; 数据挖掘处理子系统:通过预先设定的数据处理周期,对处于当前周期内的所有网络信息,首先进行分词和聚类提取出每个页面的核心内容,之后根据网络信息的排名回贴数据和转发次数,对网络信息的热门程度进行评价,给出网络信息的热点特征; 舆情监测管理子系统:实现人机交互,且对上述数据挖掘子系统输出的网络信息中的热点事件和页面的热门评价结果转化成舆情态势显示,并对热点事件进行统计,同时对舆情的发展趋势进行记录;且根据用户输入的检索关键词,对相关的原始网络信息进行检索和输出。其中,网络信息包括网络上的网页、微博和论坛等信息。数据采集子系统包括网络爬虫模块、数据去重模块、数据过滤模块和数据筛选模块; 网络爬虫模块,通过将网络爬虫在网络上进行自动的传播和扩散,从而自本文档来自技高网...

【技术保护点】
一种部署于互联网的舆情监测应用系统,其特征在于,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统;所述数据采集子系统:对网络上的信息进行自动采集,从对采集的信息进行去重、过滤、筛选后提取有分析价值潜力的网络信息;所述基本数据存储中心:完成系统工作过程中所需要的数据存储功能;所述数据挖掘处理子系统:通过预先设定的数据处理周期,对处于当前周期内的所有网络信息,首先进行分词和聚类提取出每个页面的核心内容,之后根据网络信息的排名回贴数据和转发次数,对网络信息的热门程度进行评价,给出网络信息的热点特征;所述舆情监测管理子系统:实现人机交互,且对上述数据挖掘子系统输出的网络信息中的热点事件和页面的热门评价结果转化成舆情态势显示,并对热点事件进行统计,同时对舆情的发展趋势进行记录;且根据用户输入的检索关键词,对相关的原始网络信息进行检索和输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:潘大庆刘静姿王静黄力
申请(专利权)人:潘大庆
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1