An effective network hot spot monitoring system, including data acquisition module, preprocessing module, public opinion, public opinion analysis module and management module, the information acquisition module is used to collect the information of public opinion on the network, web data acquisition, the public opinion pretreatment module is used for the noise processing and Chinese segmentation on Web data acquisition. The public opinion analysis module is used for the segmentation results from Chinese character extraction and feature weight calculation \, and\ siloing, the management module is used for the storage of the collected documents, and display the monitoring results of the system to the user, the beneficial effects of the invention are: a the hot network monitoring system, through the network of information on the capture and the scientific and effective analysis, to achieve effective supervision on the hot network Test.
【技术实现步骤摘要】
一种有效的网络热点监测系统
本专利技术创造涉及舆情监控领域,具体涉及一种有效的网络热点监测系统。
技术介绍
随着社会的发展,科技的进步,人类步入了飞速发展的互联网时代,各种各样的资源以互联网为载体进行汇聚、整合,形成了一个庞大的信息库。因为网络的传播是自由的、开放的,每个人都有机会成为网络信息的发布者,因此更能直接、真实、全面地反映民众的观点和态度,但是正是网上发表言论的自由性和无限制性,使得舆情很大程度上取决于网民的情绪状态等非主观因素,因此,为了保证舆论的正确导向,同时便于了解当今网民较为关注的热点领域,对网络舆情的监测有着重要的现实意义。
技术实现思路
针对上述问题,本专利技术旨在提供一种有效的网络热点监测系统。本专利技术创造的目的通过以下技术方案实现:一种有效的网络热点监测系统,包括信息采集模块、舆情预处理模块、舆情分析模块和管理模块,所述信息采集模块用于对网络上的舆情信息进行采集,获取网页数据,所述舆情预处理模块用于对获取的网页数据进行噪声处理以及中文分词,所述舆情分析模块用于从所述中文分词结果中提取网页的特征项并计算所述特征项的权重,从而进行网页主题的划分 ...
【技术保护点】
一种有效的网络热点监测系统,其特征是,包括信息采集模块、舆情预处理模块、舆情分析模块和管理模块,所述信息采集模块用于对网络上的舆情信息进行采集,获取网页数据,所述舆情预处理模块用于对获取的网页数据进行噪声处理以及中文分词,所述舆情分析模块用于从所述中文分词结果中提取网页的特征项并计算所述特征项的权重,进而进行网页主题的划分,所述管理模块用于对采集得到的文档进行存储,并向用户显示系统的监测结果。
【技术特征摘要】
1.一种有效的网络热点监测系统,其特征是,包括信息采集模块、舆情预处理模块、舆情分析模块和管理模块,所述信息采集模块用于对网络上的舆情信息进行采集,获取网页数据,所述舆情预处理模块用于对获取的网页数据进行噪声处理以及中文分词,所述舆情分析模块用于从所述中文分词结果中提取网页的特征项并计算所述特征项的权重,进而进行网页主题的划分,所述管理模块用于对采集得到的文档进行存储,并向用户显示系统的监测结果。2.根据权利要求1所述的一种有效的网络热点监测系统,其特征是,所述管理模块包括信息存储单元和信息显示单元,所述信息存储单元用于根据主题划分结果对采集得到的文档进行分类存储,所述信息显示单元用于向用户显示系统的监测结果。3.根据权利要求2所述的一种有效的网络热点监测系统,其特征是,所述舆情分析模块包括网页表示单元和主题划分单元,所述网页表示单元用于从所述中文分词结果中提取能够反映网页主题的特征项并计算所述特征项的权重,所述主题划分单元用于根据计算所得的相似性系数进行采集得到的网页的主题的划分。4.根据权利要求3所述的一种有效的网络热点监测系统,其特征是,所述网页表示单元用于从所述中文分词结果中提取能够反映网页主题的特征项并计算所述特征项的权重,具体包括:(1)定义采集得到的网页中类别为Lk(1≤k≤u)的文本有{ck1,ck2,……ckr},则采用一种改进的信息增益计算方法进行特征项ti的选择,具体为:式中,p(ti)为特征词ti出现的概率,则为ti不出现的概率,P(ti|Li)为特征词ti存在的文本属于Lk类的概率,为ti不存在的文本属于Lk类的概率,u为类别数,p(Lk)为Lk类文本出现的概率,c(ti,Lk)为Lk类文本出现的特征项ti的次数,为特征项ti在采集得到的网页中出现次数的平均数;将所得的特征词的信息增益值按从大到小的顺序进行排列,...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:上海喆之信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。