新闻舆情监测系统技术方案

技术编号:11975998 阅读:114 留言:0更新日期:2015-08-31 02:06
本发明专利技术公开了一种新闻舆情监测系统,该系统包括新闻信息采集模块、新闻数据预处理模块、新闻舆情分析模块和新闻舆情结果显示模块;所述新闻数据预处理模块包括:初步过滤子模块、正文提取子模块、分词子模块、特征短语过滤子模块、文本情感倾向性分析子模块、图片分析子模块、以及舆情热度获取子模块;针对新闻数据预处理模块预处理后的数据,通过分布式的云计算方式,使用多种新闻舆情监测算法子模块来获取新闻舆情热点,并对获取的新闻舆情热点进行综合判断分类评估,从而实现对新闻舆情热点话题较高效、准确的监测。

【技术实现步骤摘要】
新闻舆情监测系统
本专利技术涉及互联网信息处理
,具体来讲,涉及一种新闻舆情监测系统。
技术介绍
随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的情感、态度、意见、言论或观点,其主要通过论坛BBS上的发帖评论及跟贴、博客Blog等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。由于网络的开放性,会导致网络舆情形成迅速,对社会影响巨大。特别是当出现负面的网络新闻舆情时,若不能及时了解、有效引导,很容易形成舆论危机,严重时甚至影响公共安全。对网络新闻舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对网络新闻舆情观点进行收集具有相当重要的意义,在一个热点事件的发展过程中网民观点起着至关重要的作用,甚至可以被本文档来自技高网...
新闻舆情监测系统

【技术保护点】
一种新闻舆情监测系统,该系统包括新闻信息采集模块(1)、新闻数据预处理模块(2)、新闻舆情分析模块(3)和新闻舆情结果显示模块(4),其中新闻信息采集模块(1)用于对互联网上的新闻舆情信息进行采集,获取新闻数据;新闻数据预处理模块(2)用于将新闻信息采集模块(1)获取的新闻数据中的无用信息去除,并对去除了无用信息的所述新闻数据进行必要的整理;新闻舆情分析模块(3)以新闻数据预处理模块(2)整理的新闻数据为基础,采用多个新闻热点发现子模块发现新闻舆情热点;新闻舆情结果显示模块(4)以图表或报告形式输出新闻舆情分析结果,实现用户交互功能。

【技术特征摘要】
1.一种新闻舆情监测系统,该系统包括新闻信息采集模块(1)、新闻数据预处理模块(2)、新闻舆情分析模块(3)和新闻舆情结果显示模块(4),其中新闻信息采集模块(1)用于对互联网上的新闻舆情信息进行采集,获取新闻数据;新闻数据预处理模块(2)用于将新闻信息采集模块(1)获取的新闻数据中的无用信息去除,并对去除了无用信息的所述新闻数据进行整理;新闻舆情分析模块(3)以新闻数据预处理模块(2)整理的新闻数据为基础,采用多个新闻热点发现子模块发现新闻舆情热点;新闻舆情结果显示模块(4)以图表或报告形式输出新闻舆情分析结果,实现用户交互功能;所述新闻信息采集模块(1)用于根据指定的关键词、来源URL或信息主题,使用基于链接分析的搜索引擎网络爬虫方法,通过多线程下载队列并发地自动采集多种类型的新闻舆情信息;其中,所述多种类型的新闻舆情信息至少包括新闻的文本信息和/或图片信息;并且所述新闻数据预处理模块(2)包括:初步过滤子模块(2a)、正文提取子模块(2b)、分词子模块(2c)、特征短语过滤子模块(2d)、文本情感倾向性分析子模块(2e)、图片分析子模块(2f)和舆情热度获取子模块(2g);所述初步过滤子模块(2a),用于对新闻数据中的信息进行初步过滤,清除所述新闻数据中的噪声,对每条新闻数据进行以下处理:步骤2a-1,对于每条新闻数据,按照标题进行语义分析,检测出网络中与该条新闻数据相似的所有新闻数据,得到该条新闻数据的相似组;如果未发现与该条新闻数据相似的新闻数据,则该条新闻数据的相似组为其本身;步骤2a-2,对于每条新闻数据,将网络中所有位置出现的该条新闻数据的相似组中所有新闻数据的总数量除以发布该条新闻数据的相似组中所有新闻数据的网络地址的总数量,得到该条新闻数据的空间重复度值S1;步骤2a-3,对于每条新闻数据,计算网络中出现的该条新闻数据的相似组中所有新闻数据的总数量,得到该条新闻数据的时间重复度值S2;步骤2a-4,根据每条新闻数据的空间重复度值S1和时间重复度值S2计算该条新闻数据的综合重复度值S,并进行阈值判断,如果所述综合重复度值S超过阈值,则过滤掉该条新闻数据及其相似组;其中,所述综合重复度值S通过以下公式计算:S=(log2(S1+50))1/2+(log2(S2+20))1/2+((lgS1)*(lgS2))1/4。2.根据权利要求1所述的新闻舆情监测系统,其特征在于:所述正文提取子模块(2b),用于在所述初步过滤子模块(2a)处理后的新闻数据中,提取对新闻舆情分析有用的新闻正文部分的信息,对新闻正文部分进行重构,将具有主题代表性的新闻信息聚集在一起;所述分词子模块(2c),用于对所述正文提取子模块(2b)处理后的新闻数据进行分词处理、过滤停用词、命名实体识别、语法解析、词性标注、情感识别、特征词提取、以及特征短语提取,建立正序索引和倒序索引;并根据词的语法属性、词性属性、情感属性解析出词语的倾向性、主题属性和情感属性。3.根据权利要求2所述的新闻舆情监测系统,其特征在于:所述特征短语过滤子模块(2d),用于对所述分词子模块(2c)处理后的新闻数据中的特征短语进行过滤筛选,包括以下步骤:步骤2d-1,对特征短语进行去重,包括:记录新闻的文本中出现的重复性特征短语以及其出现的次数,过滤掉出现频率低于重复阈值的重复性特征短语和长度低于重复阈值的重复性特征短语;步骤2d-2,对特征短语进行分组,包括:计算每个特征短语与其他特征短语之间的相似度值,将相似度值高于相似度阈值的特征短语分入相同的组;如果一个特征短语与所有其他特征短语之间的相似度值都为0,则将该特征短语过滤掉;具体地,选择以下三个步骤中之一来计算两个特征短语X、Y的相似度值Sims(X,Y),然后进行特征短语分组:步骤2d-2-1:首先,所述特征短语X、Y的相似度值Sims(X,Y)为两个特征短语X、Y之间的相同字符的数量;其次,如果Sims(X,Y)>阈值TD1,则将特征短语Y分入特征短语X所在的组;步骤2d-2-2:首先,假设同时出现特征短语X、Y的句子的数量为sum(XY);仅出现特征短语X,不出现特征短语Y的句子的数量为sum(X);仅出现特征短语Y,不出现特征短语X的句子的数量为sum(Y);此时,特征短语X、Y的相似度值Sims(X,Y)计算公式如下:Sims(X,Y)=log2(sum(XY))/log2(sum(X))+log2(sum(XY))/log2(sum(Y));其次,如果Sims(X,Y)>阈值TD2,则将特征短语Y分入特征短语X所在的组;步骤2d-2-3:假设两个特征短语X、Y中包括字符的个数分别为m和n,令k取m、n中...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:成都布林特信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1