一种网络舆情传播态势媒体联动分析方法技术

技术编号:13008164 阅读:130 留言:0更新日期:2016-03-10 21:57
本发明专利技术公开了一种网络舆情传播态势媒体联动分析方法,包括以下步骤:(1)网络信息收集和索引;(2)网站影响力的加权估算;(3)相关主题文章检索;(4)舆情联动趋势分析。本发明专利技术通过采集互联网信息,进行信息抽取和索引后,使用网站的历史影响力(原创性,阅读量、转载量、评论量以及网站存在时间等影响力指标)对检索出来的每个时间段出现的文章数量进行加权统计,实现了对舆情传播态势的联动分析。

【技术实现步骤摘要】

本专利技术涉及一种网络舆情传播态势媒体联动分析方法
技术介绍
根据CNNIC今年的最新统计,我国现已有网民6.49亿;手机网民规模达5.57亿,网站335万个,域名总数为2060万个。网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。因此,如何精准的预测网络舆情的传播态势去积极化解网络舆论危机显得越来越重要。目前已经有一些技术能够对网络舆情的传播态势进行分析和评估。其中有很大一部分是通过统计一定时期内相关的舆情事件或细化主题的相关信息传播扩散状况,如通过统计不同的统计期内相关主题的网页页面数量,从而形成在一段较长时间内连续的网页页面变化走势;还有部分是通过网页转载关系等单一因子来分析网络舆情传播态势的。不同厂家的业务背景在技术上形成了各自的特色,但普遍存在着一些明显的不足,主要体现在:1)单纯统计所有站点的网站页面总数量,即认为所有站点重要度相同,忽略了站点的影响力差异,导致统计结果无法客观反映出站点联动时不同站点的差异性。2)单纯的对新闻,论坛,微博进行独立分析,忽略了不同互联网媒体间的互动,无法进行不同媒体联动的舆情分析,为分析的结果带来了不准确性。
技术实现思路
本专利技术要解决的技术问题是提供一种网络舆情传播态势媒体联动分析方法。为了解决上述技术问题,本专利技术采用的技术方案是,一种网络舆情传播态势媒体联动分析方法,包括以下步骤:(1)网络信息收集和索引使用网络信息采集雷达采集网站发布的互联网信息,该信息通常为html格式,运用网页预处理算法对正文中的标题,发表时间,正文进行数据提取,并将抽取后的数据发送到索引模块,索引模块在对上述字段进行分词处理后,建立倒排索引,实现文本的检索;(2)网站影响力的加权估算基于上述采集数据,采用考虑原创性、阅读量、转载量、评论量的影响力指标对网站的影响力进行加权计算,对每个网站的综合影响力进行打分,该分数作为后续统计分析时的站点权重;其中:所述原创性指网站内容是指作者首创,非抄袭的内容;所述阅读量指网络用户对当前网站内容的浏览量;所述转载量指的是当前网站内容被转载的次数;所述评论量指网络用户对当前网站内容的评论数;(3)相关主题文章检索用户根据相应的关注主题设定相关的高级布尔查询表达式,系统根据用户设定的表达式进行信息检索,查询出所有和该主题有关的文章信息;(4)舆情联动趋势分析根据用户设定的统计时间间隔,计算出每个时间段文章加权总数量值的变化情况,即文章总数量由单篇文章的权重累加得出,然后对计算得到的权重值按照设定标准划分为四个层次,由低到高分别为无联动、弱联动、中级联动以及强联动,在坐标轴中绘制出统计坐标,横轴为时间轴,纵轴为文章加权数量值,每个坐标值表示在当前时间点和前一个时间点之间互联网中出现的相关文章的加权值,每个坐标值所在层为当前的联动级别。作为优选,步骤(1)中所述网页预处理算法包括以下步骤:对网页中的内容进行预处理时,会先创建一个预处理对象,预处理对象调用本地的自然语言解析脚本对网页中的正文进行信息预处理;所述的本地的自然语言解析脚本主要包含了对自然语言的噪音的过滤、信息的归约以及变换。本专利技术的有益效果是:通过采集互联网信息,进行信息抽取和索引后,使用网站的历史影响力(考虑原创性,阅读量、转载量、评论量以及网站存在时间等影响力指标)对检索出来的每个时间段出现的文章数量进行加权统计,实现了对舆情传播态势的联动分析。附图说明下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1是本专利技术实施例的流程图。图2是本专利技术实施例的索引倒排表结构。图3是运用现有的舆情态势分析方法(没有考虑到媒体差异)的舆情分析图。图4是本专利技术实施例的进行媒体(站点)联动分析的舆情分析图。具体实施方式如图1所示,一种网络舆情传播态势媒体联动分析方法的具体步骤如下:一、网页信息采集和索引该采集过程具体步骤如下:1、规划好要监测的网站,并将网站入口加入到监测队列中去。2、选取一个网站入口进行下载,抽取出相关正文URL后,将其放入到待下载队列中。3、从待下载队列中选取一个URL进行下载,完成后识别出相关的网页编码,并按照预先设定的模板进行标题、发文时间、作者、正文、点击数、回复数、是否转载等关键字段的抽取。4、将抽取后的标题、正文文本、时间、作者字段直接发送到索引模块。同时将站点名、点击数、评论数、是否转载字段信息发送到联动站点分析模块。索引过程具体步骤如下:1、接收到采集模块发送信息后,分词组件对标题和正文文本进行分词处理,把文档分词一个一个单独的词元,并去掉标点符号和停用词。2、语言处理组件对词元进行处理,对于英语,变成小写;单词变成词根形式。3、索引组件对处理后的词建立词典,对词典按字母顺序进行排序,并按照词->文档列表的结构建立倒排表。倒排表结构如图2所示(数字为文档编号)。二、站点影响力的加权估算该过程需完成对存储信息的统计分析,具体过程如下:1、分发模块接收到采集和索引模块发送的字段信息后,根据站点名将该信息发送到响应的站点统计模块。2、站点统计模块初始化页面总数量(N)、页面总点击数(C)、页面总转载量(Re)、页面总评论数(R)、原创数量(I)为0。接收到分发模块发送的页面信息后,执行累加操作如下:N=N+n,C=C+c,Re=Re+re,R=R+r,I=I+i。其中c、re、r、i、t分别为该页面的点击数量、转载数量、评论数量、是否原创(当为原创时,i为1,否则为0)。3、站点统计模块完成每个站点的影响力计算,包括计算单个页面的平均点击量(CR)、平均转载量(ReR)、平均评论量(RR)、平均原创比率(IR)。定义:CR=C/N,ReR=Re/N,RR=R/N,IR=I/N。4、对每个站点的平均点击量、平均转载量、平均评论量、平均原创比例进行归一化处理。具体方法如下:CR′=CR-minCRmaxCR-minCR*(new_maxCR-new_minCR)+new_minCR---(1)]]>ReR′=ReR-minReRmaxReR-minReR*(new_maxReR-new_minReR)+new_minReR---(2)]]>RR′=RR-minRRmaxRR-minRR*(new_maxRR-new_minRR)+new_minRR---(3)]]>IR′=IR-minIRmaxIR-minIR*(new_maxIR-new_min本文档来自技高网...
一种网络舆情传播态势媒体联动分析方法

【技术保护点】
一种网络舆情传播态势媒体联动分析方法,包括以下步骤:(1)网络信息收集和索引使用网络信息采集雷达采集网站发布的互联网信息,该信息通常为html格式,运用网页预处理算法对正文中的标题,发表时间,正文进行数据提取,并将抽取后的数据发送到索引模块,索引模块在对上述字段进行分词处理后,建立倒排索引,实现文本的检索;(2)网站影响力的加权估算基于上述采集数据,采用考虑原创性、阅读量、转载量、评论量的影响力指标对网站的影响力进行加权计算,对每个网站的综合影响力进行打分,该分数作为后续统计分析时的站点权重;其中:所述原创性指网站内容是指作者首创,非抄袭的内容;所述阅读量指网络用户对当前网站内容的浏览量;所述转载量指的是当前网站内容被转载的次数;所述评论量指网络用户对当前网站内容的评论数;(3)相关主题文章检索用户根据相应的关注主题设定相关的高级布尔查询表达式,系统根据用户设定的表达式进行信息检索,查询出所有和该主题有关的文章信息;(4)舆情联动趋势分析根据用户设定的统计时间间隔,计算出每个时间段文章加权总数量值的变化情况,即文章总数量由单篇文章的权重累加得出,然后对计算得到的权重值按照设定标准划分为四个层次,由低到高分别为无联动、弱联动、中级联动以及强联动,在坐标轴中绘制出统计坐标,横轴为时间轴,纵轴为文章加权数量值,每个坐标值表示在当前时间点和前一个时间点之间互联网中出现的相关文章的加权值,每个坐标值所在层为当前的联动级别。...

【技术特征摘要】
1.一种网络舆情传播态势媒体联动分析方法,包括以下步骤:
(1)网络信息收集和索引
使用网络信息采集雷达采集网站发布的互联网信息,该信息通常为html
格式,运用网页预处理算法对正文中的标题,发表时间,正文进行数据提取,
并将抽取后的数据发送到索引模块,索引模块在对上述字段进行分词处理后,
建立倒排索引,实现文本的检索;
(2)网站影响力的加权估算
基于上述采集数据,采用考虑原创性、阅读量、转载量、评论量的影响力
指标对网站的影响力进行加权计算,对每个网站的综合影响力进行打分,该
分数作为后续统计分析时的站点权重;
其中:
所述原创性指网站内容是指作者首创,非抄袭的内容;
所述阅读量指网络用户对当前网站内容的浏览量;
所述转载量指的是当前网站内容被转载的次数;
所述评论量指网络用户对当前网站内容的评论数;
(3)相关主题文章检索
用户根据相应的关注主题设定相关的高级布尔查询表达式,系统根据用户
设定的表达式进行信息检索,查询出所有和该主题有关的文章信息;
(4)舆情联动趋势分析
根据用户设定的统计时间间隔,计算出每个时间段文章加权总数量值的变
化情况,即文章总数量由单篇文章的权重累加得出,然后对计算得到的权重值
按照设定标准...

【专利技术属性】
技术研发人员:周银行胡淦郑中华
申请(专利权)人:安徽博约信息科技有限责任公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1