基于信息检索的互联网新闻影响力定量分析工具及方法技术

技术编号:3543236 阅读:287 留言:0更新日期:2012-04-11 18:40
一种基于信息检索的互联网新闻影响力定量分析工具,其特征在于,包括: 网页内容判重模块,接收网页内容用于判断网页是否为近似网页; 信息提取模块,接收近似网页信息,从近似网页中抽取后续计算需要的相关信息; 新闻转载率计算模块: 接收信息提取模块中提取到的相关信息,计算转载网站的权威度值,之后把权威度最高的那个网站作为新闻的源网站,并把此网站的权威度值作为新闻转载率; 新闻信源网站影响力确定模块:用于判断新闻源网站的人气指数CIIS值,并把此指数归一化之后作为 新闻信源网站影响力因子; 新闻回复率计算模块:用于确定网络新闻的回复率; 新闻影响力计算模块:用于通过以上模块得到的网络新闻转载率值、新闻信源网站的影响力因子值和新闻回复率值计算新闻影响力值。

【技术实现步骤摘要】

本专利技术涉及网络信息内容安全领域,具体地说是涉及网络信息 内容安全领域中网络新闻影响力分析的实现方法。
技术介绍
作为一种新兴的信息传播的方式,网络新闻会对社会稳定产生10 很大的影响。新闻舆论监督的勃兴,肇始于美国大法官斯特瓦特创 设的第四权力理论。所谓的第四权力就是指新闻舆论。事实 上,它不是国家权力,但随着新闻媒体在社会政治、经济、文化生 活中的作用日益增强而变得越来越重要,发挥着重要影响力。因而 确定新闻的影响力对把握社会舆论的动向,从而确定新闻对社会安15 全的影响具有重要意义。在此之前,对网络新闻的分析主要为社会科学领域进行的一些 定性分析,没有一个定量的工具来验证定性分析的正确性。因而我 们提出了一种借助于信息检索的相关技术,获取相关的信息,对新 闻影响力进行定量分析的方法。20 此方法主要是通过对网页进行判重处理以及提取网页中的相 关信息。然后利用这些信息判断互联网新闻影响力。主要思路为 第一步,对新闻网页进行去噪,提取内容块,然后对其进行相似性 判断。如果判断为重复网页则提取网页相关信息并记录重复信息, 以备以后计算时使用。第二步,对新闻网页进行信息提取,并利用25 提取的信息和上步中得到的重复信息进行认可率计算。第三,将中 国互联网指数系统对新闻的源网站的CIIS值进行归一化之后作为 新闻影响力判断的一个比例因子。第四,根据新闻转载网站之间的链接关系,利用HITS算法对新闻源网站进行权威度计算,最终对 以上信息进行综合计算得出新闻的影响力。
技术实现思路
5 为了解决现有技术对网络新闻的分析主要为社会科学领域进 行的一些人为的定性分析,没有一个定量的工具来验证定性分析的 正确性的缺陷,本专利技术的目的在于提供一种基于信息检索技术、有 效衡量互联网新闻影响力的定量分析工具或称为装置及方法,衡量 新闻影响力结果与用户的定性分析相结合,可以帮助用户对新闻影 10 响力大小进行有效的判断。为了实现所述目的,本专利技术一方面,提供一种基于信息检索技 术的互联网新闻影响力定量分析工具,包括网页内容判重模块,用于判断网页是否为近似网页;信息提取模块,接收近似网页信息,从近似网页中抽取后续计15算需要的相关信息;新闻转载率计算模块接收信息提取模块中提取到的相关信 息,计算转载网站的权威度值,之后把权威度最高的那个网站作为 新闻的源网站,并把此网站的权威度值作为新闻转载率;新闻信源网站影响力确定模块用于判断新闻源网站的人气指 20 数CIIS值,并把此指数归一化之后作为新闻信源网站影响力因子; 新闻回复率计算模块用于确定网络新闻的回复率; 新闻影响力计算模块用于通过以上模块得到的网络新闻转载 率值、新闻信源网站的影响力因子值和新闻回复率值计算新闻影响 力值。25 根据本专利技术的实施例,所述网页内容判重模块对整篇文档采用MD5散列值方法判重,如果文档完全一致,则直接确定网页之 间的转载关系;如果文档并不完全一致,则进一步采用基于网页主体内容间的相似程度来判断他们是否为近似网页。根据本专利技术的实施例,相关信息提取模块还包括网页重复转载信息提取模块如果判定两个网页为相似网页, 则由此模块提取转载重复信息;主要是源网站以及转载网站之间的 关系,包括直接转载和间接转载关系;网页回复信息提取模块用于提取源网站与转载网站中对新闻 5的回复次数,然后去除相似网页。根据本专利技术的实施例,新闻转载率计算模块利用相关信息提 取模块中提取到的新闻转载网站之间的关系,利用HITS算法,计 算转载网站的权威度值;计算之后将入链最多的那个网站作为新闻的源网站,并将此网站的权威度值作为新闻转载率。10 根据本专利技术的实施例,新闻信源网站影响力确定模块用于判断新闻源网站的人气指数cns值,并把此指数归一化之后作为新闻信源网站影响力因子。根据本专利技术的实施例,所述新闻回复率计算模块,在浏览网页 之后,根据新闻回复次数的相对数量总结一个回复率表,通过査找15 表中对应范围的回复率作为新闻的回复率。根据本专利技术的实施例,所述新闻影响力计算模块,用于利用网 页内容判重模块、信息提取模块、新闻转载率计算模块、新闻信源 网站影响力确定模块、新闻回复率计算模块得到的数据计算新闻影 响力为<formula>formula see original document page 7</formula>其中,NF为新闻的影响力;Ws为新闻信源网站的影响力因子;Tmns为新闻转载率;Rep为新闻回复率;D(C)为新闻发布时间 与它的影响力之间的关系;a=0.8; b=0.2。25 为了实现所述目的,本专利技术另一方面,提供一种基于信息检索技术的互联网新闻影响力定量分析方法,包括步骤如下(1) 根据网页内容判断网页是否为转载或者重复网页;(2) 提取重复网页中的相关信息;(3) 计算新闻网页转载率;(4) 计算新闻信源网站的影响力;(5) 计算新闻回复率;(6) 使用上述步骤所得数据计算新闻影响力。 根据本专利技术的实施例,所述新闻网页转载率计算步骤还包括-5利用HITS算法,利用HITS算法是把一个转载网站作为一个节点,网站之间存在的转载关系和原来算法中的hllb属性相对应,计算转载网站的权威度值;计算之后把入链最多的那个网站作为新闻的源网站,并把求得源网站的权威度值作为新闻转载率。根据本专利技术的实施例,所述新闻信源网站的影响力计算步骤还10 包括利用中国互联网指数系统中的网站人气指数(CIIS值),确定对应信源网站的人气指数,然后归一化之后作为新闻信源网站的 影响力因子。本专利技术提供了一种基于信息检索技术的互联网新闻影响力定 量分析工具装置及方法,本专利技术的计算可以得到一个对网络新闻影15响力的定量评估,通过把此定量分析结果与人为定性分析结果进行 比较,可以有效判断网络新闻影响力大小。本专利技术解决了现有技术 对网络新闻的分析主要为社会科学领域进行的一些人为的定性分 析,没有一个定量的工具来验证定性分析的正确性的缺陷,有效衡 量新闻影响力的定量分析,衡量新闻影响力的结果与用户的定性分20 析相结合,可以帮助用户对新闻影响力大小进行有效的判断。附图说明图1是本专利技术的原理示意图; 图2是本专利技术中相关信息提取模块框图; 25 图3是本专利技术方法的实施例流程图4是本专利技术方法的实施例的回复人次规律统计; 图5是本专利技术时间因素对新闻影响力影响曲线图。具体实施方式下面结合附图对本专利技术作进一步详细的描述。为了能够有效的确定新闻影响力,我们充分利用了新闻网页的 一些特性。我们通过判重处理发现新闻网页的转载或者相似网页, 然后抽取其中的转载信息和回复信息,并计算得到新闻的转载率和 5回复率,最后利用新闻信源网站的CIIS值作为最终的比例因子, 利用公式计算得到新闻的影响力。以图l为例本专利技术系统的结构包括网页内容判重模块1:对整篇文档进行MD5方法判重,如果 文档完全一致,则直接确定网页之间的转载关系。如果文档并不完 10 全一致,则进一步采用基于网页主体内容间的相似程度来判断他们 是否为近似网页。如图2所示信息提取模块2还包括网页重复信息提取模块21:如果判定两个网页为相似网页, 则由此模块提取重复信息。主要是源网站以及转载网站之间的关 15系。包括直接转载和间接转载关系。网页回本文档来自技高网...

【技术保护点】
一种基于信息检索的互联网新闻影响力定量分析工具,其特征在于,包括: 网页内容判重模块,接收网页内容用于判断网页是否为近似网页; 信息提取模块,接收近似网页信息,从近似网页中抽取后续计算需要的相关信息; 新闻转载率计算模块:接收信息提取模块中提取到的相关信息,计算转载网站的权威度值,之后把权威度最高的那个网站作为新闻的源网站,并把此网站的权威度值作为新闻转载率; 新闻信源网站影响力确定模块:用于判断新闻源网站的人气指数CIIS值,并把此指数归一化之后作为新闻信源网站影响力因子; 新闻回复率计算模块:用于确定网络新闻的回复率; 新闻影响力计算模块:用于通过以上模块得到的网络新闻转载率值、新闻信源网站的影响力因子值和新闻回复率值计算新闻影响力值。

【技术特征摘要】
1、一种基于信息检索的互联网新闻影响力定量分析工具,其特征在于,包括网页内容判重模块,接收网页内容用于判断网页是否为近似网页;信息提取模块,接收近似网页信息,从近似网页中抽取后续计算需要的相关信息;新闻转载率计算模块接收信息提取模块中提取到的相关信息,计算转载网站的权威度值,之后把权威度最高的那个网站作为新闻的源网站,并把此网站的权威度值作为新闻转载率;新闻信源网站影响力确定模块用于判断新闻源网站的人气指数CIIS值,并把此指数归一化之后作为新闻信源网站影响力因子;新闻回复率计算模块用于确定网络新闻的回复率;新闻影响力计算模块用于通过以上模块得到的网络新闻转载率值、新闻信源网站的影响力因子值和新闻回复率值计算新闻影响力值。2、 根据权利要求1所述的互联网新闻影响力定量分析工具, 其特征在于所述网页内容判重模块对整篇文档采用MD5散列 值方法判重,如果文档完全一致,则直接确定网页之间的转载关系;如果文档并不完全一致,则进一步采用基于网页主体内容间的相似 程度来判断他们是否为近似网页。3、 根据权利要求l所述的互联网新闻影响力定量分析工具,其特征在于相关信息提取模块还包括 25 网页重复信息提取模块如果判定两个网页为相似网页,则由此模块提取转载重复信息;主要是源网站以及转载网站之间的关 系,包括直接转载和间接转载关系;网页回复信息提取模块用于提取源网站与转载网站中对新闻 的回复次数,然后去除转载或相似的网页。4、 根据权利要求l所述的互联网新闻影响力定量分析工具, 其特征在于新闻转载率计算模块利用相关信息提取模块中提取 到的新闻转载网站之间的关系,利用HITS算法,计算转载网站的 权威度值;计算之后将入链最多的那个网站作为新闻的源网站,并将此网站的权威度值作为新闻转载率。5、 根据权利要求l所述的互联网新闻影响力定量分析工具,其特征在于新闻信源网站影响力确定模块用于判断新闻源网站 ...

【专利技术属性】
技术研发人员:杨伟杰戴汝为崔霞王春恒
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1