一种基于时间流的计算新闻事件动态影响力的方法与系统技术方案

技术编号:14277569 阅读:66 留言:0更新日期:2016-12-24 20:22
本发明专利技术公开了一种基于时间流的计算新闻事件动态影响力的方法与系统,从不同的新闻网站获取对同一事件的报道,并且同时获取每个网站对该事件的浏览量、评论量以及对应的浏览、评论时间,报道该事件的网站的等级,以及对应事件的类别。依据给出的数据,计算每个事件基于时间流的动态影响力。由于此方法中的需求数据容易获取,相比于其他计算事件影响力的方法,在实施方式上非常的简单,实施效率也非常的高,并且选取的数据不仅非常的合理而且计算的方式也非常的易于理解。

【技术实现步骤摘要】

本专利技术涉及互联网领域,尤其涉及互联网上新闻事件报道领域,具体是一种基于时间流的计算新闻事件动态影响力的方法与系统
技术介绍
随着互联网的不断发展,人们每天都会接触到许多的新闻事件,但是大多数人比较关心的还是那些影响比较大的事件,这就对如何计算新闻事件的影响力有了很大的要求,计算出的影响力要能正确的反映该事件的影响。如何衡量新闻事件的影响力是目前学术界和工业界都非常普遍关心的问题。对于同一个新闻事件,不同的网站有不同的计算方法,有的只是单纯的人工标注,当标注人员认为该事件会造成很大的影响的时候他就会将此事件认定为影响力巨大,反之很小。这种方法只是个人的思维,并没有考虑到一般普通大众的对此事件的看法。另外还有许多其他的方法来评价事件的影响力,但是或多或少会有一定的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于时间流的计算新闻事件动态影响力的方法与系统,能够基于事件的发展动态的计算事件的影响力,计算的结果更符合大众的认知逻辑。本专利技术的目的是通过以下技术方案来实现的:一种基于时间流的计算新闻事件动态影响力的方法,该方法包括以下步骤,S1.确定需要抓取的目标新闻网站;S2.从权威的网站等级评价处获取目标网站的综合排名,并且将网站的排名单独建一个表存放在数据库中,将目标新闻网站的等级作为新闻事件的一个特征;S3.爬取目标网站的新闻事件,将爬取的新闻事件建立相对应的表并将数据存放在数据库中;S4.从数据库中取出爬取的新闻事件并进行相关停用词的去除,清洗掉与新闻事件无关的信息;S5.对清洗后的每个网站的每个新闻事件进行编号,并进行相同事件的聚类,得到相同事件的列表和报道该新闻事件的网站;S6.获取相同事件列表后,确定计算新闻事件动态影响力的时间段T;S7.确定获取的新闻事件的类别,将新闻事件的类别作为新闻事件的一个特征;S8.从数据库中获取相同事件列表中每个事件在时间段T内对应的评论数、浏览数、评论时间、浏览时间和该时间段中报道该事件的网站对应的评论数、浏览数、评论时间、浏览时间;将时间段T内的该网站浏览该新闻事件的数量与该时间段T内该网站的总的浏览数量的比值作为新闻事件的一个特征,将时间段T内的该网站评论该新闻事件的数量与该时间段T内该网站的总的评论数量的比值作为新闻事件的一个特征;S9.确定新闻事件每个特征对应的权重;S10.按照特征对应的权重计算新闻事件的动态影响力,计算公式如下: E inf l u e n c e = C m * Σ i = 1 n rank i * ( 0.4 * browse i allbrowse i + 0.6 * comment i allcomment i ) ]]>其中,n为网站数目,n个网站归一化后的权重为rank1,rank2…rankn,Cm为时间类别对应的权重,其中m为1、2、3其中的一个,选取的时间段T为一天,在这一天的时间段中,n个网站对该事件在一天时间段内的评论量及浏览量分别为(comment1,browse1)、(comment2,browse2)…(commentn,browsen),对应的该网站在该时间段总的评论量及浏览量为(allcomment1,allbrowse1)、(allcomment2,allbrowse2)…(allcommentn,allbrowsen)。新闻事件类别分为三种,一种是该事件被认定是公共新闻事件,另外一种是初始状态是小事件,随着事件的发展,慢慢变成公众非常关心的事件,还一种为初始状态是小事件,不会持续太长的时间,也不会有后续的事件发酵。在爬取目标网站的新闻事件时,每个新闻事件的爬取内容应包括:A.该目标网站报道该新闻的时间;B.该目标网站报道对该新闻事件的评论量以及每条评论的时间;C.该目标网站报道对该新闻事件的浏览量以及每次的浏览时间。对所有的新闻进行相同事件的聚类的步骤如下:S501:对每条新闻内容进行分词;S502:将分词后的结果使用LDA模型得出每个新闻的主题分布;S503:使用KL散度计算新闻事件之间的相似性;S504:当新闻事件的KL散度大于设定的阀值的时候,归结为同一事件。一种基于时间流的计算新闻事件动态影响力的系统,它包括:新闻事件的获取模块,获取目标网站的新闻事件;数据存储模块,存储爬取的新闻事件和在数据处理过程中产生的相关结果;数据清洗模块,从数据库中获取已经爬取的数据并进行相关的清洗;事件聚类模块,对清洗后的新闻事件进行相同事件的聚类;影响力计算模块,将聚类后的相同的新闻事件进行基于时间流的新闻事件动态影响力的计算。本专利技术的有益效果是:本专利技术提供了一种基于时间流的计算新闻事件动态影响力的方法与系统,能够基于事件的发展动态的计算事件的影响力,计算的结果更符合大众的认知逻辑,系统能够快速的计算事件的动态影响力,为广大用户推荐当前影响力最大的新闻事件,为新闻事件的传播提供了强有力的支持。附图说明图1为基于时间流的计算事件动态影响力的方法流程图;图2为基于时间流的计算事件动态影响力的系统框架图。具体实施方式下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。一种基于时间流的计算新闻事件动态影响力的方法,该方法包括以下步骤,S1.确定需要抓取的目标新闻网站;S2.从权威的网站等级评价处获取目标网站的综合排名,并且将网站的排名单独建一个表存放在数据库中,将目标新闻网站的等级作为新闻事件的一个特征,依据权威的网站测评机构给出的网站排名,当获取到所有的目标网站的排名的时候,对所有的排名进行一个归一化的计算,确定该网站在目标网站中的排名得分,也就是该特征的权重;S3.爬取目标网站的新闻事件,将爬取的新闻事件建立相对应的表并将数据存放在数据库中;S4.从数据库中取出爬取的新闻事件并进行相关停用词的去除,清洗掉与新闻事件无关的信息,提高相同事件的聚类的准确率;S5.对清洗后的每本文档来自技高网...
一种基于时间流的计算新闻事件动态影响力的方法与系统

【技术保护点】
一种基于时间流的计算新闻事件动态影响力的方法,其特征在于:该方法包括以下步骤,S1.确定需要抓取的目标新闻网站;S2.从权威的网站等级评价处获取目标网站的综合排名,并且将网站的排名单独建一个表存放在数据库中,将目标新闻网站的等级作为新闻事件的一个特征;S3.爬取目标网站的新闻事件,将爬取的新闻事件建立相对应的表并将数据存放在数据库中;S4.从数据库中取出爬取的新闻事件并进行相关停用词的去除,清洗掉与新闻事件无关的信息;S5.对清洗后的每个网站的每个新闻事件进行编号,并进行相同事件的聚类,得到相同事件的列表和报道该新闻事件的网站;S6.获取相同事件列表后,确定计算新闻事件动态影响力的时间段T;S7.确定获取的新闻事件的类别,将新闻事件的类别作为新闻事件的一个特征;S8.从数据库中获取相同事件列表中每个事件在时间段T内对应的评论数、浏览数、评论时间、浏览时间和该时间段中报道该事件的网站对应的评论数、浏览数、评论时间、浏览时间;将时间段T内的该网站浏览该新闻事件的数量与该时间段T内该网站的总的浏览数量的比值作为新闻事件的一个特征,将时间段T内的该网站评论该新闻事件的数量与该时间段T内该网站的总的评论数量的比值作为新闻事件的一个特征;S9.确定新闻事件每个特征对应的权重;S10.按照特征对应的权重计算新闻事件的动态影响力,计算公式如下:Einfluence=Cm*Σi=1nranki*(0.4*browseiallbrowsei+0.6*commentiallcommenti)]]>其中,n为网站数目,n个网站归一化后的权重为rank1,rank2…rankn,Cm为时间类别对应的权重,其中m为1、2、3其中的一个,选取的时间段T为一天,在这一天的时间段中,n个网站对该事件在一天时间段内的评论量及浏览量分别为(comment1,browse1)、(comment2,browse2)…(commentn,browsen),对应的该网站在该时间段总的评论量及浏览量为(allcomment1,allbrowse1)、(allcomment2,allbrowse2)…(allcommentn,allbrowsen)。...

【技术特征摘要】
1.一种基于时间流的计算新闻事件动态影响力的方法,其特征在于:该方法包括以下步骤,S1.确定需要抓取的目标新闻网站;S2.从权威的网站等级评价处获取目标网站的综合排名,并且将网站的排名单独建一个表存放在数据库中,将目标新闻网站的等级作为新闻事件的一个特征;S3.爬取目标网站的新闻事件,将爬取的新闻事件建立相对应的表并将数据存放在数据库中;S4.从数据库中取出爬取的新闻事件并进行相关停用词的去除,清洗掉与新闻事件无关的信息;S5.对清洗后的每个网站的每个新闻事件进行编号,并进行相同事件的聚类,得到相同事件的列表和报道该新闻事件的网站;S6.获取相同事件列表后,确定计算新闻事件动态影响力的时间段T;S7.确定获取的新闻事件的类别,将新闻事件的类别作为新闻事件的一个特征;S8.从数据库中获取相同事件列表中每个事件在时间段T内对应的评论数、浏览数、评论时间、浏览时间和该时间段中报道该事件的网站对应的评论数、浏览数、评论时间、浏览时间;将时间段T内的该网站浏览该新闻事件的数量与该时间段T内该网站的总的浏览数量的比值作为新闻事件的一个特征,将时间段T内的该网站评论该新闻事件的数量与该时间段T内该网站的总的评论数量的比值作为新闻事件的一个特征;S9.确定新闻事件每个特征对应的权重;S10.按照特征对应的权重计算新闻事件的动态影响力,计算公式如下: E inf l u e n c e = C m * Σ i = 1 n rank i * ( 0.4 * browse i allbrowse i + 0.6 * ...

【专利技术属性】
技术研发人员:陈雁韩修龙代臻李平孙先胡栋赵刚郭培伦彭欣宇陈凯琪杨先凤朱鹏军刘婷
申请(专利权)人:西南石油大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1