一种热点信息挖掘方法和系统技术方案

技术编号:9198211 阅读:162 留言:0更新日期:2013-09-26 02:24
本发明专利技术实施方式提出了一种热点信息挖掘方法和系统。方法包括:根据信息网页源的访问次数计算信息网页源之间的相对热度值;根据信息网页源的相对热度值计算每个转载信息在转载有该转载信息的信息网页源中的转载权重;对每个转载信息在各个信息网页源中的转载权重进行求和,计算出每个转载信息的信息热度值,并按照信息热度值大小顺序从各个转载信息中确定出热点信息。本发明专利技术实施方式可以从整个互联网中基于转载信息的信息热度值自动生成热点信息,因此能够提高信息推送效率,节省人工并降低成本,而且可以动态淘汰劣质网站,强化优质网站,使得挖掘质量不断优化。

【技术实现步骤摘要】
一种热点信息挖掘方法和系统
本专利技术实施方式涉及互联网应用
,更具体地,涉及一种热点信息挖掘方法和系统。
技术介绍
随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。人们习惯于通过门户网站、新闻搜索网站等多种途径获知网络新闻。网络新闻是以网络为载体的新闻,具有快速、多面化、多渠道、多媒体、互动等特点。网络新闻是突破传统的新闻传播概念,在视、听、感方面给受众全新的体验。它将无序化的新闻进行有序的整合,并且大大压缩了信息的厚度,让人们在最短的时间内获得最有效的新闻信息。不仅如此,未来的网络新闻将不再受传统新闻发布者的限制,受众可以发布自己的新闻,并在短时间内获得更快的传播,而且新闻将成为人们互动交流的平台。网络新闻将随着人们认识的提高向着更深的层次发展,这将完全颠覆网络新闻的传统概念。目前,大部分门户网站,或者新闻搜索网站都会选一些热点信息放在首页,以引导用户阅读。比如,一些门户网站会将新闻分类,分为国内、国际、娱乐等分类,然后在这些分类中提供热门新闻以引导用户阅读。然而,这样的热点信息一般是通过编辑人工选择的,或者本文档来自技高网...
一种热点信息挖掘方法和系统

【技术保护点】
一种热点信息挖掘方法,其特征在于,该方法包括:根据信息网页源的访问次数计算信息网页源之间的相对热度值;根据信息网页源的相对热度值计算每个转载信息在转载有该转载信息的信息网页源中的转载权重;对每个转载信息在各个信息网页源中的转载权重进行求和,计算出每个转载信息的信息热度值,并按照所述信息热度值大小顺序从所述转载信息中确定出热点信息。

【技术特征摘要】
1.一种热点信息挖掘方法,其特征在于,该方法包括:根据信息网页源的访问次数计算信息网页源之间的相对热度值;根据信息网页源的相对热度值计算每个转载信息在转载有该转载信息的信息网页源中的转载权重;其中,信息网页源的相对热度值越高,转载信息在所述信息网页源的转载权重越大;对每个转载信息在各个信息网页源中的转载权重进行求和,计算出每个转载信息的信息热度值,并按照所述信息热度值大小顺序从所述转载信息中确定出热点信息。2.根据权利要求1所述的热点信息挖掘方法,其特征在于,该方法进一步包括:根据每个转载信息的发布时间确定时间因子,并利用所述时间因子对每个所述信息热度值进行修正。3.根据权利要求1所述的热点信息挖掘方法,其特征在于,该方法进一步包括:基于文本特征的相似度算法从各个信息网页源中确定出所述转载信息。4.根据权利要求1所述的热点信息挖掘方法,其特征在于,所述根据信息网页源的访问次数计算信息网页源之间的相对热度值为:针对第k个信息网页源,计算其相对热度值SiteHotnessk,其中:其中norm为归一化系数;AccessCountk为第k个信息网页源的访问次数,K为所有信息网页源的集合。5.根据权利要求1所述的热点信息挖掘方法,其特征在于,所述计算信息热度值包括:针对第i个转载信息,计算其信息热度值NewsHotnessi;CitationHotnessk=g(SiteHotnessk);其中K是所有转载过该第i个转载信息的信息网页源的集合;PublishTime为该第i个转载信息的发布时间;f(PublishTime)为关于PublishTime的时间调权函数,CitationHotnessk为该第i个转载信息在第k个转载有该转载信息的信息网页源中的转载权重,g(SiteHotnessk)是关于SiteHotnessk的热度调权函数。6.根据权利要求1-5中任一项所述的热点信息挖掘方法,其特征在于,该方法进一步包括:展示从转载信息中确定出的所述热点信息。7.一种热点信息挖掘系统,其特征在于,该系统包括...

【专利技术属性】
技术研发人员:姚磊何军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1