热点新闻生成方法、设备、电子设备技术

技术编号:16038203 阅读:22 留言:0更新日期:2017-08-19 20:02
本发明专利技术公开了一种热点新闻生成方法、设备、电子设备。该热点新闻生成方法包括:确定多篇新闻中的每篇新闻的时效参数,其中,所述时效参数表示该新闻的热度随着时间的流逝而降低;确定每篇新闻的内容热度参数,其中,所述内容热度参数是基于该新闻的内容确定的热度参数;以及基于所述时效参数和内容热度参数的加权和值,确定每篇新闻的热度参数,以生成热点新闻。根据本发明专利技术的一个实施例,可以考虑时效性和新闻内容的热度来确定新闻的热度。

【技术实现步骤摘要】
热点新闻生成方法、设备、电子设备
本专利技术涉及信息技术,更具体来说,涉及一种热点新闻生成方法、热点新闻生成设备和电子设备。
技术介绍
热点新闻是用户所关注的资讯。内容提供商可以通过各种方式估计用户可能关注的资讯,并作为热点新闻向用户提供所述资讯。这可以提升用户对内容提供商的粘性。新闻的热度指的是新闻受关注的程度。一般来说,热点新闻传播广泛并且具有较强的时效性。在现有技术中,通常通过人工收集和整理热点新闻。这种方式可以在有限范围内保证热点新闻的质量。但是,这种方式需要大量的人力成本,并且它的时效性比较差。这不能满足用户希望快速获取热点新闻的需求。此外,本领域技术人员一直尝试提出用于生成热点新闻的新技术方案。例如,中国专利申请CN201410181773.4公开了一种新闻推荐方法及装置,该专利申请在此全部引入作为参考。例如,中国专利申请CN201210079091.3公开了一种热点信息挖掘方法和系统,该专利申请在此全部引入作为参考。例如,中国专利申请CN20111031808030.3公开了一种实现微博热点数据展示的方法及系统,该专利申请在此全部引入作为参考。因此,需要提供一种新的技术方案,针对上述现有技术中的至少一个技术问题进行改进。
技术实现思路
本专利技术的一个目的是提供一种用于生成热点新闻的新技术方案。根据本专利技术的第一方面,提供了一种热点新闻生成方法,包括:确定多篇新闻中的每篇新闻的时效参数,其中,所述时效参数表示该新闻的热度随着时间的流逝而降低;确定每篇新闻的内容热度参数,其中,所述内容热度参数是基于该新闻的内容确定的热度参数;以及基于所述时效参数和内容热度参数的加权和值,确定每篇新闻的热度参数,以生成热点新闻。可选地或另选地,所述时效参数随时间成指数衰减。可选地或另选地,所述时效参数被表示为:NewsTimeScore=exp(-r*t)其中,NewsTimeScore表示归一化的时效参数,r表示衰减常数,t表示时间,以及当所述新闻发布时,t=0。可选地或另选地,所述内容热度参数是基于所述新闻所包含的热词的热度的。可选地或另选地,所述热词的热度被表示为:其中,WordHotScore(word)表示热词word的热度值,num(word)表示热词word的出现次数,MaxNum表示出现次数最多的热词的出现次数。所述内容热度参数被表示为:其中,NewsHotScore(news)表示新闻news的内容热度参数值,ΣwordWordHotScore(word)表示该新闻news中的热词的总热度值,以及Num表示该新闻news中的热词的数量。可选地或另选地,所述时效参数被表示为:NewsTimeScore=exp(-r*t)其中,NewsTimeScore表示归一化的时效参数,r表示衰减常数,t表示时间,以及当所述新闻发布时,t=0。所述新闻的热度参数被表示如下:HotScore=α*NewsTimeScore+(1-α)*NewsHotScore其中,HotScore表示所述新闻的热度参数的值,α是加权因子。可选地或另选地,所述方法还包括:通过计算所述多篇新闻之间的相似度,将所述多篇新闻划分为多个新闻簇;基于所述新闻簇中的新闻的热度参数,获得该新闻簇的热度参数;提取该新闻簇中的热词作为该新闻簇的事件属性;以及基于新闻簇的热度参数和事件属性中的至少一个,生成热点新闻。可选地或另选地,所述新闻簇的热度参数是它所包含的新闻的热度参数的平均值。可选地或另选地,所述新闻簇中热度值最高的多个热词被提取作为该新闻簇的属性。可选地或另选地,所生成的热点新闻是所述新闻簇中的新闻。可选地或另选地,所生成的热点新闻包含所述事件属性,但不属于所述新闻簇。可选地或另选地,将所述多篇新闻划分为多个新闻簇包括:第一步骤,从最近一个时间段内的多篇新闻中随机选择一篇新闻作为种子新闻;第二步骤,检索与作为种子的新闻最相似的N篇新闻,并确定所述N篇新闻中的每篇新闻与所述种子新闻的相似度S;第三步骤,确定相似度S大于第一阈值THs1的新闻的数量M1;以及第四步骤,在M1大于第二阈值THm1的情况下将所述M1篇新闻确定候选新闻簇,其中,针对所述多篇新闻中除所述M1篇新闻之外的其余新闻,重复所述第一至第四步骤,直至没有新的新闻簇产生,最终获得K1个新闻簇。可选地或另选地,将所述多篇新闻划分为多个新闻簇还包括:对所述K1个新闻簇执行K均值聚类操作;以及对K均值聚类操作后的K1个新闻簇执行筛选处理,所述筛选处理包括如下操作中的至少一个:去除每个新闻簇中与该新闻簇的质心相似度低于第三阈值THs2的新闻,以及去除新闻的数量M2小于第四阈值THm2的新闻簇。可选地或另选地,重复执行所述K均值聚类操作和所述筛选处理,并获得K2个新闻簇。可选地或另选地,所述多篇新闻是最近一个时间段内产生的新闻。根据本专利技术的第二方面,提供了一种热点新闻生成设备,包括:用于确定多篇新闻中的每篇新闻的时效参数的装置,其中,所述时效参数表示该新闻的热度随着时间的流逝而降低;用于确定每篇新闻的内容热度参数的装置,其中,所述内容热度参数是基于该新闻的内容确定的热度参数;以及用于基于所述时效参数和内容热度参数的加权和值确定每篇新闻的热度参数以生成热点新闻的装置。根据本专利技术的第三方面,提供了一种电子设备,包括根据本专利技术的热点新闻生成设备,以生成热点新闻,或者被设计成用于执行根据本专利技术的热点新闻生成方法。根据本专利技术的第四方面,提供了一种电子设备,包括处理器和存储器,其中,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行根据本专利技术的热点新闻生成方法,以生成热点新闻。可选地或另选地,所述电子设备是服务器,它通过网络向客户端设备发送所生成的热点新闻。根据本专利技术的一个实施例,可以考虑时效性和新闻内容的热度来确定新闻的热度,以生成热点新闻。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。图1是根据本专利技术的一个实施例的的生成热点新闻方法的示意性流程图。图2是根据本专利技术的另一个实施例的电子设备的示意性框图。图3是根据本专利技术的另一个实施例的电子设备的示意性框图。图4是根据本专利技术的另一个实施例的热点新闻系统的示意图。图5是根据本专利技术的另一个实施例的热点新闻的时效参数的示意性曲线图。具体实施方式现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。热点新闻的时效性本文档来自技高网...
热点新闻生成方法、设备、电子设备

【技术保护点】
一种热点新闻生成方法,包括:确定多篇新闻中的每篇新闻的时效参数,其中,所述时效参数表示该新闻的热度随着时间的流逝而降低;确定每篇新闻的内容热度参数,其中,所述内容热度参数是基于该新闻的内容确定的热度参数;以及基于所述时效参数和内容热度参数的加权和值,确定每篇新闻的热度参数,以生成热点新闻。

【技术特征摘要】
1.一种热点新闻生成方法,包括:确定多篇新闻中的每篇新闻的时效参数,其中,所述时效参数表示该新闻的热度随着时间的流逝而降低;确定每篇新闻的内容热度参数,其中,所述内容热度参数是基于该新闻的内容确定的热度参数;以及基于所述时效参数和内容热度参数的加权和值,确定每篇新闻的热度参数,以生成热点新闻。2.根据权利要求1所述的方法,其中,所述时效参数随时间成指数衰减。3.根据权利要求2所述的方法,其中,所述时效参数被表示为:NewsTimeScore=exp(-r*t)其中,NewsTimeScore表示归一化的时效参数,r表示衰减常数,t表示时间,以及当所述新闻发布时,t=0。4.根据权利要求1所述的方法,其中,所述内容热度参数是基于所述新闻所包含的热词的热度的。5.根据权利要求4所述的方法,其中,所述热词的热度被表示为:其中,WordHotScore(word)表示热词word的热度值,num(word)表示热词word的出现次数,MaxNum表示出现次数最多的热词的出现次数;所述内容热度参数被表示为:其中,NewsHotScore(news)表示新闻news的内容热度参数值,∑wordWordHotScore(word)表示该新闻news中的热词的总热度值,以及Num表示该新闻news中的热词的数量。6.根据权利要求5所述的方法,其中,所述时效参数被表示为:NewsTimeScore=exp(-r*t)其中,NewsTimeScore表示归一化的时效参数,r表示衰减常数,t表示时间,以及当所述新闻发布时,t=0;以及其中,所述新闻的热度参数被表示如下:HotScore=α*NewsTimeScore+(1-α)*NewsHotScore其中,HotScore表示所述新闻的热度参数的值,α是加权因子。7.根据权利要求1所述的方法,还包括:通过计算所述多篇新闻之间的相似度,将所述多篇新闻划分为多个新闻簇;基于所述新闻簇中的新闻的热度参数,获得该新闻簇的热度参数;提取该新闻簇中的热词作为该新闻簇的事件属性;以及基于新闻簇的热度参数和事件属性中的至少一个,生成热点新闻。8.根据权利要求7所述的方法,其中,所述新闻簇的热度...

【专利技术属性】
技术研发人员:汪昆姜少峰王嘉勋
申请(专利权)人:广州神马移动信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1