热点新闻的检测方法、装置及电子设备制造方法及图纸

技术编号:17779920 阅读:29 留言:0更新日期:2018-04-22 08:32
本发明专利技术实施例提供了一种热点新闻的检测方法、装置及电子设备。该方法可以确定出多个记载同一事件的待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;基于每个待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;基于多个待检测新闻组的热度值大小,选取出多个待检测新闻组中的热点新闻组,热度值越大越被优先选取;将选取的热点新闻组中的新闻确定为热点新闻,以提高热点新闻检测的准确性与时效性。

【技术实现步骤摘要】
热点新闻的检测方法、装置及电子设备
本专利技术涉及计算机应用
,特别是涉及一种热点新闻的检测方法、装置及电子设备。
技术介绍
随着移动互联网飞速发展,用户获取新闻的途径也从传统纸媒与门户网站,过渡到以各种移动新闻聚合的应用为主,这样的应用提供的内容具有及时、全面且深度契合用户兴趣等特点,其中热点新闻类别是其重要的组成部分,热点新闻类别主要为广大用户提供最新的热门、重大新闻等,并且热点新闻类别在提高用户留存度、活跃度、参与度起到非常重要的作用,因此对热点新闻检测的准确性与时效性也就成了重中之重。目前现有的热点新闻的检测方法主要为如下两种方式:方式一,基于人工监控的方式来检测热点新闻。该方式主要是从业人员主观的向用户推送新闻。然而,该方式需要大量人工,成本较高,并且会因为不专业的从业人员造成热点新闻的迟发、错误、遗漏等问题,导致检测出的热点新闻的准确率较低。方式二,基于用户的点击反馈方式来自动对热点新闻进行检测。该方式主要是依据在一段时间内各新闻的点击率是否有较快速的上升来检测该段时间内的热点新闻。该方式相较于方式一具有成本低廉的优势。然而,该方式常常会倾向于将一些标题党、吸引点击的一些内容识别为热点新闻内容,这一类内容通常都会有大量的用户点击量,但其不是真正的热点新闻,导致检测出的热点新闻的准确率较低。另外,该方式在实施过程中需要搜集应用推送给用户的多个新闻,并获取这些新闻在一段时间内的点击量,最后对点击量进行统计找出热点新闻,耗时较长,导致这样的热点新闻时效性较低。
技术实现思路
本专利技术实施例的目的在于提供一种热点新闻的检测方法、装置及电子设备,以提高热点新闻检测的准确性与时效性。具体技术方案如下:第一方面,提供了一种热点新闻的检测方法,该方法可以包括:确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;基于多个待检测新闻组的热度值,从多个待检测新闻组中,选取出热点新闻组,热度值越大越被优先选取;将选取的热点新闻组中的新闻确定为热点新闻。在一个可选的示例中,确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重之前,还包括:基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组。在一个可选的示例中,基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组,包括:步骤A:获取多条待分组新闻;步骤B:提取多条待分组新闻中第一待分组新闻的多个关键词和多条待分组新闻中第二待分组新闻的多个关键词;步骤C:获取降序排列的第一待分组新闻的多个关键词的权重序列和第二待分组新闻的多个关键词的权重序列;步骤D:从排序后的第一待分组新闻的权重序列和排序后的第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;步骤E:将第一权重序列和第二权重序列,采用相似度运算,得到第一权重序列和第二权重序列的相似值;步骤F:当相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,第一待检测新闻组包括第一待分组新闻,第二待检测新闻组包括第二待分组新闻,第一待检测新闻组和第二待检测新闻组为当前待检测新闻组;步骤G:当相似值大于预设相似阈值时,创建第三待检测新闻组,第三待检测新闻组包括第一待分组新闻和第二待分组新闻,第三待检测新闻组为当前待检测新闻组;步骤H:提取多条待分组新闻中第三待分组新闻的多个关键词,第三待分组新闻为在多条待分组新闻中未被分组的新闻;步骤I:获取降序排列的第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;步骤J:从排序后的第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;步骤K:将第三权重序列和第四权重序列,采用相似度运算,得到第三权重序列和第四权重序列的相似值;步骤L:当相似值不大于预设相似阈值时,创建第四待检测新闻组,第四待检测新闻组包括第三待分组新闻,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组;步骤M:当相似值大于预设相似阈值时,将第三待分组新闻加入相似值对应的当前待检测新闻组,之后从多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组。在一个可选的示例中,将选取的热点新闻组中的新闻确定为热点新闻之后,该方法还可以包括:获取当前待分组新闻;提取多个待检测新闻组中每个待检测新闻组的多个关键词和当前待分组新闻的多个关键词,每个待检测新闻组的多个关键词为每个待检测新闻组中的新闻的多个关键词;获取降序排列的每个待检测新闻组的权重序列和当前待分组新闻的权重序列;从排序后的每个待检测新闻组的权重序列和排序后的当前待分组新闻的权重序列中,分别选取前预设数量个权重组成的第五权重序列和第六权重序列;将第五权重序列和第六权重序列,采用相似度运算,得到第五权重序列和第六权重序列间的相似值;当相似值大于预设相似阈值时,将待分组新闻确定为热点新闻。在一个可选的示例中,第一发布权重是基于每个待检测新闻组中新闻的发布者个数、发布者中目标媒体个数和新闻的属性权重确定的;第二发布权重是基于当前时刻和新闻的平均发布时间确定的。在一个可选的示例中,第一发布权重是采用如下表达式表示确定的:S=arctan((P*0.03+AU*2.0)*M)*(2/π);其中,S为第一发布权重,P为发布者个数,AU为目标媒体个数和M为属性权重,S、P、AU和M均大于零;第二发布权重是采用如下表达式表示确定的:T=0.9((C-AV+10)/6000);其中,T为第二发布权重,C为当前时刻和AV为平均发布时间,T、AV和C均大于零。在一个可选的示例中,热度值H表示为:H=T*S;其中,H大于零。第二方面,提供了一种检测装置,该装置可以包括:第一确定模块、第二确定模块、选取模块和第三确定模块。其中,第一确定模块,用于确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;第二确定模块,用于针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;选取模块,用于基于多个待检测新闻组的热度值,从多个待检测新闻组中,选取出热点新闻组,热度值越大越被优先选取;第三确定模块,用于将选取的热点新闻组中的新闻确定为热点新闻在一个可选的示例中,该装置还包括分组模块;分组模块,用于基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度本文档来自技高网...
热点新闻的检测方法、装置及电子设备

【技术保护点】
一种热点新闻的检测方法,其特征在于,所述方法包括:确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,所述每个待检测新闻组包括记载同一事件的新闻,所述第一发布权重表征待检测新闻组中新闻的发布者特征,所述第二发布权重表征待检测新闻组中新闻的发布时间特征;针对每个待检测新闻组,基于该待检测新闻组的所述第一发布权重与所述第二发布权重,确定所述该待检测新闻组的热度值;基于所述多个待检测新闻组的所述热度值,从所述多个待检测新闻组中,选取出热点新闻组,所述热度值越大越被优先选取;将选取的热点新闻组中的新闻确定为热点新闻。

【技术特征摘要】
1.一种热点新闻的检测方法,其特征在于,所述方法包括:确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,所述每个待检测新闻组包括记载同一事件的新闻,所述第一发布权重表征待检测新闻组中新闻的发布者特征,所述第二发布权重表征待检测新闻组中新闻的发布时间特征;针对每个待检测新闻组,基于该待检测新闻组的所述第一发布权重与所述第二发布权重,确定所述该待检测新闻组的热度值;基于所述多个待检测新闻组的所述热度值,从所述多个待检测新闻组中,选取出热点新闻组,所述热度值越大越被优先选取;将选取的热点新闻组中的新闻确定为热点新闻。2.根据权利要求1所述的方法,其特征在于,所述确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重之前,还包括:基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对所述多条待分组新闻进行分组,得到多个待检测新闻组。3.根据权利要求2所述的方法,其特征在于,所述基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对所述多条待分组新闻进行分组,得到多个待检测新闻组,包括:步骤A:获取多条待分组新闻;步骤B:提取所述多条待分组新闻中第一待分组新闻的多个关键词和所述多条待分组新闻中第二待分组新闻的多个关键词;步骤C:获取降序排列的所述第一待分组新闻的多个关键词的权重序列和所述第二待分组新闻的多个关键词的权重序列;步骤D:从排序后的所述第一待分组新闻的权重序列和排序后的所述第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;步骤E:将所述第一权重序列和所述第二权重序列,采用相似度运算,得到所述第一权重序列和所述第二权重序列的相似值;步骤F:当所述相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,所述第一待检测新闻组包括所述第一待分组新闻,所述第二待检测新闻组包括所述第二待分组新闻,所述第一待检测新闻组和所述第二待检测新闻组为当前待检测新闻组;步骤G:当所述相似值大于预设相似阈值时,创建第三待检测新闻组,所述第三待检测新闻组包括所述第一待分组新闻和所述第二待分组新闻,所述第三待检测新闻组为当前待检测新闻组;步骤H:提取所述多条待分组新闻中第三待分组新闻的多个关键词,所述第三待分组新闻为在所述多条待分组新闻中未被分组的新闻;步骤I:获取降序排列的所述第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;步骤J:从排序后的所述第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;步骤K:将所述第三权重序列和所述第四权重序列,采用相似度运算,得到所述第三权重序列和所述第四权重序列的相似值;步骤L:当所述相似值不大于预设相似阈值时,创建第四待检测新闻组,所述第四待检测新闻组包括所述第三待分组新闻,之后从所述多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组;步骤M:当所述相似值大于预设相似阈值时,将所述第三...

【专利技术属性】
技术研发人员:郑强
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1