【技术实现步骤摘要】
热点新闻的检测方法、装置及电子设备
本专利技术涉及计算机应用
,特别是涉及一种热点新闻的检测方法、装置及电子设备。
技术介绍
随着移动互联网飞速发展,用户获取新闻的途径也从传统纸媒与门户网站,过渡到以各种移动新闻聚合的应用为主,这样的应用提供的内容具有及时、全面且深度契合用户兴趣等特点,其中热点新闻类别是其重要的组成部分,热点新闻类别主要为广大用户提供最新的热门、重大新闻等,并且热点新闻类别在提高用户留存度、活跃度、参与度起到非常重要的作用,因此对热点新闻检测的准确性与时效性也就成了重中之重。目前现有的热点新闻的检测方法主要为如下两种方式:方式一,基于人工监控的方式来检测热点新闻。该方式主要是从业人员主观的向用户推送新闻。然而,该方式需要大量人工,成本较高,并且会因为不专业的从业人员造成热点新闻的迟发、错误、遗漏等问题,导致检测出的热点新闻的准确率较低。方式二,基于用户的点击反馈方式来自动对热点新闻进行检测。该方式主要是依据在一段时间内各新闻的点击率是否有较快速的上升来检测该段时间内的热点新闻。该方式相较于方式一具有成本低廉的优势。然而,该方式常常会倾向于将一些标题党、吸引点击的一些内容识别为热点新闻内容,这一类内容通常都会有大量的用户点击量,但其不是真正的热点新闻,导致检测出的热点新闻的准确率较低。另外,该方式在实施过程中需要搜集应用推送给用户的多个新闻,并获取这些新闻在一段时间内的点击量,最后对点击量进行统计找出热点新闻,耗时较长,导致这样的热点新闻时效性较低。
技术实现思路
本专利技术实施例的目的在于提供一种热点新闻的检测方法、装置及电子设备,以提 ...
【技术保护点】
一种热点新闻的检测方法,其特征在于,所述方法包括:确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,所述每个待检测新闻组包括记载同一事件的新闻,所述第一发布权重表征待检测新闻组中新闻的发布者特征,所述第二发布权重表征待检测新闻组中新闻的发布时间特征;针对每个待检测新闻组,基于该待检测新闻组的所述第一发布权重与所述第二发布权重,确定所述该待检测新闻组的热度值;基于所述多个待检测新闻组的所述热度值,从所述多个待检测新闻组中,选取出热点新闻组,所述热度值越大越被优先选取;将选取的热点新闻组中的新闻确定为热点新闻。
【技术特征摘要】
1.一种热点新闻的检测方法,其特征在于,所述方法包括:确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,所述每个待检测新闻组包括记载同一事件的新闻,所述第一发布权重表征待检测新闻组中新闻的发布者特征,所述第二发布权重表征待检测新闻组中新闻的发布时间特征;针对每个待检测新闻组,基于该待检测新闻组的所述第一发布权重与所述第二发布权重,确定所述该待检测新闻组的热度值;基于所述多个待检测新闻组的所述热度值,从所述多个待检测新闻组中,选取出热点新闻组,所述热度值越大越被优先选取;将选取的热点新闻组中的新闻确定为热点新闻。2.根据权利要求1所述的方法,其特征在于,所述确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重之前,还包括:基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对所述多条待分组新闻进行分组,得到多个待检测新闻组。3.根据权利要求2所述的方法,其特征在于,所述基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对所述多条待分组新闻进行分组,得到多个待检测新闻组,包括:步骤A:获取多条待分组新闻;步骤B:提取所述多条待分组新闻中第一待分组新闻的多个关键词和所述多条待分组新闻中第二待分组新闻的多个关键词;步骤C:获取降序排列的所述第一待分组新闻的多个关键词的权重序列和所述第二待分组新闻的多个关键词的权重序列;步骤D:从排序后的所述第一待分组新闻的权重序列和排序后的所述第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;步骤E:将所述第一权重序列和所述第二权重序列,采用相似度运算,得到所述第一权重序列和所述第二权重序列的相似值;步骤F:当所述相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,所述第一待检测新闻组包括所述第一待分组新闻,所述第二待检测新闻组包括所述第二待分组新闻,所述第一待检测新闻组和所述第二待检测新闻组为当前待检测新闻组;步骤G:当所述相似值大于预设相似阈值时,创建第三待检测新闻组,所述第三待检测新闻组包括所述第一待分组新闻和所述第二待分组新闻,所述第三待检测新闻组为当前待检测新闻组;步骤H:提取所述多条待分组新闻中第三待分组新闻的多个关键词,所述第三待分组新闻为在所述多条待分组新闻中未被分组的新闻;步骤I:获取降序排列的所述第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;步骤J:从排序后的所述第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;步骤K:将所述第三权重序列和所述第四权重序列,采用相似度运算,得到所述第三权重序列和所述第四权重序列的相似值;步骤L:当所述相似值不大于预设相似阈值时,创建第四待检测新闻组,所述第四待检测新闻组包括所述第三待分组新闻,之后从所述多条待分组新闻中,选取一个未分组的新闻作为新的第三待分组新闻,并返回执行步骤H,以得到多个待检测新闻组;步骤M:当所述相似值大于预设相似阈值时,将所述第三...
【专利技术属性】
技术研发人员:郑强,
申请(专利权)人:北京金山安全软件有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。