热点内容的提取方法、装置及设备制造方法及图纸

技术编号:19857710 阅读:40 留言:0更新日期:2018-12-22 11:44
本发明专利技术实施例提供的一种热点内容的提取方法、装置及设备,通过统计待提取内容中热点词的种类数量;判断种类数量是否小于第一预设种类阈值;若不小于,则将待提取内容作为热点内容,可以避免将内容为重复热点词的低质量内容确定为热点内容的情况,提高了热点内容确定的准确性。

【技术实现步骤摘要】
热点内容的提取方法、装置及设备
本专利技术涉及内容推荐
,特别是涉及一种热点内容的提取方法、装置及设备。
技术介绍
随着互联网技术的发展,社交网络已成为人们发布内容、获取内容的重要渠道。由于存在海量内容,因此,社交网络往往需要从海量内容中提取热点内容并展示给用户,以方便用户获取网络中的热点内容。在传统的热点内容提取方法中,通常将内容中的文字划分为多个词语,统计这些词语中出现预设热点词的词频,如果词频大于一阈值,则确定该内容为热点内容。但是,一些低质量内容通常会重复使用预设热点词,例如,高考期间,关于高考的低质量内容中会重复出现热点词“高考”或者甚至通篇只有预设热点词“高考”,但是并不包含有意义的内容。而由于预设热点词的大量出现,这类低质量内容很有可能被提取为热点内容,导致热点内容提取不准确。
技术实现思路
本专利技术实施例的目的在于提供一种热点内容的提取方法、装置及设备,以实现提高热点内容提取准确度的目的。具体技术方案如下:第一方面,本专利技术实施例提供了一种热点内容的提取方法,该方法包括:获取待提取内容,待提取内容为预设热点内容库中的内容;统计待提取内容中热点词的种类数量;判断种本文档来自技高网...

【技术保护点】
1.一种热点内容的提取方法,其特征在于,所述方法包括:获取待提取内容,所述待提取内容为预设热点内容库中的内容;统计所述待提取内容中热点词的种类数量;判断所述种类数量是否小于第一预设种类阈值;若不小于,则将所述待提取内容作为热点内容。

【技术特征摘要】
1.一种热点内容的提取方法,其特征在于,所述方法包括:获取待提取内容,所述待提取内容为预设热点内容库中的内容;统计所述待提取内容中热点词的种类数量;判断所述种类数量是否小于第一预设种类阈值;若不小于,则将所述待提取内容作为热点内容。2.根据权利要求1所述的方法,其特征在于,在所述判断所述种类数量是否小于第一预设种类阈值之前,所述方法还包括:统计所述待提取内容的词语总数量;判断所述词语总数量是否小于预设词语数量阈值;若所述词语总数量小于所述预设词语数量阈值,则执行所述判断所述种类数量是否小于第一预设种类阈值。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:记录预先分配的所述待提取内容中各预设热点词的词条权重;若所述词语总数量不小于所述预设词语数量阈值,则执行以下步骤:判断所述种类数量是否小于第二预设种类阈值,以及各热点词的词条权重之和是否大于第一预设权重阈值;若所述种类数量不小于所述第二预设种类阈值,且各热点词的词条权重之和大于所述第一预设权重阈值,则将所述待提取内容作为热点内容。4.根据权利要求3所述的方法,其特征在于,在所述将所述待提取内容作为热点内容之后,所述方法还包括:获取所述热点内容的用户操作信息,以及所述热点内容中热点词的词条权重之和;基于所述用户操作信息以及所述热点词的词条权重之和,利用第一预设综合权重增长公式,计算得到所述热点词对所述热点内容的第一热度贡献值;按照所述第一热度贡献值从大到小的顺序展示所述热点内容。5.根据权利要求4所述的方法,其特征在于,在所述按照所述第一热度贡献值从大到小的顺序展示所述热点内容之前,所述方法还包括:记录预先分配的所述待提取内容中各非热点词的词条权重;判断所述热点内容中非热点词的词性是否为预设词性,以及非热点词的词条权重是否大于第二预设权重阈值;若所述热点内容中非热点词的词性为所述预设词性,且所述非热点词的词条权重大于所述第二预设权重阈值,则确定所述非热点词作为备用热点词;基于所述用户操作信息和所述备用热点词的词条权重,利用第二预设综合权重增长公式,计算得到所述备用热点词对所述热点内容的第二热度贡献值;将所述第一热度贡献值和所述第二热度贡献值中更高的,作为所述热点内容的参考热度贡献值;按照所述参考热度贡献值从大到小的顺序展示所述热点内容。6.根据权利要求5所述的方法,其特征在于,所述热点内容的用户操作信息包括:热点内容的评论数量、分享数量、点赞数量、阅读数量以及热点内容创建时刻与当前时刻的时间差;所述第一预设综合权重增长公式为:其中,所述ΔW1为所述第一热度贡献值,所述total_weight为所述热点词的词条权重之和,Ncomment为所述热点内容的评论数量,Nshare为所述热点内容的分享数量,Nlike为所述热点内容的点赞数量,Nread为所述热点内容的阅读数量,Δt为所述热点内容创建时刻与当前时刻的时间差,η为预设时间衰减系数;所述第二预设综合权重增长公式为:其中,所述ΔW2为所述第二热度贡献值,所述termweight为所述备用热点词的词条权重。7.根据权利要求5所述的方法,其特征在于,在所述基于所述用户操作信息和所述备用热点词的词条权重,利用第二预设综合权重增长公式,计算得到所述备用热点词对所述热点内容的第二热度贡献值之后,所述方法还包括:基于所述备用热点词,利用预设别名词库,获取所述备用热点词中属于所述预设别名词库的至少两个互为别名的词语,所述互为别名的词语为具有相同语义的不同词语;将所述至少两个互为别名的备用热点词中、第二热度贡献值最高的词语作为合并备用热点词,并将所述至少两个互为别名的备用热点词的第二热度贡献值之和作为所述合并备用热点词的第二热度贡献值。8.根据权利要求5所述的方法,其特征在于,在所述将所述第一热度贡献值和所述第二热度贡献值中更高的,作为所述热点内容的参考热度贡献值之前,所述方法还包括:利用预设黑名单词库,将所述备用热点词中属于所述预设黑名单词库的词语删除。9.根据权利要求5所述的方法,其特征在于,所述按照所述参考热度贡献值从大到小的顺序展示所述热点内容,包括:按照所述参考热度贡献值从大到小的顺序,生成所述热点内容的展示页;所述方法还包括:按照所述第一热度贡献值和所述第二热度贡献值,对所述热点词和所述备用热点词进行排序,得到热议词序列;从所述热议词序列中,选择预设数量个热度贡献值大于预设贡献值的词语,作为所述热点内容的热议词;按照所述热议词的热度贡献值,生成并展示所述热议词的榜单。10.根据权利要求1所述的方法,其特征在于,在所述将所述待提取内容作为热点内容之后,所述方法还包括:判断所述热点内容中是否存在预设社交圈类别词;若存在,...

【专利技术属性】
技术研发人员:谢忠玉
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1