一种提取热点话题的方法、装置及存储介质制造方法及图纸

技术编号:24035775 阅读:20 留言:0更新日期:2020-05-07 01:51
本申请实施例提供一种提取热点话题的方法、装置及存储介质,所述方法包括:根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。本方案能够提高聚类效果以及发现更多的热词。

A method, device and storage medium for extracting hot topics

【技术实现步骤摘要】
一种提取热点话题的方法、装置及存储介质
本申请实施例涉及大数据处理
,尤其涉及一种提取热点话题的方法、装置及存储介质。
技术介绍
目前,一般会收集互联网中的文本信息,然后发掘其中的热点。具体来说,先从互联网下载近期一段时间内的论坛、博客、微博等网页,从这些网页中提取文本。然后分别对每个文本进行分词,获得一个词频向量,将所有文本的词频向量组合得到一个词频矩阵。再利用聚类算法对该词频矩阵进行聚类分析,使主题相同的文本聚在一起,这样就获得了很多主题的聚类簇。最后,提取每个聚类簇的文本的摘要或者每个聚类簇的关键词作为该聚类簇的解释(即对该新闻主题的解释)。在对现有技术的研究和实践过程中,本申请实施例的专利技术人发现,每天的数据都在随着时间变化且内容杂乱,而基于该词频矩阵进行聚类分析得到的聚类簇的聚类效果不佳,相应的,在基于聚类得到的聚类簇的描述时,使用抽取式摘要的方法给出的描述会比较杂乱,概括性不强,而使用关键词抽取的方法给出的描述可阅读性较差,因此,难以给出合适的热点话题的描述。
技术实现思路
本申请实施例提供了一种提取热点话题的方法、装置及存储介质,能够提高聚类效果以及发现更多的热词。第一方面中,本申请实施例提供一种提取热点话题的方法,所述方法包括:根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。一种可能的设计中,所述根据文本得到多个聚类簇之后,所述根据聚类簇之间的相似度合并得到多个候选簇之前,所述方法还包括:从所述多个聚类簇中确定第一候选词语,所述第一候选词语为文档频率大于文档频率阈值的词语;将所述第一候选词语与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。一种可能的设计中,所述根据聚类簇之间的相似度合并得到多个候选簇,包括:根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。一种可能的设计中,所述得到多个候选簇之后,所述从所述多个候选簇中选择目标簇之前,所述方法还包括:获取各候选簇中每个文本的热度数据;根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度;根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。一种可能的设计中,所述根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语,包括:获取第二候选词语的热度值,所述第二候选词语为所述目标簇中的任一词语;根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语。一种可能的设计中,所述获取第二候选词语的热度值,包括:根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1。一种可能的设计中,所述根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值,包括:当所述目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;或者,当所述目标时段的时长高于第二预设时长,且所述第二候选词语的热度值小于热度下限值时,则增大所述第一比重参数的取值。一种可能的设计中,当所述目标簇包括至少两个文本时,或者当所述目标簇为一个句子组成的文本时,所述根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语,包括:从所述目标簇中提取多个词语,根据所述支持度阈值和所述多个词语中各词语的文本比重,从所述多个词语中确定第一热点集合;将所述第一热点集合中的各词语进行组合,得到多个组合短语;根据所述支持度阈值和每个组合短语的文本比重,从所述多个组合短语中确定第二热点集合,所述第二热点集合包括至少一个组合短语;将所述第二热点集合中存在重叠词语的组合短语进行组合,得到多个目标组合短语;根据所述支持度阈值和每个目标组合短语的文本比重,从所述多个目标组合短语中确定目标热点集合,所述目标热点集合包括至少一个候选组合短语;将所述目标热点集合中存在重叠的短语进行组合,将组合得到的短语作为所述目标组合短语,直至所述目标热点集合中的词语不变化为止,结束确定目标热点集合的操作,以得到多个热点集合;从所述多个热点集合中确定所述热度短语。一种可能的设计中,所述从所述多个热点集合中确定所述热度短语,包括:从所述多个热点集合中确定多个目标组合短语,所述目标组合短语不属于预设停用词,且目标组合短语相互之间不存在包含关系;确定各目标组合短语包括的词语;分别对各目标组合短语中包括的词语的热度值进行求和平均,得到对应目标组合短语的热度值;将热度值高于所述热度阈值的目标组合短语作为所述热度短语。一种可能的设计中,所述将所述第一热点集合中的各词语进行组合,得到多个组合短语,包括:按照历史词语与下一个词语之间的依赖关系确定词语重叠的短语;将词语重叠的短语取并集,得到所述组合短语。一种可能的设计中,所述多个热点集合中的各热点集合按照得到的先后顺序有序排列;所述从所述多个热点集合中确定多个目标组合短语,包括:按照热点集合得到的先后顺序的逆序,依次遍历各热点集合;若当前遍历的热点集合中存在候选组合短语,则确定所述候选组合短语为目标组合短语,所述候选组合短语中的词语均为本文档来自技高网...

【技术保护点】
1.一种提取热点话题的方法,其特征在于,所述方法包括:/n根据文本得到多个聚类簇,所述聚类簇包括多个词语;/n根据聚类簇之间的相似度合并得到多个候选簇;/n根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;/n根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。/n

【技术特征摘要】
1.一种提取热点话题的方法,其特征在于,所述方法包括:
根据文本得到多个聚类簇,所述聚类簇包括多个词语;
根据聚类簇之间的相似度合并得到多个候选簇;
根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。


2.根据权利要求1所述的方法,其特征在于,所述根据文本得到多个聚类簇之后,所述根据聚类簇之间的相似度合并得到多个候选簇之前,所述方法还包括:
从所述多个聚类簇中确定第一候选词语,所述第一候选词语为聚类簇中文档频率大于文档频率阈值的词语;
将所述第一候选词语所属的聚类簇与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;
将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。


3.根据权利要求2所述的方法,其特征在于,所述根据聚类簇之间的相似度合并得到多个候选簇,包括:
根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。


4.根据权利要求3所述的方法,其特征在于,所述得到多个候选簇之后,所述从所述多个候选簇中选择目标簇之前,所述方法还包括:
获取各候选簇中每个文本的热度数据;
根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度;
根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。


5.根据权利要求4所述的方法,其特征在于,所述根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语,包括:
获取第二候选词语的热度值,所述第二候选词语为所述目标簇中的任一词语;
根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;
根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语。


6.根据权利要求5所述的方法,其特征在于,所述获取第二候选词语的热度值,包括:
根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;
其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1。


7.根据权利要求6所述的方法,其特征在于,所述根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值,包括:
当所述目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;
...

【专利技术属性】
技术研发人员:卢珑予俞一鹏孙子荀
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1