【技术实现步骤摘要】
一种提取热点话题的方法、装置及存储介质
本申请实施例涉及大数据处理
,尤其涉及一种提取热点话题的方法、装置及存储介质。
技术介绍
目前,一般会收集互联网中的文本信息,然后发掘其中的热点。具体来说,先从互联网下载近期一段时间内的论坛、博客、微博等网页,从这些网页中提取文本。然后分别对每个文本进行分词,获得一个词频向量,将所有文本的词频向量组合得到一个词频矩阵。再利用聚类算法对该词频矩阵进行聚类分析,使主题相同的文本聚在一起,这样就获得了很多主题的聚类簇。最后,提取每个聚类簇的文本的摘要或者每个聚类簇的关键词作为该聚类簇的解释(即对该新闻主题的解释)。在对现有技术的研究和实践过程中,本申请实施例的专利技术人发现,每天的数据都在随着时间变化且内容杂乱,而基于该词频矩阵进行聚类分析得到的聚类簇的聚类效果不佳,相应的,在基于聚类得到的聚类簇的描述时,使用抽取式摘要的方法给出的描述会比较杂乱,概括性不强,而使用关键词抽取的方法给出的描述可阅读性较差,因此,难以给出合适的热点话题的描述。
技术实现思路
本申请实施例提供了一种提取热点话题的方法、装置及存储介质,能够提高聚类效果以及发现更多的热词。第一方面中,本申请实施例提供一种提取热点话题的方法,所述方法包括:根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;根据 ...
【技术保护点】
1.一种提取热点话题的方法,其特征在于,所述方法包括:/n根据文本得到多个聚类簇,所述聚类簇包括多个词语;/n根据聚类簇之间的相似度合并得到多个候选簇;/n根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;/n根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。/n
【技术特征摘要】
1.一种提取热点话题的方法,其特征在于,所述方法包括:
根据文本得到多个聚类簇,所述聚类簇包括多个词语;
根据聚类簇之间的相似度合并得到多个候选簇;
根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。
2.根据权利要求1所述的方法,其特征在于,所述根据文本得到多个聚类簇之后,所述根据聚类簇之间的相似度合并得到多个候选簇之前,所述方法还包括:
从所述多个聚类簇中确定第一候选词语,所述第一候选词语为聚类簇中文档频率大于文档频率阈值的词语;
将所述第一候选词语所属的聚类簇与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;
将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。
3.根据权利要求2所述的方法,其特征在于,所述根据聚类簇之间的相似度合并得到多个候选簇,包括:
根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。
4.根据权利要求3所述的方法,其特征在于,所述得到多个候选簇之后,所述从所述多个候选簇中选择目标簇之前,所述方法还包括:
获取各候选簇中每个文本的热度数据;
根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度;
根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语,包括:
获取第二候选词语的热度值,所述第二候选词语为所述目标簇中的任一词语;
根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;
根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语。
6.根据权利要求5所述的方法,其特征在于,所述获取第二候选词语的热度值,包括:
根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;
其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值,包括:
当所述目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;
...
【专利技术属性】
技术研发人员:卢珑予,俞一鹏,孙子荀,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。