一种热点信息获取方法、装置、服务器及介质制造方法及图纸

技术编号:24169345 阅读:56 留言:0更新日期:2020-05-16 02:26
本发明专利技术实施例提供了一种热点信息获取方法、装置、服务器及介质,涉及信息处理技术领域。本申请的方案包括:基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从第一分词结果中选择至少一个主词,然后针对每个主词,基于对指定数据源中包含主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从第二分词结果中获取与主词关联的至少一个辅词,进而从指定数据源中获取包括主词以及与主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成主词对应的热点信息。采用该方法可以实现实时全面地获取热点信息。

A hot spot information acquisition method, device, server and medium

【技术实现步骤摘要】
一种热点信息获取方法、装置、服务器及介质
本专利技术涉及信息处理
,特别是涉及一种热点信息获取方法、装置、服务器及介质。
技术介绍
随着各类网站的用户增多,网站中产生的用户生成内容(UserGeneratedContent,UGC)文本出现爆炸式增长,例如评论、弹幕等。从海量的文本中挖掘出热点事件以及热点词对于内容推广以及了解舆论导向意义重大。相关技术中,运营人员人工从网站中的文本中发现热点词以及热点事件,并获取热点词以及热点词相关文本,然而运营人员的精力有限,难以了解网站中全部热点词和热点事件,且采集到的信息具有一定的滞后性,难以实时全面地获取热点信息。
技术实现思路
本专利技术实施例的目的在于提供一种热点信息获取方法、装置、服务器及介质,以实现实时全面地获取热点信息。具体技术方案如下:第一方面,本申请实施例提供一种热点信息获取方法,所述方法执行于服务器,包括:基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从所述第一分词结果中选择至少一个主词;本文档来自技高网...

【技术保护点】
1.一种热点信息获取方法,其特征在于,所述方法执行于服务器,包括:/n基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从所述第一分词结果中选择至少一个主词;/n针对每个主词,基于对所述指定数据源中包含所述主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从所述第二分词结果中获取与所述主词关联的至少一个辅词;/n从所述指定数据源中获取包括所述主词以及与所述主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成所述主词对应的热点信息。/n

【技术特征摘要】
1.一种热点信息获取方法,其特征在于,所述方法执行于服务器,包括:
基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从所述第一分词结果中选择至少一个主词;
针对每个主词,基于对所述指定数据源中包含所述主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从所述第二分词结果中获取与所述主词关联的至少一个辅词;
从所述指定数据源中获取包括所述主词以及与所述主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成所述主词对应的热点信息。


2.根据权利要求1所述的方法,其特征在于,所述基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从所述第一分词结果中选择至少一个主词,包括:
获取第一历史时间段内所述指定数据源中产生的文本内容,分别将所述第一历史时间段内的每个子时间段对应的文本内容生成文本文档,针对每个子时间段对应的文本文档,对所述文本文档进行分词处理,得到所述文本文档对应的第一分词结果;
基于所述文本文档对应的第一分词结果生成所述文本文档对应的主词候选词集合;
基于所述主词候选词集合中各词语的词频信息,从所述主词候选词集合中选择至少一个主词。


3.根据权利要求2所述的方法,其特征在于,所述基于所述主词候选词集合中各词语的词频信息,从所述主词候选词集合中选择至少一个主词,包括:
计算所述主词候选词集合包括的各词语的TF-IDF值,按照TF-IDF值从大到小的顺序,从所述主词候选词集合中选择第一预设数量的词语作为主词。


4.根据权利要求3所述的方法,其特征在于,所述基于针对每个主词,基于对所述指定数据源中包含所述主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从所述第二分词结果中获取与所述主词关联的至少一个辅词,包括:
针对每个主词,获取所述主词所属子时间段之前的第二历史时间段内所述指定数据源中产生的包含所述主词的文本内容集合,对所述文本内容集合中的每条文本内容进行分词处理,得到所述第二分词结果;
基于所述第二分词结果生成所述主词对应的辅词候选词集合;
基于所述辅词候选词集合中各词语的词频信息,从所述辅词候选词集合中选择与所述主词关联的至少一个辅词。


5.根据权利要求4所述的方法,其特征在于,所述基于所述辅词候选词集合中各词语的词频信息,从所述辅词候选词集合中选择与所述主词关联的至少一个辅词,包括:
确定所述辅词候选词集合包括的每个辅词候选词与所述主词在所述文本内容集合中的共同出现次数;
将所述辅词候选词集合中共同出现次数大于预设次数阈值的辅词候选词作为与所述主词关联的辅词。


6.根据权利要求4或5所述的方法,其特征在于,从所述指定数据源中获取包括所述主词以及与所述主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成所述主词对应的热点信息,包括:
针对与所述主词关联的每个辅词,获取所述文本内容集合中包括所述主词和所述辅词的文本内容,将获取到的文本内容组成所述辅词对应的候选辅助文本集合;
对所述候选辅助文本集合中的文本内容进行去重处理,将去重处理后所述候选辅助文本集合中剩余的文本内容作为所述辅词的辅助文本;
生成所述主词对应的热点信息,所述热点信息包括所述主词、所述主词关联的辅词以及每个辅词的辅助文本。


7.根据权利要求6所述的方法,其特征在于,所述对所述候选辅助文本集合中的文本内容进行去重处理,包括:
针对所述候选辅助文本集合中的每条文本内容,计算所述文本内容与所述文本内容之后第二预设数量的文本内容中的每条文本内容之间的余弦相似度,将与所述文本内容之间的余弦相似度大于预设相似度阈值的文本内容删除。


8.根据权利要求2所述的方法,其特征在于,所述基于所述文本文档对应的第一分词结果生成所述文本文档对应的主词候选词集合,包括:...

【专利技术属性】
技术研发人员:唐颢诚姜文陆祁周寻孙斌
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1