一种检测热点话题类别的方法和装置制造方法及图纸

技术编号:17667615 阅读:81 留言:0更新日期:2018-04-11 05:56
本发明专利技术公开了一种检测热点话题类别的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将获取到的多个文本数据中的每个文本数据转换为文本向量,从而得到多个文本向量;对所述多个文本向量进行聚类处理,以确定出一个以上的类别;从所述一个以上的类别中筛选出热点话题类别。该实施方式能够将每个文本数据的语义体现出,解决了现有技术中仅仅根据单个词语来确定出热点话题的问题,提高了确定热点话题的效率以及准确性。

A method and device for detecting hot topic categories

The invention discloses a method and device for detecting the category of hot topic, which relates to the field of computer technology. One embodiment of the method includes: a plurality of each text data, text data will get the converted text vector, to get a text vector; the plurality of clustering processing, to identify more than one category; selected topic categories from the categories mentioned more in. The implementation method can reflect the semantics of every text data and solve the problem of identifying hot topics based on single words in the existing technology, improving the efficiency and accuracy of determining hot topics.

【技术实现步骤摘要】
一种检测热点话题类别的方法和装置
本专利技术涉及计算机
,尤其涉及一种检测热点话题类别的方法和装置。
技术介绍
社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台,现阶段主要包括社交网站、微博、博客、论坛、播客等等,其已经成为人们获取或发布绝大多数日常话题的最重要的信息载体。由于社交媒体数据的即时性与互动性,此类数据可以很大程度上反应人们对于产品、市场或商业活动的讨论情况和观点,这些信息对于很多企业来说都具有很大的参考价值。对于微博、Instagram、Twitter、Facebook等社交媒体每天产生的大量信息,需检测出社交媒体的文本数据中的热点话题,即受广大群众关注或欢迎的话题。现阶段检测热点话题的方法中,主要是通过检测词语出现的频率并且将出现频率较高的词语确定为热点话题,或者系统人员根据经验或者数据查看自行设置话题词语。上述检测热点话题的方法不仅效率低,而且由于词语并不能完全体现出数据本文的语义,所以仅通过词语的频率而不考虑每个文本的语义,会导致检测出的热点话题不准确。
技术实现思路
有鉴于此,本专利技术实施例提供一种检测热点话题类别的方法和装置,能够根据文本数本文档来自技高网...
一种检测热点话题类别的方法和装置

【技术保护点】
一种检测热点话题类别的方法,其特征在于,包括:将获取到的多个文本数据中的每个文本数据转换为文本向量,从而得到多个文本向量;对所述多个文本向量进行聚类处理,以确定出一个以上的类别;从所述一个以上的类别中筛选出热点话题类别。

【技术特征摘要】
1.一种检测热点话题类别的方法,其特征在于,包括:将获取到的多个文本数据中的每个文本数据转换为文本向量,从而得到多个文本向量;对所述多个文本向量进行聚类处理,以确定出一个以上的类别;从所述一个以上的类别中筛选出热点话题类别。2.根据权利要求1所述的方法,其特征在于,在将获取到的多个文本数据中的每个文本数据转换为文本向量之前,还包括:根据预设的检测目标确定一个或几个目标关键词,以及设置时间段;从社交媒体中获取所述时间段内的包含所述一个或几个目标关键词的多个文本数据;对获取到的多个文本数据进行过滤处理。3.根据权利要求2所述的方法,其特征在于,从社交媒体中获取所述时间段内的包含所述一个或几个目标关键词的多个文本数据之后,还包括:获取所述多个文本数据的操作数据;从所述一个以上的类别中筛选出热点话题类别的步骤包括:对于所述一个以上的类别中的每个类别,确定该类别包含的文本向量的数量,以及每个类别中包含的文本向量所对应的文本数据的操作数据;根据所述每个类别包含的文本向量的数量与文本数据的操作数据,从所述一个以上的类别中筛选出热点话题类别。4.根据权利要求2所述的方法,其特征在于,所述社交媒体为微博,且所述操作数据包括但不局限于转发数、评论数和点赞数。5.根据权利要求1所述的方法,其特征在于,在将获取到的多个文本数据中的每个文本数据转换为文本向量之前,还包括:对获取到的多个文本数据进行分词处理,以得到语料库;将获取到的多个文本数据中的每个文本数据转换为文本向量的步骤包括:基于所述语料库,通过doc2vec将获取到的多个文本数据中的每个文本数据转换为对应的文本向量。6.根据权利要求1所述的方法,其特征在于,所述对所述文本向量进行聚类处理的步骤包括:步骤1:设置k值,并从所述文本向量中选出k个文本向量作为k个聚类中心;步骤2:对于每个文本向量,计算出该文本向量与当前的k个聚类中心的余弦相似度,并将该文本向量聚类到最大余弦相似度所对应的聚类中心,以得到k个新的聚类中心;步骤3:计算出每个新的聚类中心的均值;步骤4:根据每个当前的聚类中心与其均值的比较,判断所述k个当前的聚类中心是否发生变化,以及执行步骤2的次数是否达到预设值;若发生变化且执行步骤2的次数达到预设值,则执行步骤2;否则,将所述k个当前的聚类中心分别确定为最终的类别。7.一种检测热点话...

【专利技术属性】
技术研发人员:李树海
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1