热词统计方法及装置、存储介质、电子终端制造方法及图纸

技术编号:24708270 阅读:32 留言:0更新日期:2020-07-01 00:00
本公开涉及数据处理技术领域,具体涉及一种热词统计方法、一种热词统计装置、一种存储介质以及一种电子终端。所述方法包括:提取当前预设周期内的会话数据;对所述会话数据进行预处理以获取对应的有效文本,并对所述有效文本进行统计以获取对应的计数;根据所述有效文本及对应的计数更新有序排列的当前热词链表;其中,所述当前热词链表包括当前关键词对象以及对应的当前计数。本公开能够通过利用链表的形式对热词进行排序,可以简化对关键词对象统计的更新流程,实现对热词排行的快速获取。

【技术实现步骤摘要】
热词统计方法及装置、存储介质、电子终端
本公开涉及数据处理
,具体涉及一种热词统计方法、一种热词统计装置、一种存储介质以及一种电子终端。
技术介绍
随着互联网技术的快速发展,人们通过网络获取信息、购物已经成为了生活中不可缺少的一部分。而通过统计热词能够准确的反应一个时期内人们普遍关注的话题、事务或商品。对于购物网站来说,商家也可以根据热词统计用户当前最感兴趣或主要关注的商品或问题。但现有的热词统计和分析方法仍存在一定的不足。例如,现有的热词统计方式一般需要参照大量的网站的历史访问数据,通过对历史数据进行统计和分析获取当前的关键热词。但这样的热词统计方法并不能对热词进行实时的统计,无法满足网站以及用户对于热词的时效性的需求。尤其在一些特定的促销日,购物网站的访问量和咨询量激增,导致网站访问的数据量巨大,对于一些热点、爆点的问题并不能及时的通过统计和分析而发现和处理。另外,在短时间内对海量的历史数据进行统计和分析获取热词,也容易使服务器的数据压力过大。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包本文档来自技高网...

【技术保护点】
1.一种热词统计方法,其特征在于,包括:/n提取当前预设周期内的会话数据;/n对所述会话数据进行预处理以获取对应的有效文本,并对所述有效文本进行统计以获取对应的计数;/n根据所述有效文本及对应的计数更新有序排列的当前热词链表;其中,所述当前热词链表包括当前关键词对象以及对应的当前计数。/n

【技术特征摘要】
1.一种热词统计方法,其特征在于,包括:
提取当前预设周期内的会话数据;
对所述会话数据进行预处理以获取对应的有效文本,并对所述有效文本进行统计以获取对应的计数;
根据所述有效文本及对应的计数更新有序排列的当前热词链表;其中,所述当前热词链表包括当前关键词对象以及对应的当前计数。


2.根据权利要求1所述的方法,其特征在于,所述对所述会话数据进行预处理以获取有效文本包括:
对所述会话数据进行泛化处理、分词处理,以获取对应的有效文本。


3.根据权利要求2所述的方法,其特征在于,所述对所述会话数据进行泛化处理、分词处理前,所述方法还包括:
利用预设关键词黑名单对所述会话数据进行过滤处理。


4.根据权利要求1所述的方法,其特征在于,所述有效文本包括至少一个关键词,所述根据所述有效文本及对应的计数更新有序排列的当前热词链表包括:
判断所述当前热词链表中是否包括所述关键词;
在判断所述当前热词链表中包括所述关键词时,根据所述关键词的计数更新所述当前热词链表中所述当前关键词对象的计数;
根据所述当前关键词对象更新后的计数更新其在热词链表中的排序位置。


5.根据权利要求4所述的方法,其特征在于,所述根据所述当前关键词对象更新后的计数更新其在热词链表中的排序位置后,所述方法还包括:
根据所述当前关键词对象更新前的所述当前计数以及更新后的计数统计该关键词对象对应的变化率。


6.根据权利要求4所述的方法,其特征在于,所述热词链表包括预设数量的关键词对象,所述根据所述有效文本及对应的计数更新有序排列的当前热词链表还包括:
若判断所述当前热词链表中不包括所述关键词,则读取所述当前热词链表中的关键词对象数量;
若所述当前热词链表中的关键词对象数量小于预设数量,则将所述关键词添加至所述当前热词链表,...

【专利技术属性】
技术研发人员:胡晓
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1