一种基于搜索行为的网络热点话题判定方法和系统技术方案

技术编号:27432790 阅读:33 留言:0更新日期:2021-02-25 03:08
本发明专利技术涉及一种基于搜索行为自动发现和判定网络热点话题的方法,包括:采用文本的聚类方法、热点发掘算法和分词矩阵技术来实现热点的发现。也就是当一个类的规模很大的时候,运用文本的聚类方法、热点发掘算法和分词矩阵技术就可以判定它是一个话题(Topic)。由于传统的一些话题提取算法都是基于比较正式的文章或是比较专业的论文,而在这里我们需要针对网络搜索行为的特点来实现热点提取算法,这些搜索行为的特征体现为一些字词或者关键词汇。由于网络上的话题存在相关性,因此将文本的聚类方法、关联关系算法和分词矩阵技术引入到话题提取算法中,从而实现网络热点话题的自动判断和自主发现。断和自主发现。断和自主发现。

【技术实现步骤摘要】
一种基于搜索行为的网络热点话题判定方法和系统


[0001]本专利技术涉及大数据分析
,并特别涉及一种基于搜索行为的网络热点话题判定方法和系统。

技术介绍

[0002]中国互联网络信息中心(CNNIC)发布第39次《中国互联网络发展状况统计报告》。报告显示,截止到2016年12月,中国网民规模达7.31亿,相当于欧洲人口总量,互联网普及率达到53.2%,超过全球平均水平3.1个百分点,超过亚洲平均水平7.6个百分点。现在,全国有大约7亿网民活跃在网上,每天产生300多亿条信息,信息从稀缺到泛滥,舆论从单一到多元。
[0003]据中国互联网调查中心调查显示,超过九成(90.4%)的网民承认,需要信息时,首先想到的就是去互联网上寻找或者去搜索引擎搜索;超过3/4(76.3%) 的网民承认,互联网是获取重大新闻的首选渠道。
[0004]热点话题是指一定时间、一定范围内,公众最为关心的热点问题。往往随着时间的推移,热点话题在不断变化。如当前社会的热门话题应该就是人民群众最关心、最直接、最现实的教育、社保、医疗、楼市、股市、劳动就业问本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于搜索行为的网络热点话题判定方法,其特征在于,包括:步骤1、获取已标注事件类别的文章,作为训练数据;步骤2、集合该训练数据中出现的词,并根据每一种事件类别文章中该词的数量,为每一个该词分配对应的事件类别,以训练得到词分类模型;步骤3、根据用户的搜索行为,得到预设周期内用户搜索的热点关键词,使用该词分类模型对该热点关键词进行分类,得到该热点关键词对应的事件类别;步骤4、根据该热点关键词对应的事件类别,统计该预设周期内每一种事件类别对应的热点关键词数量,将对应热点关键词数量大于阈值的事件类别作为网络热点话题。2.如权利要求1所述的基于搜索行为的网络热点话题判定方法,其特征在于,该步骤3还包括:若该词分类模型无法对该热点关键词进行分类,则获取该预设周期内具有该热点关键词的文章,作为待分类文章,将该待分类文章中的词,输入至该词分类模型,得到该待分类文章中每一个词对应的事件类别,在该待分类文章中统计每个事件类别对应的词的数量,以得到每一篇该待分类文章的事件类别,并根据每一种事件类别对应的待分类文章数量,确定该热点关键词对应的事件类别。3.如权利要求1所述的基于搜索行为的网络热点话题判定方法,其特征在于,该步骤3还包括:若该词分类模型无法对该热点关键词进行分类,则获取该预设周期内具有该热点关键词的文章,作为待分类文章,获取该待分类文章所属网站的分类,作为为该待分类文章的事件类别,并根据每一种事件类别对应的待分类文章数量,确定该热点关键词对应的事件类别。4.如权利要求1或2或3所述的基于搜索行为的网络热点话题判定方法,其特征在于,该步骤3包括:根据用户的搜索行为,得到用户的搜索词,进一步统计得到该预设周期内搜索词的数量、频率以及相较于上一预设周期频率的变化率,若该搜索词的数量或频率或变化率超过预设值,则将该搜索词判定为该热点关键词。5.如权利要求1所述的基于搜索行为的网络热点话题判定方法,其特征在于,该步骤4包括:步骤41、通过聚类算法、关联关系算法和分词矩阵算法,分析热点关键词数量大于阈值的事件类别之间的关系,以得到该网络热点话题。6.一种基于搜索行为的网络热点话题判定系统...

【专利技术属性】
技术研发人员:杜小军丁雨
申请(专利权)人:北京中润普达信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1