The invention belongs to the field of computer technology, in particular to a hot word analysis method, a computer readable storage medium and a terminal device. The method crawls a web page published on a target website within the current statistical cycle through a search engine, cuts the text information in the web page into words, obtains each word constituting the text information, counts the exposure frequency of each word in the text information, and will expose the frequency in the text information. Words larger than the preset first exposure threshold are determined as hot words; the exposure frequency of each enterprise name in the preferred text information is counted; and the association degree between each enterprise name and the hot words is calculated according to the exposure frequency of each enterprise name in the preferred text information. The invention provides a set of objective evaluation criteria for the determination of hot words, and after the hot words are obtained, the relationship between the enterprise and the hot words is comprehensively considered, and the analysis results have stronger guiding significance for the enterprise.
【技术实现步骤摘要】
一种热词分析方法、计算机可读存储介质及终端设备
本专利技术属于计算机
,尤其涉及一种热词分析方法、计算机可读存储介质及终端设备。
技术介绍
热词,即网络热门词汇,是指一种词汇现象,反映了一个国家、一个地区在一个时期人们普遍关注的问题和事物。热词具有时代特征,可以作为一个时期的热点话题及民生问题的代表。目前对于热词的确定,主要是由网络分析人员根据自己在互联网上所浏览到信息进行处理所得到的,这种方式依赖于网络分析人员个人的判断,主观性极强,难以客观地反应真实的热词情况,而且在得到热词之后,往往仅仅是只针对热词进行片面的分析,分析维度单一,分析结果对于企业的指导意义极差。
技术实现思路
有鉴于此,本专利技术实施例提供了一种热词分析方法、计算机可读存储介质及终端设备,以解决现有技术中热词的确定过程主观性极强且分析结果对于企业的指导意义极差的问题。本专利技术实施例的第一方面提供了一种热词分析方法,可以包括:通过搜索引擎爬取当前统计周期内在目标网站上发布的网页,所述目标网站为浏览量大于预设的浏览量阈值的网站;对所述网页中的文本信息进行切词处理,得到构成所述文本信息的各个分词 ...
【技术保护点】
1.一种热词分析方法,其特征在于,包括:通过搜索引擎爬取当前统计周期内在目标网站上发布的网页,所述目标网站为浏览量大于预设的浏览量阈值的网站;对所述网页中的文本信息进行切词处理,得到构成所述文本信息的各个分词;统计各个分词在所述文本信息中的曝光频次;将在所述文本信息中的曝光频次大于预设的第一曝光阈值的分词确定为热词;统计各个企业名称在优选文本信息中的曝光频次,所述优选文本信息为包含所述热词的文本信息;根据各个企业名称在所述优选文本信息中的曝光频次计算各个企业名称与所述热词之间的关联度。
【技术特征摘要】
1.一种热词分析方法,其特征在于,包括:通过搜索引擎爬取当前统计周期内在目标网站上发布的网页,所述目标网站为浏览量大于预设的浏览量阈值的网站;对所述网页中的文本信息进行切词处理,得到构成所述文本信息的各个分词;统计各个分词在所述文本信息中的曝光频次;将在所述文本信息中的曝光频次大于预设的第一曝光阈值的分词确定为热词;统计各个企业名称在优选文本信息中的曝光频次,所述优选文本信息为包含所述热词的文本信息;根据各个企业名称在所述优选文本信息中的曝光频次计算各个企业名称与所述热词之间的关联度。2.根据权利要求1所述的热词分析方法,其特征在于,在所述统计各个分词在所述文本信息中的曝光频次之后,还包括:将在所述文本信息中的曝光频次小于或等于所述第一曝光阈值且大于预设的第二曝光阈值的分词确定为候选分词;从历史统计记录中获取各个候选分词在所述当前统计周期之前的T个统计周期内的曝光频次,其中,T为正整数;将满足下述条件的候选分词确定为热词:对于任意的t的取值,不等式均成立,其中,n为所述候选分词的序号,1≤n≤N,N为所述候选分词的总数,t为各个统计周期按照时间先后顺序依次排列的序号,1≤t≤T,ExpNumn,t为第n个候选分词在第t个统计周期内的曝光频次,ExpNumn,T+1为第n个候选分词在所述当前统计周期内的曝光频次,ln为自然对数函数,ThreshRatio为预设的比例阈值。3.根据权利要求2所述的热词分析方法,其特征在于,所述第一曝光阈值和所述第二曝光阈值的设置过程包括:从历史统计记录中获取各个历史热词在各个统计周期内的曝光频次,所述历史热词为在所述当前统计周期之前已经确定的热词;根据下式构造各个历史热词的第一曝光序列:其中,nh为所述历史热词的序号,1≤nh≤NH,NH为所述历史热词的总数,th为各个统计周期按照时间先后顺序依次排列的序号,1≤th≤THnh,THnh为第nh个历史热词的统计周期的总数,HsExpNumnh,th为第nh个历史热词在第th个统计周期内的曝光频次,ExpSeq1nh为第nh个历史热词的第一曝光序列;根据下式计算各个第一曝光序列的均值:其中,AvExpSeq1nh为第nh个第一曝光序列的均值;根据下式构造各个第一曝光序列的均值按照从大到小的顺序依次排列的序列:{AvExpSeq11′,AvExpSeq12′,......,AvExpSeq1nh1′,......,AvExpSeq1NH′}其中,AvExpSeq1nh1′为按照从大到小的顺序排列在第nh1位上的第一曝光序列的均值,1≤nh1≤NH;根据下式计算所述第一曝光阈值:其中,NMAX=floor(ξmax×NH),ξmax为预设的系数,且0<ξmax<1,floor为向下取值函数,Threshold1为所述第一曝光阈值;根据下式计算所述第二曝光阈值:其中,NMIN=floor(ξmin×NH),ξmin为预设的系数,且0<ξmin<1,Threshold2为所述第二曝光阈值。4.根据权利要求3所述的热词分析方法,其特征在于,在计算各个第一曝光序列的均值之后,还包括:根据下式构造各个历史热词的第二曝光序列:其中,HsExpNumnh,th1′∈ExpSeq1nh,1≤th1≤THnh,HsExpNumnh,th1′≥HsExpNumnh,th1+1′,ExpSeq2nh为第nh个历史热词的第二曝光序列;根据下式计算各个第二曝光序列的均值:其中,AvExpSeq2nh为第nh个第二曝光序列的均值,TH1nh满足以下条件:HsExpNumnh,TH1′≥AvExpSeq1nh且HsExpNumnh,TH1+1′<AvExpSeq1nh;根据下式构造各个第二曝光序列的均值按照从大到小的顺序依次排列的序列:{AvExpSeq21′,AvExpSeq22′,......,AvExpSeq2nh1′,......,AvExpSeq2NH′}其中,AvExpSeq2nh1′为按照从大到小的顺序排列在第nh1位上的第二曝光序列的均值;根据下式计算所述第一曝光阈值:根据下式计算所述第二曝光阈值:5.根据权利要求1至4中任一项所述的热词分析方法,其特征在于,所述当前统计周期包括M个子周期,其中,M为正整数,所述统计各个企业名称在优选文本信息中的曝光频次包括:统计各个企业名称在各个子时间段的优选文本信息中的曝光频次;所述根据各个企业名称在所述优选文本信息中的曝光频次计算各个企业名称与所述热词之间的关联度包括:根据下式计算各个企业名称与所述热词之间的关联度:其中,q为企业名称的序号,1≤q≤Q,Q为企业名称的总数,p...
【专利技术属性】
技术研发人员:张依,汪伟,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。