【技术实现步骤摘要】
本专利技术涉及数据处理领域,具体而言,涉及一种网页搜索关键词的相关性检测方法和装置。
技术介绍
用户通常会抱有一定的目的和意图浏览网站。对于一个网站而言,了解用户访问的真实意图非常重要。通常,网站会根据用户浏览网站的行为轨迹构造模型,以训练分类器的方法对访问网站的用户进行分类,或是通过分析网站站内搜索词的热度来了解用户的需求。由于进行站内搜索是用户主动寻找信息的行为,因此,在一定程度上可以描述用户的需求。用户需求可以通过对用户在网站中的站内搜索词进行聚类的方式来加以识别。传统的站内搜索词聚类方法依赖于搜索词本身,通过词语间字面上的重叠进行计算,实现方法如下:首先,对搜索关键词进行字面上的拆解(包括逐子或分词),拆解以后的搜索关键词可以表示为以词(字)为单元的序列串;然后,逐一计算每一对搜索关键词的相似度,即比较两个搜索词的词串的吻合程度,并获取二者的相似度;最后,使用聚类算法进行关键词聚类。用户需求与站内搜索词之间应存在多对多的关系,即一种用户需求可以通过多个站内搜索词来表示,一个站内搜索词也可以表示多种不同的用户需求。现有的搜索词聚类方法仅仅通过搜索关键词字面上的吻合程度建立联系并不符合实际情况;同时,生硬地构造了一种搜索关键词间的相关关系,聚类结果可信度差,比如,“三星”和“苹果”不包含任何字面上的匹配,但是相关性应该很高,而“本田”和“本源”是完全无关的两个词,但是字面上仍然存在着相关关系; ...
【技术保护点】
一种网页搜索关键词的相关性检测方法,其特征在于,包括:获取多个网页搜索关键词,其中,所述多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,所述第一网页搜索关键词和所述第二网页搜索关键词为不同的网页搜索关键词;分别获取所述多个网页搜索关键词对应的网页的统一资源定位符,其中,所述第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合,所述第一统一资源定位符集合包括第一统一资源定位符,所述第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合,所述第二统一资源定位符集合包括第二统一资源定位符;统计第一数量,其中,所述第一数量为所述第一网页搜索关键词对应的网页的统一资源定位符为所述第一统一资源定位符的个数;统计第二数量,其中,所述第二数量为所述第二网页搜索关键词对应的网页的统一资源定位符为所述第二统一资源定位符的个数;以及根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测。
【技术特征摘要】
1.一种网页搜索关键词的相关性检测方法,其特征在于,包括:
获取多个网页搜索关键词,其中,所述多个网页搜索关键词包括第一网页搜
索关键词和第二网页搜索关键词,所述第一网页搜索关键词和所述第二网页搜索
关键词为不同的网页搜索关键词;
分别获取所述多个网页搜索关键词对应的网页的统一资源定位符,其中,所
述第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集
合,所述第一统一资源定位符集合包括第一统一资源定位符,所述第二网页搜索
关键词对应的网页的统一资源定位符为第二统一资源定位符集合,所述第二统一
资源定位符集合包括第二统一资源定位符;
统计第一数量,其中,所述第一数量为所述第一网页搜索关键词对应的网页
的统一资源定位符为所述第一统一资源定位符的个数;
统计第二数量,其中,所述第二数量为所述第二网页搜索关键词对应的网页
的统一资源定位符为所述第二统一资源定位符的个数;以及
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和
所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关
性进行检测。
2.根据权利要求1所述的方法,其特征在于,
所述第一统一资源定位符集合还包括第三统一资源定位符,所述第二统一资
源定位符集合还包括第四统一资源定位符,根据所述第一统一资源定位符、所述
第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词
和所述第二网页搜索关键词之间的相关性进行检测之前,所述方法还包括:
统计第三数量,其中,所述第三数量为所述第一网页搜索关键词对应的网页
的统一资源定位符为所述第三统一资源定位符的个数;以及
统计第四数量,其中,所述第四数量为所述第二网页搜索关键词对应的网页
的统一资源定位符为所述第四统一资源定位符的个数,
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和
所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关
性进行检测包括:
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和
\t所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第
一相关性数值;
根据所述第一统一资源定位符、所述第四统一资源定位符、所述第一数量和
所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第
二相关性数值;
根据所述第三统一资源定位符、所述第二统一资源定位符、所述第三数量和
所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第
三相关性数值;
根据所述第三统一资源定位符、所述第四统一资源定位符、所述第三数量和
所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第
四相关性数值;以及
确定所述第一相关性数值、所述第二相关性数值、所述第三相关性数值和所
述第四相关性数值之和为所述第一网页搜索关键词和所述第二网页搜索关键词之
间的相关性对应的数值。
3.根据权利要求2所述的方法,其特征在于,根据所述第一统一资源定位符、所述
第二统一资源定位符、所述第一数量和所述第二数量获取所述第一网页搜索关键
词和所述第二网页搜索关键词之间的第一相关性数值包括:
判断所述第一统一资源定位符和所述第二统一资源定位符是否相同;
如果所述第一统一资源定位符和所述第二统一资源定位符不相同,则确定所
述第一相关性数值为0;
如果所述第一统一资源定位符和所述第二统一资源定位符相同,则将所述第
一数量和所述第二数量进行比较,根据比较结果获取目标数量,其中,所述目标
数量为所述第一数量和所述第二数量中较小的数量值;以及
确定所述目标数量为所述第一相关性数值。
4.根据权利要求1所述的方法,其特征在于,在对所述第一网页搜索关键词和所述
第二网页搜索关键词之间的相关性进行检测之后,所述方法还包括:
根据所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性,获
取所述第一网页搜索关键词和所述第二网页搜索关键词之间的从属概率,其中,
所述从属概率为所述第一网页搜索关键词和所述第二网页搜索关键词属于一个关
键词类的概率;以及
根据所述从属概率将所述多个网页搜索关键词划分为关键词类。
5.根据权利要求4所述的方法,其特征在于,根据所述第一网页搜索关键词和所述
第二网页搜索关键词之间的相关性,获取所述第一网页搜索关键词和所述第二网
页搜索关键词之间的从属概率包括:
确定第一数值,其中,所述第一数值为所述第一网页搜索关键词和所述第二
网页搜索关键词之间的相关性对应的数值;
分别获取所述第二网页搜索关键词与除所述第二网页搜索关键词之外的多个
网页搜索关键词之间的相关性;
分别确定所述多个相关性对应的数值;
确定第二数值,其中,所述第二数值为所述多个相关性对应的数值之和;以
及
确定所述第一数值和所述第二数值之商为所述第一网页搜索关键词和所述第
二网页搜索关键词之间的从属概率。
6.根据权利要求4所...
【专利技术属性】
技术研发人员:何鑫,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。