网页搜索关键词的相关性检测方法及装置制造方法及图纸

技术编号:11116638 阅读:124 留言:0更新日期:2015-03-06 13:50
本发明专利技术公开了一种网页搜索关键词的相关性检测方法及装置。该网页搜索关键词的相关性检测方法包括:获取多个网页搜索关键词;分别获取多个网页搜索关键词对应的网页的统一资源定位符;统计第一数量;统计第二数量;根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测,解决了网页搜索关键词之间的相关性检测不准确的问题,进而通过第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的相关性,达到了提高网页搜索关键词之间的相关性检测的准确性的效果。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体而言,涉及一种网页搜索关键词的相关性检测方法和装置。
技术介绍
用户通常会抱有一定的目的和意图浏览网站。对于一个网站而言,了解用户访问的真实意图非常重要。通常,网站会根据用户浏览网站的行为轨迹构造模型,以训练分类器的方法对访问网站的用户进行分类,或是通过分析网站站内搜索词的热度来了解用户的需求。由于进行站内搜索是用户主动寻找信息的行为,因此,在一定程度上可以描述用户的需求。用户需求可以通过对用户在网站中的站内搜索词进行聚类的方式来加以识别。传统的站内搜索词聚类方法依赖于搜索词本身,通过词语间字面上的重叠进行计算,实现方法如下:首先,对搜索关键词进行字面上的拆解(包括逐子或分词),拆解以后的搜索关键词可以表示为以词(字)为单元的序列串;然后,逐一计算每一对搜索关键词的相似度,即比较两个搜索词的词串的吻合程度,并获取二者的相似度;最后,使用聚类算法进行关键词聚类。用户需求与站内搜索词之间应存在多对多的关系,即一种用户需求可以通过多个站内搜索词来表示,一个站内搜索词也可以表示多种不同的用户需求。现有的搜索词聚类方法仅仅通过搜索关键词字面上的吻合程度建立联系并不符合实际情况;同时,生硬地构造了一种搜索关键词间的相关关系,聚类结果可信度差,比如,“三星”和“苹果”不包含任何字面上的匹配,但是相关性应该很高,而“本田”和“本源”是完全无关的两个词,但是字面上仍然存在着相关关系;另外,现有方法需要计算每两个搜索关键词之间的相似度,因此时间复杂度为o(n2),不适用于大规模数据挖掘。针对相关技术中网页搜索关键词之间的相关性检测不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
针对现有的网页搜索关键词之间的相关性检测不准确的问题而提出本专利技术,为此,本专利技术的主要目的在于提供一种网页搜索关键词的相关性检测方法及装置,以解决上述问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种网页搜索关键词的相关性检测方法。该方法包括:获取多个网页搜索关键词,其中,多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;分别获取多个网页搜索关键词对应的网页的统一资源定位符,其中,第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合,第一统一资源定位符集合包括第一统一资源定位符,第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合,第二统一资源定位符集合包括第二统一资源定位符;统计第一数量,其中,第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数;统计第二数量,其中,第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数;根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。进一步地,第一统一资源定位符集合还包括第三统一资源定位符,第二统一资源定位符集合还包括第四统一资源定位符,根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测之前,该方法还包括:统计第三数量,其中,第三数量为第一网页搜索关键词对应的网页的统一资源定位符为第三统一资源定位符的个数;统计第四数量,其中,第四数量为第二网页搜索关键词对应的网页的统一资源定位符为第四统一资源定位符的个数;根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测包括:根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第一相关性数值;根据第一统一资源定位符、第四统一资源定位符、第一数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第二相关性数值;根据第三统一资源定位符、第二统一资源定位符、第三数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第三相关性数值;根据第三统一资源定位符、第四统一资源定位符、第三数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第四相关性数值;确定第一相关性数值、第二相关性数值、第三相关性数值和第四相关性数值之和为第一网页搜索关键词和第二网页搜索关键词之间的相关性对应的数值。进一步地,根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第一相关性数值包括:判断第一统一资源定位符和第二统一资源定位符是否相同;如果第一统一资源定位符和第二统一资源定位符不相同,则确定第一相关性数值为0;如果第一统一资源定位符和第二统一资源定位符相同,则将第一数量和第二数量进行比较,根据比较结果获取目标数量,其中,目标数量为第一数量和第二数量中较小的数量值;确定目标数量为第一相关性数值。进一步地,在对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测之后,该方法还包括:根据第一网页搜索关键词和第二网页搜索关键词之间的相关性,获取第一网页搜索关键词和第二网页搜索关键词之间的从属概率,其中,从属概率为第一网页搜索关键词和第二网页搜索关键词属于一个关键词类的概率;根据从属概率将多个网页搜索关键词划分为关键词类。进一步地,根据第一网页搜索关键词和第二网页搜索关键词之间的相关性,获取第一网页搜索关键词和第二网页搜索关键词之间的从属概率包括:确定第一数值,其中,第一数值为第一网页搜索关键词和第二网页搜索关键词之间的相关性对应的数值;分别获取第二网页搜索关键词与除第二网页搜索关键词之外的多个网页搜索关键词之间的相关性;分别确定多个相关性对应的数值;确定第二数值,其中,第二数值为多个相关性对应的数值之和;确定第一数值和第二数值之商为第一网页搜索关键词和第二网页搜索关键词之间的从属概率。进一步地,根据从属概率将多个网页搜索关键词划分为关键词类包括:确定第一关键词簇,其中,第一关键词簇仅包括第一网页搜索关键词;根据从属概率和第一关键词簇获取第二关键词簇;判断第一关键词簇和第二关键词簇之间的差异是否小于预设阈值;如果第一关键词簇和第二关键词簇之间的差异不小于预设阈值,则根据从属概率和第二关键词簇获取第三关键词簇;确定第二关键词簇为第一关键词簇,第三关键词簇为第二关键词簇,继续判断第一关键词簇和第二关键词本文档来自技高网
...
网页搜索关键词的相关性检测方法及装置

【技术保护点】
一种网页搜索关键词的相关性检测方法,其特征在于,包括:获取多个网页搜索关键词,其中,所述多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,所述第一网页搜索关键词和所述第二网页搜索关键词为不同的网页搜索关键词;分别获取所述多个网页搜索关键词对应的网页的统一资源定位符,其中,所述第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合,所述第一统一资源定位符集合包括第一统一资源定位符,所述第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合,所述第二统一资源定位符集合包括第二统一资源定位符;统计第一数量,其中,所述第一数量为所述第一网页搜索关键词对应的网页的统一资源定位符为所述第一统一资源定位符的个数;统计第二数量,其中,所述第二数量为所述第二网页搜索关键词对应的网页的统一资源定位符为所述第二统一资源定位符的个数;以及根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测。

【技术特征摘要】
1.一种网页搜索关键词的相关性检测方法,其特征在于,包括:
获取多个网页搜索关键词,其中,所述多个网页搜索关键词包括第一网页搜
索关键词和第二网页搜索关键词,所述第一网页搜索关键词和所述第二网页搜索
关键词为不同的网页搜索关键词;
分别获取所述多个网页搜索关键词对应的网页的统一资源定位符,其中,所
述第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集
合,所述第一统一资源定位符集合包括第一统一资源定位符,所述第二网页搜索
关键词对应的网页的统一资源定位符为第二统一资源定位符集合,所述第二统一
资源定位符集合包括第二统一资源定位符;
统计第一数量,其中,所述第一数量为所述第一网页搜索关键词对应的网页
的统一资源定位符为所述第一统一资源定位符的个数;
统计第二数量,其中,所述第二数量为所述第二网页搜索关键词对应的网页
的统一资源定位符为所述第二统一资源定位符的个数;以及
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和
所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关
性进行检测。
2.根据权利要求1所述的方法,其特征在于,
所述第一统一资源定位符集合还包括第三统一资源定位符,所述第二统一资
源定位符集合还包括第四统一资源定位符,根据所述第一统一资源定位符、所述
第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词
和所述第二网页搜索关键词之间的相关性进行检测之前,所述方法还包括:
统计第三数量,其中,所述第三数量为所述第一网页搜索关键词对应的网页
的统一资源定位符为所述第三统一资源定位符的个数;以及
统计第四数量,其中,所述第四数量为所述第二网页搜索关键词对应的网页
的统一资源定位符为所述第四统一资源定位符的个数,
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和
所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关
性进行检测包括:
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和

\t所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第
一相关性数值;
根据所述第一统一资源定位符、所述第四统一资源定位符、所述第一数量和
所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第
二相关性数值;
根据所述第三统一资源定位符、所述第二统一资源定位符、所述第三数量和
所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第
三相关性数值;
根据所述第三统一资源定位符、所述第四统一资源定位符、所述第三数量和
所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第
四相关性数值;以及
确定所述第一相关性数值、所述第二相关性数值、所述第三相关性数值和所
述第四相关性数值之和为所述第一网页搜索关键词和所述第二网页搜索关键词之
间的相关性对应的数值。
3.根据权利要求2所述的方法,其特征在于,根据所述第一统一资源定位符、所述
第二统一资源定位符、所述第一数量和所述第二数量获取所述第一网页搜索关键
词和所述第二网页搜索关键词之间的第一相关性数值包括:
判断所述第一统一资源定位符和所述第二统一资源定位符是否相同;
如果所述第一统一资源定位符和所述第二统一资源定位符不相同,则确定所
述第一相关性数值为0;
如果所述第一统一资源定位符和所述第二统一资源定位符相同,则将所述第
一数量和所述第二数量进行比较,根据比较结果获取目标数量,其中,所述目标
数量为所述第一数量和所述第二数量中较小的数量值;以及
确定所述目标数量为所述第一相关性数值。
4.根据权利要求1所述的方法,其特征在于,在对所述第一网页搜索关键词和所述
第二网页搜索关键词之间的相关性进行检测之后,所述方法还包括:
根据所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性,获
取所述第一网页搜索关键词和所述第二网页搜索关键词之间的从属概率,其中,
所述从属概率为所述第一网页搜索关键词和所述第二网页搜索关键词属于一个关
键词类的概率;以及
根据所述从属概率将所述多个网页搜索关键词划分为关键词类。
5.根据权利要求4所述的方法,其特征在于,根据所述第一网页搜索关键词和所述
第二网页搜索关键词之间的相关性,获取所述第一网页搜索关键词和所述第二网
页搜索关键词之间的从属概率包括:
确定第一数值,其中,所述第一数值为所述第一网页搜索关键词和所述第二
网页搜索关键词之间的相关性对应的数值;
分别获取所述第二网页搜索关键词与除所述第二网页搜索关键词之外的多个
网页搜索关键词之间的相关性;
分别确定所述多个相关性对应的数值;
确定第二数值,其中,所述第二数值为所述多个相关性对应的数值之和;以

确定所述第一数值和所述第二数值之商为所述第一网页搜索关键词和所述第
二网页搜索关键词之间的从属概率。
6.根据权利要求4所...

【专利技术属性】
技术研发人员:何鑫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1