一种抽样分析方法、系统和设备技术方案

技术编号:3755233 阅读:325 留言:0更新日期:2012-04-11 18:40
本申请公开了一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,该方法包括:根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集;计算所述查询关键词子集的抽样数目;根据所述抽样数目在所述查询关键词子集中抽取查询数据。通过本申请的实施例,可以从海量的并且经过初步统计整理的查询关键词集合中随机抽取出所需的查询数据,既可以减少后续计算所需的存储量,又能够解决很多方法中小概率低频查询被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实分布,从而为搜索引擎服务提供商提供准确的用户查询需求和市场动态信息,提高服务质量。

【技术实现步骤摘要】

本申请涉及计算机网络
,特别涉及一种抽样分析方法、系统和 设备。
技术介绍
搜索引擎一般会记载用户的查询记录,对于大型搜索引擎,在一定时间 段内用户的查询记录是海量数据,而有很大比例的用户查询关键词是重复查 询,比如对于最近的热门事件,不同用户进行的查询是相近甚至相同的。搜索引擎服务提供商为了提供更好的服务,会对用户的查询记录进行处理,而 一个基础的处理步骤就是将相同查询关键词进行合并,这样可以大量缩小数据存储占用的内存或者^f兹盘空间。比如,最近有20oo个查询关^:词是"阿里巴巴",那么经过合并后的数据形式是"阿里巴巴2000",其中"阿里巴巴" 代表用户查询关键词,2000代表该查询关键词在一段时期的Query Log (查询 日志)中出现的次数。但是对于这种已经初步经过整理的统计数据,如何进 行查询关键词抽样才能够使得其抽样数据接近于查询关4定词的真实分布就成 为一个需要解决的问题。在现有4支术中,对于"查询关4建词PV (Page View,查询记录)"这种 格式的统计数据,首先要计算每个查询关键词在所有查询关键词中所占的比 例,其中PV代表查询关键词在搜索平台出现的次数的统计信息。比如说,对 于"阿里巴巴2000"这个查询数据,首先将查询关键词集合中的所有查询关 键词PV值之和统计出来,假设这个PV总值是100万,代表了所有用户查询关 键词数目是100万条,然后计算"阿里巴巴,,这个查询关键词在所有查询关键 词中的比例,可知这个比例为2000/1000000=0.0025,这个数据的含义是在 所有查询关键词中,"阿里巴巴"这个查询关键词被随机抽取到的概率是 0.0025。当所有查询关键词的抽取概率计算结果得到后,可以根据某个查询关键词的抽取概率在所有查询关键词组成的集合中进行查询关键词抽样,从而 获得相应查询关键词最终的抽样数据,通过对抽样数据的分析了解用户查询 关键词的分布情况。比如,在PV总值为100万的查询关键词集合中,预计抽取 1万条的查询记录作为查询关键词试样进行分析。具体查询关键词抽样过程如下根据某个查询关键词的抽取概率确定该查询关键词的抽样数目,即=* (该查询关键词的抽取概率),其 中,查询关键词的抽样数目和预计抽样数目均为正整数。比如,"阿里巴巴,, 这个查询关键词被随机抽到的概率是0.0025,则在"阿里巴巴2000"这个查 询记录中抽取10000*0.0025=25个"阿里巴巴"查询关4建词作为查询关4建词试 样;相同的,其他查询关键词被进行抽样分析的数目可以根据上述计算公式 得到;所有查询关键词的抽样数目之和为l万。相对于100万条查询记录来说, 对l万条抽样查询记录进行分析处理,数据分析师的工作量和运算步骤会大大 降低,提高了工作效率。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题 如果需要抽取的数据数目较大时,现有技术中的抽样分析方法能够在一定程度上模拟真实的数据分布进行数据抽样,但是当需要抽取的数目是中等 或者小规模的情况,抽取结果会与数据真实分布有较大的失真。原因在于 在数据统计中,很多数据的统计分布都具有长尾的特性,所谓长尾,即出现 频率很低的实体或者数据个数非常多,具体在用户通过搜索引擎查询关键词 来说,就是很多用户查询的关键词只出现了很少的次数,比如某些查询的关 键词只出现了1次或者2次。虽然某个关键词出现概率很低,但是这些出现低 频的查询关键词总数在总的查询关键词个数中所占的比例却很大。对于这种 长尾分布的情况,如果采取上述现有技术中的抽样分析方法,会导致无法抽 取到低频查询关键词。比如某个应用的目标是需要抽取2000个查询关键词, 其中查询PV总数为100万,对于某个查询关键词,以"电子商务l"来说,其被 抽取到的概率仅为百万分之一 ,所以利用上述方法是抽取不到低频查询关键同,从而无法根据搜索引擎中查询关键词的抽样分析准确了解用户需求信息和市场动态,也就不能很好的为用户提供方便、快捷的电子商务的网上交易 服务。
技术实现思路
本申请实施例提供一种抽样分析方法、系统和设备,用于对大规模搜索 引擎查询的数据分析,以实现在使用尽可能少的存储空间的情况下得到真实 的数据抽样,准确了解用户需求信息和市场动态,提高服务质量。为达到上述目的,本申请实施例一方面提供了一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,包括以下步骤根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查 询关键词子集;计算所述查询关4定词子集的抽样数目;根据所述抽样数目在所述查询关键词子集中抽取查询数据。本申请实施例另一方面提供了一种抽样分析设备,用于对大规模搜索引 擎查询的数据分析,包括划分模块,用于根据不同查询关键词的查询记录PV值将查询关键词划分 为至少 一个查询关4建词子集;计算模块,用于计算通过所述划分模块划分的所述查询关键词子集的抽 样数目;抽样模块,用于根据所述计算模块得到的抽样数目在所述划分模块划分 的所述查询关键词子集中抽取查询数据。另一方面,本申请实施例还提供了一种抽样分析系统,用于对大规模搜 索引擎查询的数据分析,包括搜索平台,用于为用户查询提供搜索服务,记录不同查询关键词的PV值;抽样分析设备,用于根据所述搜索平台记录的不同查询关键词的PV值将 查询关键词划分为至少一个查询关键词子集,计算所述查询关键词子集的抽 样数目,根据所述抽样数目在所述查询关键词子集中抽取查询数据。与现有技术相比,本申请实施例具有以下优点可以从海量的并且经过初步统计整理的查询关键词集合中随机抽取出所需的查询记录,既可以减少 后续计算所需的存储量,又能够解决现有抽样分析方法中小概率低频查询关 键词被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实分布;搜索引擎服务提供商可以 根据抽样数据建立完善的数学模型,获取真实有效的数据分布信息,准确了 解用户需求和市场动态,适当调整搜索引擎的服务内容,从而更好的为用户 提供方便、快捷的电子商务网上交易平台,提高服务质量。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申 请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图获得其他的附图。图l是本申请实施例一中一种抽样分析方法流程图2是本申请实施例二中两阶段抽样分析方法流程图3是本申请实施例二中第一阶段抽样方法流程图4是本申请实施例二中第二阶段抽样方法流程图5是本申请实施例三中一种抽样分析系统结构示意图6是本申请实施例三中抽样分析设备结构示意图。具体实施例方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例, 而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例一提供了一种抽样分析方法,用于对大规;漠搜索引擎查询 的数据分析,具体包括以下步骤步骤SlOl,根据不同查询关键词的PV值将查询关键词划分为至少一个查询关键词本文档来自技高网
...

【技术保护点】
一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,其特征在于,包括: 根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集; 计算所述查询关键词子集的抽样数目; 根据所述抽样数目在所述查询关键词子 集中抽取查询数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:侯磊孙健张俊林张勤
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:VG[英属维尔京群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1