一种确定搜索项的权重的方法和装置制造方法及图纸

技术编号:13183597 阅读:40 留言:0更新日期:2016-05-11 15:12
本发明专利技术公开了一种确定搜索项的权重的方法和装置。该方法包括:获取搜索数据对的集合;其中所述搜索数据对包括:搜索词和对应的搜索结果内容;根据搜索数据对的集合,确定各搜索词中包含的各搜索项在搜索结果内容中出现的概率;根据各搜索项在搜索结果内容中出现的概率,确定各搜索项的权重。通过本发明专利技术的技术方案,可以充分考虑出现在搜索结果中的各搜索项内容的重要性,大规模地挖掘搜索数据对中片段及片段包含的各搜索项在搜索结果中出现的概率,并根据挖掘出的概率,确定各搜索项的权重。

【技术实现步骤摘要】

本专利技术涉及数据处理
,具体涉及一种确定搜索项的权重的方法和装置
技术介绍
随着计算机网络技术的发展,通过网络搜索数据越来越普遍,而随着网络信息量越来越庞大,用户可以搜索到的数据也越来越多,如何根据用户的需求,在海量的数据中为用户提供最精准的信息,提高搜索效率,成为各大搜索引擎要解决的问题。在现有技术中,根据搜索词中各搜索项(term)的权重来给出搜索结果,以在海量的数据中为用户提供最精准的搜索结果信息。但是搜索词中的各搜索项的权重如何计算才能给出准确的搜索结果却是亟需解决的问题
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的确定搜索项的权重的方法和装置。依据本专利技术的一个方面,提供了一种确定搜索项的权重的方法,该方法包括:获取搜索数据对的集合;其中所述搜索数据对包括:搜索词和对应的搜索结果内容;根据搜索数据对的集合,确定各搜索词中包含的各搜索项在搜索结果内容中出现的概率;根据各搜索项在搜索结果内容中出现的概率,确定各搜索项的权重。可选地,所述根据搜索数据对的集合,确定各搜索词中包含的各搜索项在搜索结果内谷中出现的概率包括:对于搜索数据对集合中的各搜索数据对,确定从各搜索数据对的搜索词能够得到的各连续的片段;以片段为键,并以该片段包含的各搜索项在该片段所在的搜索词对应的搜索结果内容中是否出现的情况为值,输出键值对;在输出的键值对集合中,通过统计键相同的各键值对中的值,得到该键中的各搜索项在搜索结果内容中出现的概率。可选地,所述获取搜索数据对的集合包括:从搜索引擎点击日志中获取搜索数据对组成集合。可选地,所述以该片段包含的各搜索项在该片段所在的搜索词对应的搜索结果内容中是否出现的情况为值包括:确定该片段中包含的搜索项数N,N为自然数;以N位的二进制数作为所述的值,且用每位二进制数的两种可能取值表示对应的搜索项在对应的搜索结果内容中是否出现。可选地,所述通过统计键相同的各键值对中的值,得到该键中的各搜索项在搜索结果内谷中出现的概率包括:对于该相同的键中的每个搜索项,统计该搜索项在所述键相同的各键值对的值中表现为在搜索结果内容中出现的次数,记为第一数值;统计所述键相同的各键值对的个数,记为第二数值;根据所述第一数值和第二数值的比值,确定该搜索项在搜索结果内容中出现的概率。可选地,所述以该片段包含的各搜索项在该片段所在的搜索词对应的搜索结果内容中是否出现的情况为值包括:确定该片段中包含的搜索项数N,N为自然数;以N位的二进制数作为所述的值,且用每位二进制数取值I时表示对应的搜索项在对应的搜索结果内容出现,取值O时表不未出现;所述通过统计键相同的各键值对中的值,得到该键中的各搜索项在搜索结果内容中出现的概率包括:对于该相同的键中的每个搜索项,统计该搜索项在所述键相同的各键值对的值中取值为I次数,记为第一数值;统计所述键相同的各键值对的个数,记为第二数值;根据所述第一数值和第二数值的比值,确定该搜索项在搜索结果内容中出现的概率。可选地,所述搜索结果内容为如下中任意一种;搜索结果页的标题;搜索结果页的摘要;搜索结果页的全部内容。可选地,该方法进一步包括:将各搜索项和对应的权重保存到权重数据库中;在接收到搜索词时,将该搜索词切分为多个搜索项;从所述权重数据库中获取该多个搜索项分别对应的权重;根据该多个搜索项分别对应的权重进行搜索处理。依据本专利技术的另一个方面,提供了一种确定搜索项的权重的装置,其中,该装置包括:数据获取单元,适于获取搜索数据对的集合;其中该搜索数据对包括:搜索词和对应的搜索结果内容;概率确定单元,适于根据搜索数据对的集合,确定各搜索词中包含的各搜索项在搜索结果内容中出现的概率;权重确定单元,适于根据各搜索项在搜索结果内容中出现的概率,确定各搜索项的权重。可选地,所述概率确定单元,进一步包括:键值对输出单元,适于对于搜索数据对集合中的各搜索数据对,确定从各搜索数据对的搜索词能够得到的各连续的片段;以片段为键,并以该片段包含的各搜索项在该片段所在的搜索词对应的搜索结果内容中是否出现的情况为值,输出键值对;统计单元,适于在输出的键值对集合中,通过统计键相同的各键值对中的值,得到该键中的各搜索项在搜索结果内容中出现的概率。可选地,所述数据获取单元,适于从搜索引擎点击日志中获取搜索数据对组成集入口 ο可选地,所述键值对输出单元,适于确定该片段中包含的搜索项数N,N为自然数;以N位的二进制数作为所述的值,且用每位二进制数的两种可能取值表示对应的搜索项在对应的搜索结果内容中是否出现。可选地,所述统计单元,适于对于该相同的键中的每个搜索项,统计该搜索项在所述键相同的各键值对的值中表现为在搜索结果内容中出现的次数,记为第一数值;统计所述键相同的各键值对的个数,记为第二数值;根据所述第一数值和第二数值的比值,确定该搜索项在搜索结果内容中出现的概率。可选地,所述键值对输出单元,适于确定该片段中包含的搜索项数N,N为自然数;以N位的二进制数作为所述的值,且用每位二进制数取值I时表示对应的搜索项在对应的搜索结果内容出现,取值O时表示未出现;所述统计单元,适于对于该相同的键中的每个搜索项,统计该搜索项在所述键相同的各键值对的值中取值为I次数,记为第一数值;统计所述键相同的各键值对的个数,记为第二数值;根据所述第一数值和第二数值的比值,确定该搜索项在搜索结果内容中出现的概率。可选地,所述搜索结果内容为如下中任意一种;搜索结果页的标题;搜索结果页的摘要;搜索结果页的全部内容。可选地,所述权重确定单元,进一步适于将各搜索项和对应的权重保存到权重数据库中;该装置进一步包括:存储单元,适于存储所述权重数据库;搜索处理单元,适于在接收到搜索词时,将该搜索词切分为多个搜索项;从所述权重数据库中获取该多个搜索项分别对应的权重;根据该多个搜索项分别对应的权重进行搜索处理。根据本专利技术的技术方案获取搜索数据对的集合,根据搜索数据对的集合,确定各搜索词中包含的各搜索项在搜索结果内容中出现的概率,根据各搜索项在搜索结果内容中出现的概率,确定各搜索项的权重。通过本专利技术的技术方案,可以充分考虑出现在搜索结果中的各搜索项当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种确定搜索项的权重的方法,其中,该方法包括:获取搜索数据对的集合;其中所述搜索数据对包括:搜索词和对应的搜索结果内容;根据搜索数据对的集合,确定各搜索词中包含的各搜索项在搜索结果内容中出现的概率;根据各搜索项在搜索结果内容中出现的概率,确定各搜索项的权重。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈进平
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1