【技术实现步骤摘要】
一种搜索方法和系统
本申请涉及网络
,特别是涉及一种搜索方法和系统。
技术介绍
在搜索领域,特别是针对于产品的搜索过程中,由于不同产品词的组合,对于用户输入的某一产品词,搜索引擎可能返回与用户输入的产品词所对应的产品相关性不高的周边产品。比如对于用户输入的MP3,由于与MP3相对应的产品词组合非常多,比如MP3下载线,MP3扬声器等产品,而MP3下载线,MP3扬声器与MP3是两种不同的产品。由于传统的搜索基本上基于关键产品词的匹配方法进行搜索,很容易搜索出与用户输入的查询词串对应产品相关性比较低的周边产品,比如前述用户输入的是MP3,而搜索引擎的搜索中MP3下载线,MP3扬声器在搜索结果中权重很高等情况,即搜索引擎返回的排序靠前的产品信息结果中,大量存在与查询词串对应产品的相关性低的产品信息。现有技术中,为了解决上述与用户输入查询词串所属产品相关性低的周边产品的干扰,存在两种技术方案:1、通过类目来避免周边结果。主要方法是:首先根据日志信息,统计用户的查询词串对应类目的点击率,然后确定所述查询词串对应的类目倾向,对不属于相关类目的产品信息进行降权,即降低返回 ...
【技术保护点】
一种搜索方法,其特征在于,包括:接收查询词串,检索与查询词串相关的各产品信息;提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;针对每一、第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;结合调整后的各产品信息的权重,将各产品信息排序输出。
【技术特征摘要】
1.一种搜索方法,其特征在于,包括:接收查询词串,检索与查询词串相关的各产品信息;提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;针对每一第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;结合调整后的各产品信息的权重,将各产品信息排序输出。2.根据权利要求1所述的方法,其特征在于,还包括:构建所述怀疑产品词列表的步骤,所述构建所述怀疑产品词列表的步骤包括:针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。3.根据权利要求2所述的方法,其特征在于,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词;计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词。4.根据权利要求3所述的方法,其特征在于,针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词包括:针对所述关键产品词与所述候选怀疑产品词,从搜索日志中分别分析统计各自相关类目的点击率,获得相关类目的权重列表;将所述关键产品词的所述权重列表中的各值转化为第一向量,将所述候选怀疑产品词的权重列表中的各值转化为第二向量。5.根据权利要求4所述的方法,其特征在于,计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词包括:计算第一向量和第二向量的余弦夹角值;当所述余弦夹角值大于阈值时,则将所述候选怀疑产品词删除。6.根据权利要求2所述的方法,其特征在于,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词;针对每一个维度,计算关键产品词对应向量和候选怀疑产品词对应向量的夹角值,并基于得到的三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词。7.根据权利要求6所述的方法,其特征在于,针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词包括:针对所述关键产品词与所述候选怀疑产品词,分别分析获取搜索日志,获取由关键产品词点击的各产品信息、和由候选怀疑产品词点击的各产品信息;分别...
【专利技术属性】
技术研发人员:陈超,韩小梅,宋超,韦袆,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。