【技术实现步骤摘要】
本专利技术涉及搜索
,尤其涉及一种扩展搜索的技术。
技术介绍
个性化搜索技术通过引入用户的长期兴趣和短期意图,作为对检索结果召回和排序的因素,能够提高对用户真实意图进行预测的准确性,使得搜索结果更符合用户的需求。现有的个性化搜索方法主要通过对排序靠前(top-n)的自然搜索结果(即根据用户提交的搜索序列获得的搜索结果)进行个性化重排实现,在实际应用中存在诸多局限。现有技术存在如下问题:1)召回存在很大局限性。对自然搜索结果按照用户兴趣进行重排的主要目的是在保证相关性的前提下,突出与用户兴趣相符的结果。在自然搜索结果能够充分体现需求的多样性时,上述方法比较有效。然而,自然搜索结果由于考虑了点击等群体用户的反馈,通常只能反映大众化群体的需求,很难覆盖占比更大的长尾需求。此外,为了保证搜索响应时间,通常只截取前面少量结果参与重排。因此,有相当一部分用户的需求由于缺少资源而得不到满足。2)需要对自然搜索结果增加用于个性化重排序的辅助信息。个性化重排序的主要操作是计算搜索结果与用户兴趣的符合程度,从而给每个搜索结果赋予一个重排序权重。实现这一操作,通常需要针对每一个搜索结果和每一个用户提取相关特征,例如兴趣主题特征等。提取这些特征,一方面需要较为丰富的数据,如用户的行为数据和搜索结果的内容描述数据等,另一方面对于大规模数据需要高昂的计算和存储成本。对于图片搜索等搜索结果内容描述数据不丰富而且搜索结果量巨大的应用场景,满足上述两个需求都存在较大困难。3)基于主题分类的用户兴趣模型不能完全满足实际应用需求。为了描述用户的个性化需求,现有系统通常会采用人工或者机器 ...
【技术保护点】
一种扩展搜索方法,其中,该方法包括以下步骤:‑建立每个用户的兴趣词模型;其中,根据所述每个用户在预定时间窗口内提交的第一搜索序列及其对应浏览搜索结果所关联的第二搜索序列,生成所述每个用户的兴趣搜索词集合,以建立所述每个用户的兴趣词模型;‑建立每个第四搜索序列的扩展词模型;其中,‑根据预定时间窗口内的所有第三搜索序列以及其中长度低于预定阈值的第四搜索序列,获取所述第三搜索序列中包含所述第四搜索序列的第五搜索序列;‑对所述每个第四搜索序列,根据其对应的每个第五搜索序列与该第四搜索序列之间的不同部分,生成所述每个第四搜索序列的扩展词集合,以建立所述每个第四搜索序列的扩展词模型;其中,该方法还包括:‑根据当前用户的当前搜索序列,基于所述当前用户的兴趣词模型以及所述当前搜索序列的扩展词模型,确定相应的扩展搜索词;‑根据所述当前搜索序列以及所述扩展搜索词,向所述当前用户提供相应的搜索结果。
【技术特征摘要】
1.一种扩展搜索方法,其中,该方法包括以下步骤:-建立每个用户的兴趣词模型;其中,根据所述每个用户在预定时间窗口内提交的第一搜索序列及其对应浏览搜索结果所关联的第二搜索序列,生成所述每个用户的兴趣搜索词集合,以建立所述每个用户的兴趣词模型;-建立每个第四搜索序列的扩展词模型;其中,-根据预定时间窗口内的所有第三搜索序列以及其中长度低于预定阈值的第四搜索序列,获取所述第三搜索序列中包含所述第四搜索序列的第五搜索序列;-对所述每个第四搜索序列,根据其对应的每个第五搜索序列与该第四搜索序列之间的不同部分,生成所述每个第四搜索序列的扩展词集合,以建立所述每个第四搜索序列的扩展词模型;其中,该方法还包括:-根据当前用户的当前搜索序列,基于所述当前用户的兴趣词模型以及所述当前搜索序列的扩展词模型,确定相应的扩展搜索词;-根据所述当前搜索序列以及所述扩展搜索词,向所述当前用户提供相应的搜索结果。2.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于相应用户的兴趣搜索词集合中的各兴趣搜索词及其权重来建立;所述每个第四搜索序列的扩展词模型基于相应第四搜索序列的扩展词集合中的各扩展词及其权重来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述当前用户的兴趣搜索词集合与所述当前搜索序列的扩展词集合中的相同词及其排序权重,确定所述扩展搜索词。3.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于对相应用户的兴趣搜索词集合中各兴趣搜索词的分类来建立;所述每个第四搜索序列的扩展词模型基于对相应第四搜索序列的扩展词集合中各扩展词的分类来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述当前用户的兴趣搜索词集合与所述当前搜索序列的扩展词集合对应的相同分类及其排序权重,确定候选扩展分类;-从所述候选扩展分类下的词中选择所述扩展搜索词。4.根据权利要求3所述的方法,其中,所述建立所述兴趣词模型的步骤进一步包括:-对所述每个用户的兴趣搜索词集合中的兴趣搜索词进行分类,以获得多个分类以及每个分类的权重及其所包括的兴趣搜索词,从而建立相应用户的兴趣词模型;其中,所述建立所述扩展词模型的步骤进一步包括:-对所述每个第四搜索序列的扩展词集合中的扩展词进行分类,以获得多个分类以及每个分类的权重及其所包括的扩展词,从而建立相应第四搜索序列的扩展词模型。5.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于用户-兴趣搜索词矩阵来建立;所述每个第四搜索序列的扩展词模型基于第四搜索序列-扩展词矩阵来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述用户-兴趣搜索词矩阵来获取所述当前用户所对应的兴趣搜索词,以及根据所述第四搜索序列-扩展词矩阵来获取所述当前搜索序列所对应的扩展词,将两者作为候选扩展搜索词集合;-根据所述候选扩展搜索词集合中每个词相对所述当前用户的兴趣度及其与所述当前搜索序列的相关度,从所述候选扩展搜索词集合中选择所述扩展搜索词。6.根据权利要求5所述的方法,其中,所述建立所述兴趣词模型的步骤进一步包括:-根据所述每个用户及其兴趣搜索词集合,建立用户-兴趣搜索词矩阵;-根据所述用户-兴趣搜索词矩阵,确定所述每个用户对所述用户-兴趣搜索词矩阵中每个兴趣搜索词的兴趣度,从而建立相应用户的兴趣词模型;其中,所述建立所述扩展词模型的步骤进一步包括:-根据所述每个第四搜索序列及其扩展词集合,建立第四搜索序列-扩展词矩阵;-根据所述第四搜索序列-扩展词矩阵,确定所述每个第四搜索序列对所述第四搜索序列-扩展词矩阵中每个扩展词的相关度,从而建立相应第四搜索序列的扩展词模型。7.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于用户-兴趣搜索词矩阵来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述用户-兴趣搜索词矩阵来确定所述当前用户对所述当前搜索序列的扩展词集合中各扩展词的兴趣度,以从中选择所述扩展搜索词。8.根据权利要求7所述的方法,其中,所述选择所述扩展搜索词的步骤具体包括:-根据所述当前用户对所述当前搜索序列的扩展词集合中各扩展词的兴趣度,结合其中各扩展词的权重,从中选择所述扩展搜索词。9.根据权利要求7所述的方法,其中,所述选择所述扩展搜索词的步骤具体包括:-根据所述当前搜索序列的扩展词集合中各扩展词分类的权重,确定候选扩展词分类;-根据所述当前用户对所述候选扩展词分类下的各扩展词的兴趣度,从中选择所述扩展搜索词。10.根据权利要求1所述的方法,其中,所述每个第四搜索序列的扩展词模型基于第四搜索序列-扩展词矩阵来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述第四搜索序列-扩展词矩阵来确定所述当前搜索序列与所述当前用户的兴趣搜索词集合中各兴趣搜索词的相关度,以从中选择所述扩展搜索词。11.根据权利要求10所述的方法,其中,所述选择所述扩展搜索词的步骤具体包括:-根据所述当前搜索序列与所述当前用户的兴趣搜索词集合中各兴趣搜索词的相关度,结合其中各兴趣搜索词的权重,从中选择所述扩展搜索词。12.根据权利要求10所述的方法,其中,所述选择所述扩展搜索词的步骤具体包括:-根据所述当前用户的兴趣搜索词集合中各兴趣搜索词分类的权重,确定候选兴趣搜索词分类;-根据所述当前搜索序列与所述候选兴趣搜索词分类下的各兴趣搜索词的相关度,从中选择所述扩展搜索词。13.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于用户-兴趣搜索词矩阵来建立;所述每个第四搜索序列的扩展词模型基于第四搜索序列-扩展词矩阵来建立;其中,基于所述用户-兴趣搜索词矩阵来确定所述每个用户的特征信息,基于所述第四搜索序列-扩展词矩阵来确定所述每个第四搜索序列的特征信息,以及基于所述用户-兴趣搜索词矩阵与所述第四搜索序列-扩展词矩阵来确定两个矩阵中每个词的特征信息;其中,所述确定所述扩展搜索词的步骤具体包括:-基于所述当前用户的特征信息、所述当前搜索序列的特征信息以及所述当前用户的兴趣搜索词集合及所述当前搜索序列的扩展词集合中各词的特征信息,确定其中每个词的可用扩展概率,以从中确定所述扩展搜索词。14.一种扩展搜索装置,...
【专利技术属性】
技术研发人员:顾晓光,方高林,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。