一种扩展搜索方法与装置制造方法及图纸

技术编号:14355221 阅读:49 留言:0更新日期:2017-01-08 22:30
本发明专利技术的目的是提供一种扩展搜索方法与装置。其中,建立每个用户的兴趣词模型;建立每个第四搜索序列的扩展词模型;‑根据当前用户的当前搜索序列,基于所述当前用户的兴趣词模型以及所述当前搜索序列的扩展词模型,确定相应的扩展搜索词;根据所述当前搜索序列以及所述扩展搜索词,向所述当前用户提供相应的搜索结果。本发明专利技术可以实现更加简单有效的个性化搜索,在满足用户长尾需求(即增加个性化结果召回)、降低计算和存储成本、通用性、实用性等方面具有优势。

【技术实现步骤摘要】

本专利技术涉及搜索
,尤其涉及一种扩展搜索的技术。
技术介绍
个性化搜索技术通过引入用户的长期兴趣和短期意图,作为对检索结果召回和排序的因素,能够提高对用户真实意图进行预测的准确性,使得搜索结果更符合用户的需求。现有的个性化搜索方法主要通过对排序靠前(top-n)的自然搜索结果(即根据用户提交的搜索序列获得的搜索结果)进行个性化重排实现,在实际应用中存在诸多局限。现有技术存在如下问题:1)召回存在很大局限性。对自然搜索结果按照用户兴趣进行重排的主要目的是在保证相关性的前提下,突出与用户兴趣相符的结果。在自然搜索结果能够充分体现需求的多样性时,上述方法比较有效。然而,自然搜索结果由于考虑了点击等群体用户的反馈,通常只能反映大众化群体的需求,很难覆盖占比更大的长尾需求。此外,为了保证搜索响应时间,通常只截取前面少量结果参与重排。因此,有相当一部分用户的需求由于缺少资源而得不到满足。2)需要对自然搜索结果增加用于个性化重排序的辅助信息。个性化重排序的主要操作是计算搜索结果与用户兴趣的符合程度,从而给每个搜索结果赋予一个重排序权重。实现这一操作,通常需要针对每一个搜索结果和每一个用户提取相关特征,例如兴趣主题特征等。提取这些特征,一方面需要较为丰富的数据,如用户的行为数据和搜索结果的内容描述数据等,另一方面对于大规模数据需要高昂的计算和存储成本。对于图片搜索等搜索结果内容描述数据不丰富而且搜索结果量巨大的应用场景,满足上述两个需求都存在较大困难。3)基于主题分类的用户兴趣模型不能完全满足实际应用需求。为了描述用户的个性化需求,现有系统通常会采用人工或者机器学习的方法建立主题模型,将用户的长期或者短期兴趣以及搜索结果都映射到相同的主题模型上,实现用户和搜索结果之间兴趣相似度的计算。通过人工方式建立的主题分类(例如OpenDirectoryProject)虽然质量较高,但是构建和更新成本高,跨领域迁移能力较差。利用机器学习算法(例如LDA)进行自动的文本主题分类,存在准确率不高、对短文本效果欠佳等问题。
技术实现思路
本专利技术的目的是提供一种扩展搜索方法与装置。根据本专利技术的一个方面,提供了一种扩展搜索方法,其中,该方法包括以下步骤:-建立每个用户的兴趣词模型;其中,根据所述每个用户在预定时间窗口内提交的第一搜索序列及其对应浏览搜索结果所关联的第二搜索序列,生成所述每个用户的兴趣搜索词集合,以建立所述每个用户的兴趣词模型;-建立每个第四搜索序列的扩展词模型;其中,-根据预定时间窗口内的所有第三搜索序列以及其中长度低于预定阈值的第四搜索序列,获取所述第三搜索序列中包含所述第四搜索序列的第五搜索序列;-对所述每个第四搜索序列,根据其对应的每个第五搜索序列与该第四搜索序列之间的不同部分,生成所述每个第四搜索序列的扩展词集合,以建立所述每个第四搜索序列的扩展词模型;其中,该方法还包括:-根据当前用户的当前搜索序列,基于所述当前用户的兴趣词模型以及所述当前搜索序列的扩展词模型,确定相应的扩展搜索词;-根据所述当前搜索序列以及所述扩展搜索词,向所述当前用户提供相应的搜索结果。根据本专利技术的另一个方面,还提供了一种扩展搜索装置,其中,该装置包括:-用于建立每个用户的兴趣词模型的装置;其中,根据所述每个用户在预定时间窗口内提交的第一搜索序列及其对应浏览搜索结果所关联的第二搜索序列,生成所述每个用户的兴趣搜索词集合,以建立所述每个用户的兴趣词模型;-用于建立每个第四搜索序列的扩展词模型的装置;其中,-根据预定时间窗口内的所有第三搜索序列以及其中长度低于预定阈值的第四搜索序列,获取所述第三搜索序列中包含所述第四搜索序列的第五搜索序列;-对所述每个第四搜索序列,根据其对应的每个第五搜索序列与该第四搜索序列之间的不同部分,生成所述每个第四搜索序列的扩展词集合,以建立所述每个第四搜索序列的扩展词模型;-用于根据当前用户的当前搜索序列,基于所述当前用户的兴趣词模型以及所述当前搜索序列的扩展词模型,确定相应的扩展搜索词的装置;-用于根据所述当前搜索序列以及所述扩展搜索词,向所述当前用户提供相应的搜索结果的装置。本专利技术可以实现更加简单有效的个性化搜索,在满足用户长尾需求(即增加个性化结果召回)、降低计算和存储成本、通用性、实用性等方面具有优势。首先,本专利技术基于用户行为日志提取每个用户的兴趣搜索词并建立用户的兴趣词模型,然后基于全部用户的行为日志提取每个第四搜索序列的扩展词并建立第四搜索序列的扩展词模型。当特定用户搜索特定搜索序列时,本专利技术基于用户的兴趣词模型和第四搜索序列的扩展词模型,确定当前用户在当前搜索序列下的扩展搜索词,以对当前搜索序列进行个性化扩展,并以扩展后的搜索序列作为查询,获取个性化的搜索结果。本专利技术在搜索结果文本描述信息非常稀疏的情况下仍能提供很好的效果。本专利技术的一个典型应用是图片的个性化搜索。传统的图片搜索只能为用户提供“千人一面”的搜索结果,但是用户对于图片的需求千差万别,很难用千篇一律的结果满足不同用户的需求。为用户提供个性化的图片搜索结果,将极大提高用户的搜索效率和体验。但是在图片搜索领域,用户需求更加多样性,图片在描述信息方面更加稀疏和不准确,用户看图的成本很低,结果需求量很大。这些特点使得现有个性化搜索方法的效果难尽人意。本专利技术能够很好的解决这些问题。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个实施例的用于扩展搜索的方法流程图;图2示出根据本专利技术一个实施例的用于扩展搜索的装置的示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。所述计算机设备例如包括移动终端与网络设备。其中,所述移动终端包括但不限于智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本专利技术,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本专利技术。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。需要说明的是,所述移动终端、网络设备和网络等仅为举例,其本文档来自技高网
...
一种扩展搜索方法与装置

【技术保护点】
一种扩展搜索方法,其中,该方法包括以下步骤:‑建立每个用户的兴趣词模型;其中,根据所述每个用户在预定时间窗口内提交的第一搜索序列及其对应浏览搜索结果所关联的第二搜索序列,生成所述每个用户的兴趣搜索词集合,以建立所述每个用户的兴趣词模型;‑建立每个第四搜索序列的扩展词模型;其中,‑根据预定时间窗口内的所有第三搜索序列以及其中长度低于预定阈值的第四搜索序列,获取所述第三搜索序列中包含所述第四搜索序列的第五搜索序列;‑对所述每个第四搜索序列,根据其对应的每个第五搜索序列与该第四搜索序列之间的不同部分,生成所述每个第四搜索序列的扩展词集合,以建立所述每个第四搜索序列的扩展词模型;其中,该方法还包括:‑根据当前用户的当前搜索序列,基于所述当前用户的兴趣词模型以及所述当前搜索序列的扩展词模型,确定相应的扩展搜索词;‑根据所述当前搜索序列以及所述扩展搜索词,向所述当前用户提供相应的搜索结果。

【技术特征摘要】
1.一种扩展搜索方法,其中,该方法包括以下步骤:-建立每个用户的兴趣词模型;其中,根据所述每个用户在预定时间窗口内提交的第一搜索序列及其对应浏览搜索结果所关联的第二搜索序列,生成所述每个用户的兴趣搜索词集合,以建立所述每个用户的兴趣词模型;-建立每个第四搜索序列的扩展词模型;其中,-根据预定时间窗口内的所有第三搜索序列以及其中长度低于预定阈值的第四搜索序列,获取所述第三搜索序列中包含所述第四搜索序列的第五搜索序列;-对所述每个第四搜索序列,根据其对应的每个第五搜索序列与该第四搜索序列之间的不同部分,生成所述每个第四搜索序列的扩展词集合,以建立所述每个第四搜索序列的扩展词模型;其中,该方法还包括:-根据当前用户的当前搜索序列,基于所述当前用户的兴趣词模型以及所述当前搜索序列的扩展词模型,确定相应的扩展搜索词;-根据所述当前搜索序列以及所述扩展搜索词,向所述当前用户提供相应的搜索结果。2.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于相应用户的兴趣搜索词集合中的各兴趣搜索词及其权重来建立;所述每个第四搜索序列的扩展词模型基于相应第四搜索序列的扩展词集合中的各扩展词及其权重来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述当前用户的兴趣搜索词集合与所述当前搜索序列的扩展词集合中的相同词及其排序权重,确定所述扩展搜索词。3.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于对相应用户的兴趣搜索词集合中各兴趣搜索词的分类来建立;所述每个第四搜索序列的扩展词模型基于对相应第四搜索序列的扩展词集合中各扩展词的分类来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述当前用户的兴趣搜索词集合与所述当前搜索序列的扩展词集合对应的相同分类及其排序权重,确定候选扩展分类;-从所述候选扩展分类下的词中选择所述扩展搜索词。4.根据权利要求3所述的方法,其中,所述建立所述兴趣词模型的步骤进一步包括:-对所述每个用户的兴趣搜索词集合中的兴趣搜索词进行分类,以获得多个分类以及每个分类的权重及其所包括的兴趣搜索词,从而建立相应用户的兴趣词模型;其中,所述建立所述扩展词模型的步骤进一步包括:-对所述每个第四搜索序列的扩展词集合中的扩展词进行分类,以获得多个分类以及每个分类的权重及其所包括的扩展词,从而建立相应第四搜索序列的扩展词模型。5.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于用户-兴趣搜索词矩阵来建立;所述每个第四搜索序列的扩展词模型基于第四搜索序列-扩展词矩阵来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述用户-兴趣搜索词矩阵来获取所述当前用户所对应的兴趣搜索词,以及根据所述第四搜索序列-扩展词矩阵来获取所述当前搜索序列所对应的扩展词,将两者作为候选扩展搜索词集合;-根据所述候选扩展搜索词集合中每个词相对所述当前用户的兴趣度及其与所述当前搜索序列的相关度,从所述候选扩展搜索词集合中选择所述扩展搜索词。6.根据权利要求5所述的方法,其中,所述建立所述兴趣词模型的步骤进一步包括:-根据所述每个用户及其兴趣搜索词集合,建立用户-兴趣搜索词矩阵;-根据所述用户-兴趣搜索词矩阵,确定所述每个用户对所述用户-兴趣搜索词矩阵中每个兴趣搜索词的兴趣度,从而建立相应用户的兴趣词模型;其中,所述建立所述扩展词模型的步骤进一步包括:-根据所述每个第四搜索序列及其扩展词集合,建立第四搜索序列-扩展词矩阵;-根据所述第四搜索序列-扩展词矩阵,确定所述每个第四搜索序列对所述第四搜索序列-扩展词矩阵中每个扩展词的相关度,从而建立相应第四搜索序列的扩展词模型。7.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于用户-兴趣搜索词矩阵来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述用户-兴趣搜索词矩阵来确定所述当前用户对所述当前搜索序列的扩展词集合中各扩展词的兴趣度,以从中选择所述扩展搜索词。8.根据权利要求7所述的方法,其中,所述选择所述扩展搜索词的步骤具体包括:-根据所述当前用户对所述当前搜索序列的扩展词集合中各扩展词的兴趣度,结合其中各扩展词的权重,从中选择所述扩展搜索词。9.根据权利要求7所述的方法,其中,所述选择所述扩展搜索词的步骤具体包括:-根据所述当前搜索序列的扩展词集合中各扩展词分类的权重,确定候选扩展词分类;-根据所述当前用户对所述候选扩展词分类下的各扩展词的兴趣度,从中选择所述扩展搜索词。10.根据权利要求1所述的方法,其中,所述每个第四搜索序列的扩展词模型基于第四搜索序列-扩展词矩阵来建立;其中,所述确定所述扩展搜索词的步骤具体包括:-根据所述第四搜索序列-扩展词矩阵来确定所述当前搜索序列与所述当前用户的兴趣搜索词集合中各兴趣搜索词的相关度,以从中选择所述扩展搜索词。11.根据权利要求10所述的方法,其中,所述选择所述扩展搜索词的步骤具体包括:-根据所述当前搜索序列与所述当前用户的兴趣搜索词集合中各兴趣搜索词的相关度,结合其中各兴趣搜索词的权重,从中选择所述扩展搜索词。12.根据权利要求10所述的方法,其中,所述选择所述扩展搜索词的步骤具体包括:-根据所述当前用户的兴趣搜索词集合中各兴趣搜索词分类的权重,确定候选兴趣搜索词分类;-根据所述当前搜索序列与所述候选兴趣搜索词分类下的各兴趣搜索词的相关度,从中选择所述扩展搜索词。13.根据权利要求1所述的方法,其中,所述每个用户的兴趣词模型基于用户-兴趣搜索词矩阵来建立;所述每个第四搜索序列的扩展词模型基于第四搜索序列-扩展词矩阵来建立;其中,基于所述用户-兴趣搜索词矩阵来确定所述每个用户的特征信息,基于所述第四搜索序列-扩展词矩阵来确定所述每个第四搜索序列的特征信息,以及基于所述用户-兴趣搜索词矩阵与所述第四搜索序列-扩展词矩阵来确定两个矩阵中每个词的特征信息;其中,所述确定所述扩展搜索词的步骤具体包括:-基于所述当前用户的特征信息、所述当前搜索序列的特征信息以及所述当前用户的兴趣搜索词集合及所述当前搜索序列的扩展词集合中各词的特征信息,确定其中每个词的可用扩展概率,以从中确定所述扩展搜索词。14.一种扩展搜索装置,...

【专利技术属性】
技术研发人员:顾晓光方高林
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1