【技术实现步骤摘要】
候选文档排序方法及装置
本公开涉及计算机
,尤其涉及一种候选文档排序方法及装置。
技术介绍
目前,用户可通过网上搜索来查询各种信息。当用户使用搜索引擎进行查询时,在整个查询会话中用户的查询意图往往不断在改变。而传统搜索引擎中对查询到的候选文档的排序模型无法检测出用户的查询意图的改变,在对于候选文档的排序过程中通常认为用户的查询意图保持不变,一般采用同一个模型对查询到的候选文档进行排序。这样很可能造成对候选文档的排序与用户真实查询意图的不相符的问题,影响用户体验。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种候选文档排序方法及装置。根据本公开的一个方面,提供了一种候选文档排序方法,包括:根据当前查询会话的查询关键词,从数据库中获取与所述查询关键词匹配的第一候选文档;根据所述当前查询会话的数据以及历史查询会话的数据,确定多个训练簇中与所述当前查询会话匹配的第一训练簇,其中,所述历史查询会话包括在当前查询会话之前的多个查询会话,所述当前查询会话的数据至少包括:所述当前查询会话对应的第一候选文档以及所述当前查询会话的查询关键词,所述历史查询会话的数据至少包括 ...
【技术保护点】
1.一种候选文档排序方法,其特征在于,包括:根据当前查询会话的查询关键词,从数据库中获取与所述查询关键词匹配的第一候选文档;根据所述当前查询会话的数据以及历史查询会话的数据,确定多个训练簇中与所述当前查询会话匹配的第一训练簇,其中,所述历史查询会话包括在当前查询会话之前的多个查询会话,所述当前查询会话的数据至少包括:所述当前查询会话对应的第一候选文档以及所述当前查询会话的查询关键词,所述历史查询会话的数据至少包括:所述历史查询会话对应的第二候选文档以及所述历史查询会话的查询关键词;根据与所述第一训练簇对应的马尔可夫模型,对所述第一候选文档进行排序处理,获得所述第一候选文档的 ...
【技术特征摘要】
1.一种候选文档排序方法,其特征在于,包括:根据当前查询会话的查询关键词,从数据库中获取与所述查询关键词匹配的第一候选文档;根据所述当前查询会话的数据以及历史查询会话的数据,确定多个训练簇中与所述当前查询会话匹配的第一训练簇,其中,所述历史查询会话包括在当前查询会话之前的多个查询会话,所述当前查询会话的数据至少包括:所述当前查询会话对应的第一候选文档以及所述当前查询会话的查询关键词,所述历史查询会话的数据至少包括:所述历史查询会话对应的第二候选文档以及所述历史查询会话的查询关键词;根据与所述第一训练簇对应的马尔可夫模型,对所述第一候选文档进行排序处理,获得所述第一候选文档的排序列表,其中,所述马尔可夫模型是利用马尔可夫决策过程对所述第二候选文档的排序过程进行建模得到的。2.根据权利要求1所述的方法,其特征在于,根据所述当前查询会话的数据以及历史查询会话的数据,确定多个训练簇中与所述当前查询会话匹配的第一训练簇,包括:根据所述当前查询会话的数据以及所述历史查询会话的数据确定所述当前查询会话与所述历史查询会话之间的相似度;在所述相似度中的最大相似度大于或等于第一阈值时,确定与所述最大相似度对应的历史查询会话所属的所述训练簇为与所述当前查询会话匹配的第一训练簇。3.根据权利要求1所述的方法,其特征在于,根据与所述第一训练簇对应的马尔可夫模型,对所述第一候选文档进行排序处理,获得所述第一候选文档的排序列表,包括:根据与所述第一训练簇对应的马尔可夫模型,对所述第一候选文档进行预设次数的排序,获得多个候选排序列表;确定所述多个候选排序列表的全局回报值;将与所述全局回报值中的最大全局回报值对应的候选排序列表确定为所述第一候选文档的排序列表。4.根据权利要求3所述的方法,其特征在于,通过如下公式计算候选排序列表中的各候选文档的全局回报值;其中,R(st,at)表示候选排序列表中的候选文档的全局回报值,L(di)表示候选排序列表中第i个候选文档di的相关性标注,st表示马尔可夫模型的五元组中的系统当前所处状态,at表示所述系统选择的动作;根据所述候选文档排序列表中各候选文档的全局回报值计算所述候选文档排序列表的全局回报值。5.根据权利要求1所述的方法,其特征在于,根据当前查询会话的查询关键词,从数据库中获取与所述查询关键词匹配的第一候选文档的步骤之前,所述方法还包括:将所述历史查询会话中的第一个历史查询会话q1划分至一个训练簇中;对于查询会话q1之后的查询会话qN,依次计算查询会话qN与其之前1~N-1个历史查询会话之间的相似度,得到与查询会话qN相似度最高的查询会话qh,其中,N大于1,1≤h<N;如果查询会话qN与查询会话qh之间的相似度大于或等于第一阈值,则将查询会话qN划分至查询会话qh所属的训练簇中,否则,将查询会话qN划分至一个新的训练簇中,直至划分得到的所有训练簇的总数大于或等于第二阈值;利用马尔可夫决策过程分别对划分得到的各训练簇中的查询会话对应的所述第二候选文档的排序过程建立马尔可夫模型,得到与所述各训练簇对应的马尔可夫模型。6.根据权利要求2或5所述的方法,其特征在于,所述方法还包括:通过如下公式计算每两次查询会话对应的候选文档...
【专利技术属性】
技术研发人员:刘奕群,罗成,毛佳昕,许静芳,汪萌,张敏,马少平,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。