查询多意图识别方法和系统技术方案

技术编号:9007800 阅读:194 留言:0更新日期:2013-08-08 02:47
本发明专利技术提供一种查询多意图识别方法和系统,所述方法包括:根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括:计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明专利技术使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。

【技术实现步骤摘要】

本专利技术涉及信息检索领域,尤其涉及一种查询多意图识别方法和系统
技术介绍
在信息量不断快速增长的现代,搜索引擎成了人们获取知识和有用信息的主要途径之一。根据搜索引擎的查询日志信息统计,查询的平均长度为2.21个词,其中查询长度为I个或2个词的约占62%,查询长度长于6个词的低于4%。由于多数查询的长度较短,用户在查询中所表达的搜索意图往往是具有多义性或多需求的,比如用户在搜索“苹果”一词时,可能是指的水果,也可能是指苹果公司,也可能是指苹果公司的产品。此外,由于用户缺乏一些领域的专业知识,在进行搜索的时候很难用搜索词来明确表达自己的意思。查询多意图识别可以分析出用户搜索词的多种不同需求,利用这些不同需求的分析结果,搜索引擎可以有效地组织其搜索结果页面,给予用户根据其需求强度排序的搜索结果。如何正确理解用户的搜索意图,一直以来都是搜索引擎相关研究的重点之一。查询聚类为搜索引擎对用户多种需求的深入理解提供了理论基础。查询聚类是指将相似的查询及其URL链接分在一个群簇中,这些群簇的标签是由其中查询和URL链接的标题、摘要、文本共同决定的。查询聚类的相关研究主要侧重相似度计算方法和聚类算法两个方面,包括基于内容的聚类、基于点击行为和session (会话)信息的聚类、综合以上三种信息的聚类等。基于内容的聚类一般通过对查询结果的URL链接中的文本内容进行聚类。基于点击和session信息的聚类包括诸如Sadikov等人提出的、结合了查询日志中的点击和session信息的聚类,通过在马尔可夫图上进行多次随机游走算法模拟用户的搜索行为,计算出每个查询在不同的文档上的吸收分布概率,利用这些概率特征之间的相似度计算不同查询之间的相似度。综合考虑内容、点击URL链接和session信息相似度的聚类包括诸如Wen等人提出的查询聚类,其综合考虑了查询内容的相似度、点击URL链接和session信息的相似度,现有的这种聚类方法仅仅通过简单的加权形式来综合计算查询不同信息的相似度,不能很好的识别用户的搜索意图。在查询多意图识别中由于查询文本的特征较少,目前相关的研究多数集中在基于内容相似度或者基于点击或session信息的相似度进行聚类,这些方法缺乏对于用户搜索意图的考虑,不能准确区分多意图查询的各种不同意图。
技术实现思路
根据本专利技术的一个实施例,提出一种查询多意图识别方法,包括:步骤I)、根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一 session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一 session中的共现概率; 步骤2)、计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。在一个实施例中,步骤I)中根据G-PLSI模型计算查询意图概率特征向量包括:采用EM算法计算G-PLSI模型概似函数的最优解,获得查询意图概率特征向量。在另一个实施例中,步骤I)中根据G-PLSI模型计算查询意图概率特征向量包括:采用TEM算法计算G-PLSI模型概似函数的最优解,获得查询意图概率特征向量。在一个实施例中,采用如下公式表示G-PLSI模型概似函数:权利要求1.一种查询多意图识别方法,包括: 步骤I)、根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一 session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一 session中的共现概率; 步骤2)、计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。2.根据权利要求1所述的方法,步骤I)中根据G-PLSI模型计算查询意图概率特征向量包括: 采用EM算法计算G-PLSI模型概似函数的最优解,获得查询意图概率特征向量。3.根据权利要求1所述的方法,步骤I)中根据G-PLSI模型计算查询意图概率特征向量包括: 采用TEM算法计算G-PLSI模型概似函数的最优解,获得查询意图概率特征向量。4.根据权利要求2或3所述的方法,采用如下公式表示G-PLSI模型概似函数:5.根据权利要求4所述的方法,步骤I)中采用下式表示查询qi的查询意图概率特征向量:6.根据权利要求5所述的方法,步骤2)中采用下式计算不同查询Qi与q]的查询意图概率特征向量之间的相似度:7.根据权利要求5所述的方法,步骤2)中采用下式计算不同查询Qi与q]的查询意图概率特征向量之间的相似度:8.根据权利要求4所述的方法,步骤I)中采用下式表示查询Qi在意图Sk上的查询意图概率特征向量:9.根据权利要求8所述的方法,步骤2)中计算不同查询的查询意图概率特征向量之间的相似度包括采用下式计算不同查询Qi与q]在不同意图上的相似度:10.根据权利要求4所述的方法,步骤I)之前还包括: 步骤O)、获得查询的摘要文本。11.根据权利要求10所述的方法,步骤0)中获得查询的摘要文本包括: 在查询日志中,从查询的文本内容本身获得摘要文本; 在查询日志中,从用户搜索该查询时所点击的链接获得摘要文本; 在商业搜索引擎中,从搜索该查询所得结果页面的链接中获得摘要文本。12.根据权利要求10所述的方法,使用下式计算单词' 在查询qi的摘要文本中出现的次数:13.—种查询多意图识别系统,包括G-PLSI模型模块和查询聚类模块,其中: 所述G-PLSI模型模块用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一 session中搜索不同查询的行为;并且用于计算查询意图概率特征向量,其中查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一 session中的共现概率;所述查询聚类模块用于计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查 询聚类。全文摘要本专利技术提供一种查询多意图识别方法和系统,所述方法包括根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本专利技术使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。文档编号G06F17/30GK103235812SQ20131014603公开日2013年8月7日 申请日期2013年4月24日 优先权日2013年4月24日专利技术者程学旗, 熊锦华, 程舒杨, 廖华明, 王元卓, 公帅 申请人:中国科学院计算技术研究所本文档来自技高网
...

【技术保护点】
一种查询多意图识别方法,包括:步骤1)、根据G?PLSI模型计算查询意图概率特征向量,其中,G?PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率;步骤2)、计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。

【技术特征摘要】

【专利技术属性】
技术研发人员:程学旗熊锦华程舒杨廖华明王元卓公帅
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1