信息检索方法和系统技术方案

技术编号:4241738 阅读:238 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了信息检索方法和系统,根据用户输入的查询请求从大量信息构成的信息集合中搜索所希望的信息,其中,确定影响用户对网页与查询请求相关性判断的多个因素,作为个性化特征;对于各个个性化特征设定相关的权重,且分别基于各个所述个性化特征建立反映用户的查询请求与信息集合中的信息之间的相关性的检索模型,通过所述的权重将所述检索模型组合成用户兴趣模型;接受用户的查询请求,分别通过各个所述的检索模型对所述信息集合中的信息进行检索,分别生成一个有序网页列表;通过所述的用户兴趣模型,计算每个所述检索模型得到的有序信息列表中的每一条信息与所述查询请求的相关度;根据所述用户兴趣模型输出的相关度,输出最终的检索结果。

【技术实现步骤摘要】

本专利技术涉及信息检索,更具体地,涉及自适应的个性化信息检索。
技术介绍
随着因特网和大容量存储设备等的迅速发展,世界进入了信息过剩的时代。如何从海量的信息中获取有用的信息,成为人们关心的问题。 目前,解决这一问题最常见的方法是搜索引擎。通过目前商用的以Google、百度为代表的搜索引擎,可以得到基本上令人满意的搜索结果。 然而,与人们对于有效信息获取的需求相比,目前的搜索引擎提供的结果还远远不能满足要求。这首先体现在,现有的搜索引擎获取用户信息的手段比较单一,主要采用基于关键词的布尔表达式作为输入。因此,搜索引擎很难准确理解隐含在这些关键词之后的用户真实信息需求。更重要的是,现有的搜索引擎采用与用户无关的通用搜索算法,不论用户是谁,不论用户来自何方,只要输入的查询语句相同,返回的结果都是相同的。而事实上,用户的需求非常个性化。例如一个旅游者和一个程序员在输入“Java”时,前者想搜索与爪哇岛相关的旅游资讯,而后者想要找与Java编程语言相关的信息。但目前常见的搜索引擎都对这种情况不加区分。因此,对于那些与用户的个性化需求密切相关的信息需求,目前的搜索引擎就不太适用了。此外,对于用户的某个长期感兴趣的话题,如果要用搜索引擎来查找信息,那么就要反复地到搜索引擎上输入相同的关键词,然后每次都从大量的网页中去查找其中新出现的相关信息,这显然大大加重了用户的使用负担。此外,虽然用户的个性化信息需求在一段时间内是稳定的,但长期来看,这种信息需求还是会有所改变的。显然,采用上述方法无法捕捉这种变化。 自适应的个性化信息检索研究,目标是满足用户个性化和持续关注型的信息需求。该项研究根据用户的兴趣和关注点的不同,通过对无关信息的过滤,向用户提供最有价值的信息。它能够满足用户的个性化信息需求,通过长期观察用户的搜索行为,从中识别用户的信息需求偏好,并且能够根据用户对搜索结果的评价,自动调整搜索策略,使得对于同一检索请求,不同用户能够得到最贴近自已需求的信息。 在目前个性化信息检索的研究中,比较流行的上下文检索,相对于传统的信息检索方法,能够针对不同的用户提供更加个性化的结果。总体而言,这些方法的思想大多可以概括如下要求用户输入比关键词更复杂的查询语句,把每一个查询输入视为一个兴趣,利用这些输入构造用户兴趣模型,基于查询语句中的关键词,使用传统的信息检索算法得到初始网页列表,然后利用用户兴趣模型对此列表进行过滤。如果用户对结果进行直接反馈,则根据这些反馈对用户模兴趣型进行调整,并基于新的用户兴趣模型对网页列表进行过滤。 例如,在非专利文献1中,采用经典的向量空间模型来对上下文进行建模,但这种方法基本上借用的都是文本信息,而其他非文本信息基本上无法纳入这个框架。 在非专利文献2中,将上下文检索任务看作一个决策问题,把用户查看的文档、以往的查询历史等上下文信息与查询和文档综合在一起来优化对检索结果的判定,但这项工作只考虑了几种易于表示的特征,而且把这些特征在分类算法的框架里固定了下来,难以扩展,也没有提及当用户兴趣发生改变时如何捕捉这种变化。 在非专利文献3中,则采用基于Ontology的方法,将用户上下文表示成Ontology上的一个向量,并把上下文预测的结果与传统的信息检索算法所得的结果用一个线性函数组合起来,从而得到最终的个性化的结果,但Ontology的构造需要较为专业的知识,而且还需要大量人力物力,即便如此,所能覆盖的知识体系也是很有限的。 在专利文献1中,提出了一种采用用户模型根据与相应用户特征相关的信息来个性化一般查询和/或搜索结果的系统和方法,该专利同样列举了目前可能与个性化检索相关的特征,这些特征是预先划定的一个范围,而不是一个可以考虑任何特征的完全泛化的框架。 在专利文献2中,提出了一种利用用户概况排序搜索引擎返回的搜索结果中的放置内容的系统和方法,但这种方法同样设定了可能有作用的个性化特征的范围,而且没有使用机器学习方法来确定各种特征对最终结果的影响,此外,也没有考虑用户对结果的反馈的处理。 综上,目前现有的个性化信息检索技术存在以下不足之处 1.所利用的用户信息本质上都是内容相关的,即所有的用户特征最终都表现为文本特征。在考虑某些非文本特征时,现有方法也往往是按照一定的比例或系数将其映射为文本特征。这种做法主观性较强,缺少理论基础。 2.用户兴趣模型基于用户先后输入的查询请求生成,这样产生的各个兴趣之间相互独立,缺少关联,很难用一体化的模型来表示,而通常人们认为,用户的兴趣是有一定关联性和延续性的。 3.模型中的关键参数基本都是设计者根据经验设定,对于所有用户都有效,存在很大的局限性,缺少理论基础。 非专利文献1Massimo Melucci,2005,Contextmodeling anddiscovery using vector space bases,Proceedings of the 14th Conference onInformation and Knowledge Management(CIKM),pages 808--815,Bremen,Germany,October 31-November 5,2005. 非专利文献2Xuehua Shen,Bin Tan,Cheng Xiang Zhai,2005,UCAIRCapturing and Exploiting Context for Personalized Search,Proceedings of2005 ACM Conference on Research and Development on InformationRetrieval--Information Retrieval in Context Workshop(IRiX′2005) 非专利文献3David Vallet,Miriam Fernández,Pablo Castells,PhivosMylonas,and Yannis Avrithis,2006,Personalized Information Retrieval inContext,21st National Conference on Artificial Intelligence-3rdInternational Workshop on Modeling and Retrieval of Context,Boston,USA,16-17 July 2006 专利文献1中国专利申请公开CN1758248,申请人为微软公司,名称为“用于提供个性化搜索和信息访问的系统、方法和接口” 专利文献2中国专利申请公开CN101019118,申请人为谷歌公司,名称为“搜索结果中放置内容排序的个性化”
技术实现思路
本专利技术的目的在于,克服现有搜索引擎不能满足用户个性化信息需求的缺陷,以及以往的个性化信息检索方法存在的只适合使用文本特征,模型中用户兴趣正交化及参数的设置依赖于经验值的缺陷,从而为满足用户的长期关注型的个性化信息需求提供一种自适应的一体化个性化信息检索方法与框架。 在本专利技术中,从所有可能影响到用户对检索结果做出个性化决策的用户上下文中选取多个因素,每一本文档来自技高网
...

【技术保护点】
一种信息检索方法,根据用户输入的查询请求从大量信息构成的信息集合中搜索所希望的信息,该方法包括以下步骤: 确定影响用户对信息与查询请求间的相关性判断的多个因素,作为个性化特征; 对于各个个性化特征设定相关的权重,且分别基于各个所 述个性化特征建立反映用户的查询请求与信息集合中的信息之间的相关性的检索模型,通过所述的权重将所述检索模型组合成用户兴趣模型; 接受用户的查询请求,分别通过各个所述的检索模型对所述信息集合进行检索,分别生成一个有序信息列表; 通过 所述的用户兴趣模型,计算每个所述检索模型得到的有序信息列表中的每一条信息与所述查询请求的相关度; 根据所述用户兴趣模型输出的相关度,输出最终检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:于浩夏迎炬骆卫华刘群
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1