检索结果重排序系统及其方法技术方案

技术编号:8563065 阅读:223 留言:0更新日期:2013-04-11 04:45
本发明专利技术公开了一种检索结果重排序系统及重排序方法。该系统包括相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块;其中,相关拾取模块显示原始检索结果,并由用户选择相关的记录,词序列提取模块提取每项记录的词序列,显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列,重新计算相似度排序模块基于显著词序列对每项记录分别计算相似度,并依据相似度的值对检索结果的记录重新排序。本发明专利技术能够将用户真实期望得到的检索结果记录排在靠前的位置,节省用户的查询时间。用户可以准确快速地得到所期望的信息,从而提高对检索结果的满意程度。

【技术实现步骤摘要】
检索结果重排序系统及其方法
本专利技术涉及一种对搜索引擎的检索结果进行重新排序的系统,同时也涉及该系统对检索结果进行重新排序的方法,属于网络搜索

技术介绍
当前,互联网中的数据总量以几百兆兆字节来计算,而且仍然呈指数增长。为了帮助用户从这个漫无边际的数据海洋中快速获取所需的信息,搜索引擎发挥着不可替代的作用。由于互联网信息是极其浩繁的,任何一个关键词都可能搜索到数百个甚至数万个相关的网页或者链接,而用户的时间和精力都是有限的,他往往只会关注排在前面的搜索结果,对排在后面的相关链接视而不见。因此,针对人们的这一使用习惯,有必要让搜索引擎有选择地安排搜索结果的排列顺序。对检索结果进行重新排序是搜索引擎优化检索结果、提高用户体验的有效技术手段,其利用缩小的检索结果集,通过与用户不同层次的交互,重新确定(估计)用户检索的焦点,可以帮助用户更快找到满意的检索结果。目前,已有很多对检索结果重新排序的技术方案,例如清华大学在专利号为ZL200710099594.6的中国专利技术专利中,提出了一种基于用户行为信息的搜索引擎检索结果重排序方法,利用用户历史查询点击的行为信息的统计,通过查询词关联其他用户的查询网页对检索结果进行优化。它根据单个或多个搜索引擎日志,首先利用查询对应的用户数信息,从中筛选出用户关注的常用查询集合;随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率,若利用多搜索引擎日志信息,则对用户点击率进行合并;根据用户点击率对用户点击页面进行有效筛选,并把相关查询和对应的结果页面地址保存到相关数据库;最后,当用户提交查询需求时,把从用户信息得到的结果和搜索引擎搜索得到的结果进行有效融合,重新排序后返回给用户。另外,美国雅虎公司在申请号为201010190475.3的中国专利申请中,提出了一种用于重排序和提高互联网搜索的结果的相关性的方法,利用检索词概念聚焦搜索与通用搜索结果融合重排来试图提高检索精度。该方法中,首先将搜索查询分解为多个独立的单元。每个单元对应于一个或多个表示自然概念的词。对概念网络进行分析,以定位与搜索查询中的单元相关的概念。从概念网络选出特定概念。对每个选出的概念执行独立的互联网搜索。将从这些搜索得出的搜索结果与原始搜索查询中的单元进行比较,并根据它们与原始搜索查询的相关性对搜索结果进行分级。
技术实现思路
本专利技术所要解决的技术问题在于提供一种检索结果重排序系统及重排序方法。该技术方案能够将用户真实期望得到的信息记录排在检索结果的靠前位置,从而节省用户的检索时间。为实现上述的专利技术目的,本专利技术采用下述的技术方案:一种检索结果重排序系统,包括相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块;其中,所述相关拾取模块与所述检索结果集连接,所述词序列提取模块分别连接所述检索结果集、所述词序列集、所述相关拾取模块和所述显著词序列判别模块,所述显著词序列判别模块分别连接所述词序列集和所述重新计算相似度排序模块;所述相关拾取模块显示原始检索结果,并由用户选择相关的记录,所述词序列提取模块提取每项记录的词序列,所述显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列,所述重新计算相似度排序模块基于所述显著词序列对每项记录分别计算相似度,并依据所述相似度的值对检索结果的记录重新排序。其中较优地,所述词序列提取模块对每项记录的文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以句子为单位保存每项记录的词序列。一种检索结果重排序方法,基于上述的检索结果重排序系统实现,包括如下步骤:显示原始检索结果,并由用户选择相关的记录;提取每项记录的词序列,根据相关与不相关两类记录的差别挖掘用于分类的显著词序列;基于所述显著词序列对每项记录分别计算相似度,并依据所述相似度的值对检索结果的记录重新排序。其中较优地,在提取所述词序列的过程中,首先对每项记录的文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以句子为单位保存每项记录的词序列。其中较优地,在挖掘所述显著词序列的过程中,计算所述显著词序列的显著性,归一化处理以确定权重值。其中较优地,所述相似度通过如下步骤计算:1)确定一定数量的显著词序列作为中心集,依次计算其他词序列与中心集的相似度;2)将所述相似度与所述显著词序列的权重值作积,作为最终相似度;3)将每项记录与中心集的最终相似度作为其得分,依据该得分对各项记录进行重新排序。本专利技术能够将用户真实期望得到的检索结果记录排在靠前的位置,节省用户的查询时间。用户可以准确快速地得到所期望的信息,从而提高对检索结果的满意程度。附图说明图1是本专利技术所提供的检索结果重排序系统的整体结构示意图;图2是检索结果重排序过程中,词序列提取模块的操作流程图。具体实施方式下面结合附图和具体实施例,对本专利技术所采用的技术方案做进一步的详细说明。本专利技术提供了一种检索结果重排序系统,利用关键句子的词序列特征对检索结果进行重新排序。该词序列能够准确表达句子的语义,从而精确体现用户的检索意图。图1显示了本专利技术所提供的检索结果重排序系统的整体结构。该检索结果重排序系统由相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块组成。其中,相关拾取模块与检索结果集连接,以便提供用户浏览检索结果集,并在检索结果集中选择与其期望相关的记录的功能。词序列提取模块分别连接检索结果集、词序列集、相关拾取模块和显著词序列判别模块,用于对检索结果集中各项记录的文字进行处理,提取每项记录的词序列,该词序列用以表征检索结果记录的特征。提取后的词序列提交词序列集存储。显著词序列判别模块分别连接词序列提取模块和重新计算相似度排序模块,用于通过特征集合及每项记录是否为相关记录,挖掘显著词序列。重新计算相似度排序模块基于显著词序列判别模块提取出的显著词序列,对词序列集中的每项记录分别计算其相似度,并依据相似度的值重新排序。在本专利技术中,相关拾取模块为检索结果的重排序创建训练集,并以检索结果记录文本的句子为单位,由词序列提取模块提取记录文本中的词序列。具体地说,该相关拾取模块显示原始检索结果,并按检索结果的原始顺序(原始顺序由通用搜索引擎的排序算法确定)排序,同时通过检索结果界面向用户提供点选拾取记录的功能。用户将部分记录标记为满意结果,作为检索结果训练集。通过这一形式的交互,生成检索结果训练集。至此,本检索结果重排序系统可以执行检索结果重排的操作。图2显示了词序列提取模块的操作流程。在词序列提取模块提取词序列的过程中,首先对检索结果记录文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以便减少不必要的计算。接下来,以句子为单位保存检索结果记录文本中的词序列,用以表征检索结果记录的特征。提取后的词序列提交词序列集进行存储。显著词序列判别模块针对词序列集及检索结果集中相关与不相关两类记录组成的训练集,根据相关与不相关两类记录的差别挖掘用于分类的显著词序列。计算显著词序列的显著性,归一化处理用以确定其权重值。重新计算相似度排序模块通过显著词序列判别模块提取出的显著词序列,对词序列集中的各项记录分别计算相似度。相似度的计算分为三个步骤:1)确定一定数量的显本文档来自技高网
...
检索结果重排序系统及其方法

【技术保护点】
一种检索结果重排序系统,其特征在于:所述检索结果重排序系统包括相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块;其中,所述相关拾取模块与所述检索结果集连接,所述词序列提取模块分别连接所述检索结果集、所述词序列集、所述相关拾取模块和所述显著词序列判别模块,所述显著词序列判别模块分别连接所述词序列集和所述重新计算相似度排序模块;所述相关拾取模块显示原始检索结果,并由用户选择相关的记录,所述词序列提取模块提取每项记录的词序列,所述显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列,所述重新计算相似度排序模块基于所述显著词序列对每项记录分别计算相似度,并依据所述相似度的值对检索结果的记录重新排序。

【技术特征摘要】
1.一种检索结果重排序系统,其特征在于包括相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块;其中,所述相关拾取模块与所述检索结果集连接,所述词序列提取模块分别连接所述检索结果集、所述词序列集、所述相关拾取模块和所述显著词序列判别模块,所述显著词序列判别模块分别连接所述词序列集和所述重新计算相似度排序模块;所述相关拾取模块显示来自不同通用搜索引擎的原始检索结果,并由用户选择相关记录,所述词序列提取模块提取每项记录的词序列,所述显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列,通过再次训练得到用户选择的相关记录的显著词序列,所述重新计算相似度排序模块基于所述显著词序列对每项记录分别计算相似度,并依据所述相似度的值对原始检索结果的记录重新排序。2.如权利要求1所述的检索结果重排序系统,其特征在于:所述词序列提取模块对每项记录的文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以句子为单位保存每项记录的词序列。3.如权利要求1或2所述的检索结果重排序系统,其特征在于:所述词序列保存在所述词序列集中。4...

【专利技术属性】
技术研发人员:王东胜宋传宝王树强
申请(专利权)人:北京海量融通软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1