信息检索系统和检索方法技术方案

技术编号:2848253 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种信息检索系统,包括:搜索引擎、提供给搜索引擎进行搜索的内容索引数据库,用户特征数据库、内容分析系统。还相应提供了一种信息检索方法,包括以下步骤:A.获得用户输入的检索关键词,搜索引擎根据关键词进行检索获得原始检索结果;B.获得用户标识和检索当前时间信息,并据此检索到所对应的用户的特征行为数据关键词;C.根据所述特征行为关键词对搜索引擎搜索出的原始检索结果进行二次检索,将包含所述关键词的检索结果优先显示给用户。使用本发明专利技术,能够根据用户在不同时间段所表现出的不同特征行为对用户的搜索进行过滤,提高用户搜索相关信息的准确性和搜索效率。

【技术实现步骤摘要】

本专利技术涉及信息检索
,特别是指一种。
技术介绍
搜索引擎是指能够获得网站网页资料,能够建立数据库并提供查询的系统。按照工作原理的不同,可以将搜索引擎分为两个基本类别全文搜索引擎(FullText Search Engine)和分类目录Directory)。全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。通常将对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,如Google的全文搜索(http//www.google.com/intl/zh-CN/)。分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,如“网址之家”(http//www.hao 123.com/)。通常将对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,如“新浪搜索”(http//dir.sina.com.cn/)和“雅虎中国搜索”(http//cn.search.yahoo.com/dirsrch/)。全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询。对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有以下两类1、元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”(http//www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。2、集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,如“网际瑞士军刀”(http//free.okey.net/%7Efree/searchl.htm)。这里再介绍一下搜索引擎的工作原理,全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才添加到内容索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当输入关键词进行查询时,搜索引擎会从庞大的内容索引数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,内容索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。现在常规搜索引擎通过由软件实施的自动地访问网站和依次地跟踪其中的超文本连接并通过所谓的“关键词”提取在其中遇到的每一个文件并在一个大的数据库中标志每个文件以备随后访问。具体地,通过这类提取,这类文件都减缩了,都被抽调所有语义和句法信息,但还包含文件中具有地有内容的词。这些内容词可能存在文件本身内或只在该文件的超文本标记语言(HTML)的描述段内。在以上任何一种情况下,该引擎为每个这类文件建立一个条目即一个文件记录。对于每个文件,其内容词都在一个可搜索数据结构中加以标志,并带有一个往回指向文件记录的连接。该文件记录通常包含a、一个网址,即一个URL(统一资源定位器,一个网络浏览器可通过它访问相应的文件);b、该文件中的不同内容词以及在某些引擎中与该文件的其他内容词有关的每个这类内容词的相对地址;c、该文件的一个段摘要,通常只有几行或该文件的前几行;d、可能会有在其HTML描述段中提供的对文件的描述。用户在使用搜索引擎时,向引擎提供一个基于关键词的查询,该搜索引擎试图查找包含尽可能多的关键词的文件,以及在请求时根据运算符或其他规定(例如是逻辑运算,如与/或/非)的范围来查找。对于每一个它查找的这类文件,该引擎检索它的文件记录及按照该文件中相对与其他这类文件而言的关键词匹配数目来排序以向用户提供该记录。目前,搜索引擎只是对用户提供的关键词查询做出简单的响应,而用户在不同的时间可能会有不同的行为习惯,从而有不同的需求,希望检索的内容信息可能有所不同,但现有的检索方法不会考虑这些情况对搜索引擎的搜索结果进行分类。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供了一种基于时间的用户特征行为搜索的系统和方法,使能够根据用户在不同时间段所表现出的不同特征行为对用户的搜索进行过滤,达到不同用户用同一关键词搜索得到的结果不同,同一用户在不同的时间段用同一关键词搜索得到的结果也不同,从而提高用户搜索相关信息的准确性和搜索效率。本专利技术提供了一种信息检索系统,包括搜索引擎(12)、提供给搜索引擎进行搜索的内容索引数据库(11),还包括用户特征数据库(14),保存有用户在不同时间段内所具有的特征行为信息;内容分析系统(13),用于确定当前的时间及接收用户终端传送过来的用户标识,并据此查询用户特征数据库(14)获得所述用户标识当前时间的特征行为信息;以及将搜索引擎(12)搜索出来的检索结果信息根据获得的所述特征行为信息进行再次检索排序,将再次检索排序后的检索结果发送给用户终端显示。其中,所述用户特征数据库(14)包括时间段信息表,用于存储不同时间段对应的不同时间段编号;特征行为表,用于存储用户的不同特征行为编号对应的不同的特征行为的关键字和/或特征行为的从属关键字信息;匹配表,用于存储用户的不同时间段编号所对应的特征行为编号。其中,所述用户特征数据库(14)进一步包括个人用户信息表,用于存储用户的个人信息。其中,所述内容分析系统(13)包括数据收发单元(131),用于实现与用户终端的交互,接收用户终端输入的搜索关键词并发送给搜索引擎接口(132),以及将用户标识发送给时间分析单元(133);搜索引擎接口(132),用于将数据收发单元(131)发送过来的搜索关键词发送给搜索引擎(12),以及接收搜索引擎(12)的搜索结果发送给检索数据存储单元(135);检索数据存储单元(135),用于保存搜索引擎接口(132)发送过来的搜索引擎(12)的搜索结果,以提供给检索分析单元(134);时间分析单元(133),用于接收数本文档来自技高网
...

【技术保护点】
一种信息检索系统,包括:搜索引擎(12)、提供给搜索引擎进行搜索的内容索引数据库(11),其特征在于,还包括:    用户特征数据库(14),保存有用户在不同时间段内所具有的特征行为信息;    内容分析系统(13),用于确定当前的时间及接收用户终端传送过来的用户标识,并据此查询用户特征数据库(14)获得所述用户标识当前时间的特征行为信息;以及将搜索引擎(12)搜索出来的检索结果信息根据获得的所述特征行为信息进行再次检索排序,将再次检索排序后的检索结果发送给用户终端显示。

【技术特征摘要】
1.一种信息检索系统,包括搜索引擎(12)、提供给搜索引擎进行搜索的内容索引数据库(11),其特征在于,还包括用户特征数据库(14),保存有用户在不同时间段内所具有的特征行为信息;内容分析系统(13),用于确定当前的时间及接收用户终端传送过来的用户标识,并据此查询用户特征数据库(14)获得所述用户标识当前时间的特征行为信息;以及将搜索引擎(12)搜索出来的检索结果信息根据获得的所述特征行为信息进行再次检索排序,将再次检索排序后的检索结果发送给用户终端显示。2.根据权利要求1所述的系统,其特征在于,所述用户特征数据库(14)包括时间段信息表,用于存储不同时间段对应的不同时间段编号;特征行为表,用于存储用户的不同特征行为编号对应的不同的特征行为的关键字和/或特征行为的从属关键字信息;匹配表,用于存储用户的不同时间段编号所对应的特征行为编号。3.根据权利要求2所述的系统,其特征在于,所述用户特征数据库(14)进一步包括个人用户信息表,用于存储用户的个人信息。4.根据权利要求1所述的系统,其特征在于,所述内容分析系统(13)包括数据收发单元(131),用于实现与用户终端的交互,接收用户终端输入的搜索关键词并发送给搜索引擎接口(132),以及将用户标识发送给时间分析单元(133);搜索引擎接口(132),用于将数据收发单元(131)发送过来的搜索关键词发送给搜索引擎(12),以及接收搜索引擎(12)的搜索结果发送给检索数据存储单元(135);检索数据存储单元(135),用于保存搜索引擎接口(132)发送过来的搜索引擎(12)的搜索结果,以提供给检索分析单元(134);时间分析单元(133)...

【专利技术属性】
技术研发人员:王伟
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1