一种网络资源检索方法及系统技术方案

技术编号:2918539 阅读:295 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种网络资源检索方法及系统,以解决现有的网页信息检索,耗费用户时间和精力而无法快速、准确地获取资源的问题。所述方法包括:创建网页索引,并对网页中包含的资源,创建对应每个网页的资源索引;接收用户输入的检索关键词,并在网页索引中查询符合所述关键词的网页;在资源索引中查询所述网页包含的资源;将包含所述网页信息和相应资源信息的检索结果显示。本发明专利技术在页面的一侧(例如左侧)显示网页正文摘要,另一侧(例如右侧)显示对应的资源信息(如资源名称,资源链接),用户可以直观地获知每个网页中都包含了哪些可下载的资源,通过直接下载可快速地获取自己想要的各种资源。

【技术实现步骤摘要】

本专利技术涉及搜索引擎技术,特别是涉及一种网络资源检索方法及系统
技术介绍
随着网络技术的快速发展,网页所承载的信息内容越来越多,例如MP3、 应用软件、学习课程等。因此在很多情况下,用户在进行Web信息检索时,不 仅仅关心页面上的内容,同时也关心页面上所含有的各种资源链接,如音频文 件、视频文件等。现有的网页信息检索,例如百度、google等,假如用户输入关键词检索 某个视频资源,在搜索结果页面中返回了包含该关键词的网页链接及页面内容 的简要介绍;用户需要点击所选页面链接,通过浏览该页面,才能确定该页面 中是否包含需要的资源或所关心的其他内容,进一步进行下载或获取。按照上述方法,用户可以通过查找网页获取所关心的信息或者资源。但是, 由于在检索结果的页面中,用户无法得知每个网页中都包含了哪些可下载的资 源,因此需要用户耗费时间和精力进一步进行筛选,而无法快速地获取到自己 想要的资源。而且,大部分网页中的资源名称都用了简单的标识,用户通过关 键字检索网页时,经常无法获得准确的结果。例如, 一个网页内容中包含了 "大学听力第一册"关键词,该网页中提供 了 "partl.mp3" , "part2,mp3" , "part3.mp3"等资源,用户需要检索到该 页面并进行资源下载。用户在以"大学听力第一册"为关键词进行搜索网页时, 可能会返回一系列与"大学听力第一册"相关的网页内容,但不一定每个网页 中都包含以上资源的下载,用户需要进一步浏览网页进行筛选;若用户以 "partl.mp3"为关键词进行搜索,经常搜索出的网页内容除包含大学听力第 一册外,可能还包括其他不相关的资源,例如某个电影的下载片断也叫 partl. mp3,用户同样需要进一步进行筛选。总之,虽然现有的搜索网站提供了特定资源的直接下载,例如百度4是供的 mp3的检索,但是不能满足用户对各种资源下载的需求。
技术实现思路
本专利技术所要解决的技术问题是提供一种网络资源检索方法及系统,以解决现有的网页信息检索,需要用户耗费时间和精力进一步进行筛选,而无法快速、 准确地获取资源的问题。为解决上述技术问题,根据本专利技术提供的具体实施例,本专利技术公开了以下技术方案一种网络资源检索方法,包括创建网页索引,并对网页中包含的资源,创建对应每个网页的资源索引; 接收用户输入的检索关键词,并在网页索引中查询符合所述关键词的网页;在资源索引中查询所述网页包含的资源;将包含所述网页信息和相应资源信息的检索结果显示。优选的,在页面的一侧显示网页信息,另一侧显示相应的资源信息。优选的,按照资源与所述关键词的相关性高低,将网页包含的所有资源排序,并将排名靠前的部分资源信息显示。其中,以资源所在网页的URL为索引建立资源索引。所述方法还包括根据用户的不同侧重点,按照侧重网页内容或者侧重资源内容,对检索到的网页信息进行排序。 一种网络资源^r索系统,包括索引单元,用于创建网页索引,并对网页中包含的资源,创建对应每个网 页的资源索引;^r索单元,用于在网页索引中查询符合^r索关4定词的网页,并在资源索引 中查询所述网页包含的资源;查询代理单元,用于接收用户输入的检索关键词,并通过所述检索单元的 检索,将包含网页信息和相应资源信息的检索结果显示给用户。优选的,所述查询代理单元在页面的一侧显示网页信息,另一侧显示相应 的资源信息。所述系统还包括排序单元,用于根据用户的不同侧重点,按照侧重网页 内容或者侧重资源内容,对检索到的网页信息进行排序。其中,所述排序单元还按照资源与所述关键词的相关性高低,将网页包含 的所有资源排序,并将排名靠前的部分资源信息通过所述查询代理单元显示。其中,所述索引单元以资源所在网页的URL为索引建立资源索引。 根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果 首先,通过建立网页索引和对应网页的资源索引,能够将符合用户检索关 键词的网页信息和资源信息同时显示。所述将资源信息直接展示,用户可以直 观地获知每个网页中都包含了哪些可下载的资源,而无需进入资源所在页面, 用户通过在才企索结果页面直接下载,即可快速地获取自己想要的各种资源。而且,所述显示界面新颖,在页面的一侧(例如左侧)显示网页正文摘要, 另一侧(例如右侧)显示对应的资源信息(如资源名称,资源链接),突破了传统 搜索引擎的显示方式。其次,结果页面中网页的摘要介绍,对相应网页中的资源提供了一个辅助 性的说明,用户可以根据资源所在页面的摘要信息判断该资源是否为所需。因 此,资源所在页面的摘要信息作为用户判断该资源的依据,增加了用户判断资 源内容的准确性,从而提高了用户获取资源的准确性。再次,在进行^r索结果排序时,考虑用户的侧重方向(侧重网页内容或侧 重资源内容),将网页中的资源的锚也作为指标进行权重的计算。根据用户的 侧重点返回的检索结果顺序不同,可以更好地满足用户的需求。 附图说明图1是本专利技术实施例所述快检索网页所含资源的步骤流程图; 图2是本专利技术实施例中网页正文索引与资源索引之间的关系示意图; 图3是本专利技术实施例中检索结果的页面显示效果图; 图4是本专利技术实施例所述快检索网页所含资源的系统结构图。 具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。针对在4全索结果的页面中,用户无法得知每个网页中都包含了哪些可下载 的资源,以及由于资源名称简单,用户无法获得准确的检索结果的问题,本发 明实施例提供了 一种可快速检索网页中包含的资源的方法。通过创建网页索 引,并创建以资源所在网页的URL为索引的资源索引,可以在才全索网页时,将 网页中的资源一同4企索出来,并同时显示在检索结果页面中,1更于用户直接下载,快速地获取自己想要的各种资源。参照图1,是本专利技术实施例所述快速检索网页所含资源的步骤流程图。下面将以Web搜索中的资源获取为例进行说明。步骤IOI,利用网页抓取工具,从互联网获取网页。 步骤102,对获取的网页建立索引。具体过程是提取网页正文,并根据 网页的编码对网页正文进行相应的编码转换;然后对正文进行分词处理,去掉 "的、啊、哦"等等停用词;再对剩下的正文关4定词,以所述正文关键词为索引, 建立倒排索引。建立倒排索引的示例如下文本1的正文关键词是aaa bbb ccc謹., 文本2的正文关键词是bbb ddd yyy; 以关键词建立倒排索引后aaa 1bbb 1,2 ccc 1 ddd 1,2yyy 2如果需要查找哪些文本中含有关键词bbb时,只需取出该关键词所对应的 文本号1, 2即可。步骤103,分析网页中可能含有的资源链接,创建一个独立的资源索引。 创建步骤如下首先,获取网页中以(〈a href="链接,,〉名称〈/a〉)标签标识的链接以及 锚文本。通常情况下,{<ahref="链接"〉名称〈/a"为HTML语言,用以定义 一个链接,其中"名称"即为显示在网页中的文字,称为锚文本。例如,在个 人网站上把中央电视台(www. cctv. com)作为新闻频道的链接,访问者通过点 击网站上的"新闻频道"就能进入http: 〃www. cctv. com网站,那么"新闻频道"就是中央电视台网站首页的锚文本。其次,判断获取的本文档来自技高网
...

【技术保护点】
一种网络资源检索方法,其特征在于,包括:创建网页索引,并对网页中包含的资源,创建对应每个网页的资源索引;接收用户输入的检索关键词,并在网页索引中查询符合所述关键词的网页;在资源索引中查询所述网页包含的资源;将 包含所述网页信息和相应资源信息的检索结果显示。

【技术特征摘要】

【专利技术属性】
技术研发人员:周连强贾建坤高立琦刘挺
申请(专利权)人:北京金山软件有限公司北京金山数字娱乐科技有限公司哈尔滨工业大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1