搜索网页的方法、装置及系统和建立索引数据库的装置制造方法及图纸

技术编号:2918498 阅读:260 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了搜索网页的方法、装置及系统和建立索引数据库的装置,使用本发明专利技术可以以论坛线索为单元对论坛网页进行分析索引;其中,方法包括:获得用户查询词;从预置索引数据库中查找与所述用户查询词对应的论坛线索;对查询到的所述论坛线索进行格式化处理,输出格式化处理后的论坛线索;本发明专利技术还相应的提供了搜索网页的装置、系统,以及建立索引数据库的装置等;通过本发明专利技术可以根据用户的查询词给用户返回与查询词对应的论坛索引,从而使用户获得以论坛索引为单位的查询结果,而不会返回传统的以论坛网页为单位的查询结果,使返回给用户的查询结果更加准确。

【技术实现步骤摘要】

本专利技术涉及网络
,具体涉及搜索网页的方法、装置及系统和建立索引数据库的装置
技术介绍
随着信息检索技术的飞速发展,文本信息检索技术进入了一个比较成熟的阶段,从最原始的关键字匹配到现在的基于上下文的分析、模式匹配、实例匹配以及应用统计策略进行分析等等,已经形成了一套比较完整的思路和完善的算法,并被广泛应用到了各类搜索引擎上。 现有的为用户提供搜索网页的方法是这样的首先网页收集器通过网络蜘蛛等网页抓取程序从互联网上抓取网页,把网页送入原始网页数据库,网页收集器从网页中提取统一资源定位符(URLUniform Resource Locator)交给搜集控制器判断,搜集控制器得到网页的URL,控制网络蜘蛛抓取其它网页,反复循环直到把所有的网页抓取完成。 系统从原始网页数据库中得到文本信息,对单个网页进行预处理,送入“文本索引器”模块建立索引,形成索引数据库;同时进行链接信息提取,把链接信息送入链接分析模块建立网页评级,形成链接评级库,其中,链接信息包括锚文本、链接本身等信息。 用户通过提交查询请求给查询服务器,查询服务器在索引数据库中进行相关网页的查找,同时链接评级库把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过查询服务器按照相关度进行排序,并提取关键字的内容摘要,最后通过用户接口格式化查询显示内容返回给用户。 从上可知,由于现有技术是以单个网页内容为单元进行分析索引,虽然对新闻网页等主题信息明确且集中的网页能够获得较好的搜索结果,但是对于单个网页包含了众多的用户讨论信息、且每个讨论信息相对比较短小的论坛讨论组性质的论坛网页来说,由于每个网页包含一个或多个帖子内容,相应的论坛线索(Thread)也分布于一个或多个网页中,则根据现有的以单个网页内容为单元进行分析索引的方式难以获得较好的搜索结果。
技术实现思路
本专利技术实施例的目的是提供搜索网页的方法、装置及系统和建立索引数据库的装置,使用本专利技术实施例提供的技术方案,可以以论坛线索为单元对论坛网页进行分析索引。 本专利技术实施例的目的是通过以下技术方案实现的 一种搜索网页的方法,包括 获得用户查询词; 从预置索引数据库中查找与所述用户查询词对应的论坛线索; 对查询到的所述论坛线索进行格式化处理,输出格式化处理后的论坛线索。 一种建立论坛线索数据库的装置,包括 原始网页获取单元,用于获取未处理的原始网页; 论坛线索模板识别单元,用于使用预置的论坛线索模板库识别出所述原始网页对应的论坛线索模板; 信息提取单元,用于从所述原始网页中提取所述论坛线索模板所标识的信息,所述信息包括论坛标识; 信息保存单元,用于在论坛线索数据库与所述论坛标识对应的表项中保存所述信息。 一种建立索引数据库的装置,包括 论坛线索获取单元,用于从论坛线索数据库中获取论坛线索标识对应的论坛线索; 关键字集获取单元,用于对所述论坛线索进行预处理,获得表示所述论坛线索的关键字集; 信息保存单元,用于将所述论坛线索和所述关键字集对应保存至索引数据库。 一种搜索网页的装置,包括 用户查询词获取单元,用于获取用户查询词; 论坛线索查找单元,用于从索引数据库中查找与所述用户查询词对应的论坛线索; 论坛线索输出单元,用于对查询到的所述论坛线索进行格式化处理,将格式化处理后的论坛线索输出给用户。 一种搜索网页的系统,包括 建立论坛线索数据库的装置,用于获取未处理的原始网页;使用预置的论坛线索模板库识别出所述原始网页对应的论坛线索模板;从所述原始网页中提取所述论坛线索模板所标识的信息,所述信息包括论坛标识;在论坛线索数据库与所述论坛标识对应的表项中保存所述信息; 建立索引数据库的装置,用于从所述论坛线索数据库中获取论坛线索标识对应的论坛线索;对所述论坛线索进行预处理,获得表示所述论坛线索的关键字集;将所述论坛线索和所述关键字集对应保存至索引数据库; 搜索网页的装置,用于获得用户查询词;从所述索引数据库中查找与所述用户查询词对应的论坛线索;对查询到的论坛线索进行格式化处理,将格式化处理后的论坛线索输出。 从本专利技术实施例提供的以上技术方案可以看出,由于本专利技术实施例可以根据用户的查询词给用户返回与查询词对应的论坛索引,从而使用户获得以论坛索引为单位的查询结果,而不会返回传统的以论坛网页为单位的查询结果,使返回给用户的查询结果更加准确。 附图说明 图1为本专利技术实施例中建立论坛线索数据库的装置实施例一的结构图; 图2为本专利技术实施例中建立论坛线索数据库的装置实施例二的结构图; 图3为本专利技术实施例中建立索引数据库的装置的结构图; 图4为本专利技术实施例中搜索网页的方法实施例一的流程图; 图5为本专利技术实施例中搜索网页的方法实施例二的流程图; 图6为本专利技术实施例中搜索网页的方法实施例三的流程图; 图7为本专利技术实施例中搜索网页的装置实施例的结构图; 图8为本专利技术实施例中搜索网页的系统实施例的结构图。 具体实施例方式 为使本专利技术的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本专利技术进一步详细说明。 本专利技术实施例提供的建立论坛线索数据库的装置10如图1所示,包括 原始网页获取单元101,用于获得未处理的原始网页。 原始网页是指从网络上抓取的尚未经过处理的网页,原始网页的获取过程是与现有技术相同的,具体过程如下网页收集器11通过网络蜘蛛等网页抓取程序遍历web空间,将抓取的网页保存在原始网页数据库13中;其中,网页收集器的抓取过程是受搜集控制器12控制的; 因而在需要获取原始网页时,可以直接从原始网页数据库中获取。 论坛线索模板识别单元102,用于使用预置的论坛线索模板库14识别出原始网页对应的论坛线索模板。 本实施例只描述了能识别出原始网页对应的论坛线索模板的情况,在实际应用中还可能出现识别不出的情况,如果识别不出,则需要对该原始网页做相应的处理,例如可以直接丢弃,或者对其进行分析,得到其对应的论坛线索模板,并将得到的论坛线索模板保存至论坛线索模板库14中;因为原始网页都有其对应的结构特点,因而其都有唯一对应的论坛线索模板。 论坛线索模板库中保存了预定义的论坛线索模板,一种论坛线索模板的可能表项形式如表1所示 表1、论坛线索模板表 如表1所示,论坛线索模板表中保存有论坛标识、网址URL、原始论坛线索标识提取标识、论坛线索分页提取标识、帖子内容提取标识等信息,通过这些提取标识可以从原始网页中提取出相应的信息,其中原始论坛线索标识是各个不同网络论坛对其所属的论坛线索分配的标识,在同一个论坛中不会有重复。 在进行识别时,需要先从原始网页中提取论坛线索模板表中描述的信息,例如可以提取原始网页的网址URL等,然后根据提取到的信息与论坛线索模板表中已经保存的信息去匹配;不同论坛由于表示结构组织的参数不同,页面内容区分格式不同,所以需要对不同的论坛内容建立不同的模式匹配信息,使得系统可以根据预定义的模式参数获得相关的内容信息;一种可行的实现方式是通过对原始网页的URL地址来分析是否有匹配的论坛线索模板,假设URL为http://bbs.test01.com/read.php?本文档来自技高网
...

【技术保护点】
一种搜索网页的方法,其特征在于,包括:获得用户查询词;从预置索引数据库中查找与所述用户查询词对应的论坛线索;对查询到的所述论坛线索进行格式化处理,输出格式化处理后的论坛线素。

【技术特征摘要】

【专利技术属性】
技术研发人员:王伟李自军
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1