搜索引擎系统及该搜索引擎系统的结构化数据引入方法技术方案

技术编号:6000122 阅读:232 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种搜索引擎系统,其包括结构化数据存储库和分析器。其中结构化数据存储库用于存储结构化数据,结构化数据通过预定的数据交互协议获取。分析器用于处理获取的结构化数据,并将其存入存储库中。本发明专利技术的搜索引擎系统通过预定的数据交互协议获取结构化数据,方便了结构化数据的抓取和更新,并提高了搜索引器系统的资源覆盖面。此外,用户在使用通用搜索引擎时,系统能够识别潜在的结构化数据搜索的需求,并对结构化数据和普通网页文档进行综合搜索,从而为用户提供全面、准确的搜索结果。

【技术实现步骤摘要】

本专利技术涉及搜索引擎技术,尤其涉及一种可搜索结构化数据的搜索引擎系统以及 该搜索引擎系统的结构化数据引入方法。
技术介绍
互联网的飞速发展为人们提供了一个全新的信息存储、加工、传递和使用的载体, 网络信息也迅速成为了人们获取知识和信息的主要渠道之一。而如此规模的信息资源在将 人类占有的几乎所有知识纳入其中的同时,也给资源的使用者带来了如何充分开发和利用 的问题。搜索引擎正是在这一需求下应运而生,它协助网络用户在互联网上查找信息。具 体地,搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进 行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户。目前的搜索引擎在互联网上搜集信息时主要是通过网页之间的静态链接关系来 收集数据。然而,互联网上大部分内容信息是存储在网络数据库中的,也就是说,目前搜索 引难以通过网页抓取的方式获取其全部的信息内容,所以,当前的搜索引擎也不能索引到 或不能在返回的搜索结果中显示这些内容,因此对用户来说这部分内容是隐藏的。但是,这 部分隐藏的内容对于用户又是非常重要的,例如股票数据、人民币汇率、天气预报、电视节 目表等,可以看出,这些隐藏的内容大部分都是结构化的数据。所以,如何使搜索引擎能够 搜索到互联网上的各种信息,即包括结构化的和非结构化的信息,是搜索引擎技术发展所 面临的主要问题。有鉴于此,有必要对现有的搜索引擎予以改进,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种搜索引擎系统,其能够搜索不同特定领域的结构化数 据,从而为用户提供全面、准确的搜索结果。本专利技术的目的还在于提供一种上述搜索引擎系统的结构化数据引入方法,其能够 使搜索引擎系统快速地更新结构化数据,从而提高搜索引擎系统的工作效率。为实现上述专利技术目的之一,本专利技术的一种搜索引擎系统的结构化数据的引入方 法,其包括如下步骤通过预定的数据交互协议获取结构化数据;将所述结构化数据存储到结构化数据存储库中。作为本专利技术的进一步改进,所述数据交互协议包括站点地图(sitemap)协议。作为本专利技术的进一步改进,所述数据交互协议中包含抓取更新周期;所述获取结 构化数据的步骤包括根据所述抓取更新周期抓取结构化数据。作为本专利技术的进一步改进,所述获取结构化数据的步骤还包括把本次抓取的数 据与上一次抓取的数据进行比较,并将更新后的数据存入结构化数据存储库中。作为本专利技术的进一步改进,该方法还包括对结构化数据进行处理。作为本专利技术的进一步改进,所述对结构化数据处理的步骤包括对数据进行摘要式处理。作为本专利技术的进一步改进,所述对结构化数据处理的步骤包括将数据统一成同一 数据格式。作为本专利技术的进一步改进,所述对结构化数据处理的步骤包括为数据建立索引库。作为本专利技术的进一步改进,所述索引库包括倒排索引文件。作为本专利技术的进一步改进,所述结构化数据存储库还包括网页库,所述网页库用 于备份数据。作为本专利技术的进一步改进,所述网页库还被用于定期全量更新所述索引库。作为本专利技术的进一步改进,该方法还包括确定数据的相关度权值。作为本专利技术的进一步改进,所述数据的相关度权值根据数据文本的基础知识的相 关性来确定。作为本专利技术的进一步改进,所述数据的相关度权值根据数据的特定特征的重要性 来确定。作为本专利技术的进一步改进,所述数据存储库中还存储有语义模板,所述语义模板 根据用户查询日志来确定。为实现上述另一目的,本专利技术的一种搜索引擎系统,其包括结构化数据存储库,用于存储结构化数据,所述结构化数据通过预定的数据交互 协议获取;分析器,用于处理获取的结构化数据,并将其存入所述存储库中。作为本专利技术的进一步改进,所述数据交互协议包括站点地图(sitemap)协议。作为本专利技术的进一步改进,所述数据交互协议中包含抓取更新周期;所述结构化 数据的获取包括根据所述抓取更新周期抓取结构化数据。作为本专利技术的进一步改进,所述结构化数据的获取包括把本次抓取的数据与上 一次抓取的数据进行比较,并将更新后的数据存入所述存储库中。作为本专利技术的进一步改进,所述分析器对结构化数据的处理包括将数据存入数据 存储库中的摘要库。作为本专利技术的进一步改进,所述分析器对结构化数据的处理包括将数据统一成同 一数据格式。作为本专利技术的进一步改进,所述分析器对结构化数据的处理包括为数据建立索引库。作为本专利技术的进一步改进,所述索引库包括倒排索引文件。作为本专利技术的进一步改进,所述结构化数据存储库还包括网页库,所述网页库用 于备份数据。作为本专利技术的进一步改进,所述网页库还被用于定期全量更新所述索引库。作为本专利技术的进一步改进,所述分析器还用于确定数据的相关度权值。作为本专利技术的进一步改进,所述数据的相关度权值根据数据文本的基础知识的相 关性来确定。作为本专利技术的进一步改进,所述数据的相关度权值根据数据的特定特征的重要性 来确定。作为本专利技术的进一步改进,所述结构化数据包括与若干属性标签对应的属性值; 所述结构化数据存储库内还存储有语义模板,所述语义模板包括有属性标签。作为本专利技术的进一步改进,该系统还包括需求分析模块,用于接收来自于客户端的查询词表达式,根据所述查询词表达式 确定相应的语义模板,并根据所述语义模板分析该查询词表达式,以确定所要搜索的结构 化数据;搜索组件,用于搜索结构化数据存储库以获取所要搜索的结构化数据。作为本专利技术的进一步改进,所述需求分析模块对查询词表达式的分析包括分析 出和语义模板中的属性标签对应的属性值,从而确定包含有所述属性值的数据为所要搜索 的数据。作为本专利技术的进一步改进,所述需求分析模块对查询词表达式的分析还包括根据 语义模板分析出所要搜索的属性标签;所述搜索组件还用于从所述获取的数据中抽取与所 述所要搜索的属性标签对应的属性值,并将所述属性值返回给客户端。作为本专利技术的进一步改进,所述需求分析模块对查询词表达式的分析包括根据 语义模板确定和语义模板中的属性标签对应的词项,并给所述词项标注相应的属性标签。作为本专利技术的进一步改进,所述需求分析模块还用于对查询词表达式进行优化。作为本专利技术的进一步改进,所述需求分析模块对查询词表达式的优化包括区间筛 选操作、和/或语义扩展操作、和/或分词操作。作为本专利技术的进一步改进,所述搜索组件还用于根据数据的相关度权值来对搜索 获取的数据进行排序。作为本专利技术的进一步改进,所述搜索组件还用于对排序后的数据进行打散操作。作为本专利技术的进一步改进,该系统还包括网页存储库,用于存储通过访问互联网 链接结构而抓取的网页文档;所述搜索组件还用于搜索网页存储库以获取与所述查询词表 达式相关的网页文档。作为本专利技术的进一步改进,该系统还包括合成模块,用于将获取的网页文档和结 构化数据合成后返回给客户端。作为本专利技术的进一步改进,该系统还包括用户界面,用于记录用户查询日志,所述 语义模板根据用户查询日志而获得。与现有技术相比,本专利技术的有益效果是本专利技术的搜索引擎系统通过预定的数据 交互协议获取结构化数据,方便了结构化数据的抓取和更新,并提高了搜索引器系统的资 源覆盖面。此外,用户在使用通用搜索引擎时,系统能够识别潜在的结构化数据搜索的需 求,并对结构化数据和普通网页文档进行综合搜索,从而为用户提供全面、准确的搜索结果。附图说明图1是本专利技术的搜索引擎系统搜索结构化数据本文档来自技高网...

【技术保护点】
一种搜索引擎系统的结构化数据的引入方法,其特征在于,该方法包括如下步骤:通过预定的数据交互协议获取结构化数据;将所述结构化数据存储到结构化数据存储库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈凯马远珍
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1