一种基于多数据源的企业搜索引擎技术制造技术

技术编号:5284038 阅读:436 留言:0更新日期:2012-04-11 18:40
一种基于多数据源的福富企业搜索引擎技术将企业内部、外部数据统一于同一平台,搜索不同来源地数据信息,支持多种数据格式,包括结构化数据(各种关系型数据库,如Oracle、Mysql、SQL Server等)、非结构化数据(如word、excel、ppt、pdf等)和半结构化数据(如xml等)。首先使用不同的数据采集方式搜集各类信息,对于采集到的信息对象,先要进行一定的智能处理,然后再建立索引,该系统支持按字索引、按词索引、按关键词索引等索引策略,能够适应不同应用环境的需求。之后,将在搜索引擎的中心数据库中进行统一的存储管理,该系统具备强大的结构化、非结构化和半结构化信息的处理和检索能力,它是整个搜索引擎的数据仓储中心,也是整个搜索引擎的检索动力核心,最终的搜索结果在门户页面上展示。

【技术实现步骤摘要】

针对传统的信息检索方式中数据源单一的缺点,本专利技术对该缺点进行了改进,并 提出支持多数据源的一种企业搜索引擎技术,主要研究如何在复杂的应用系统环境下,对 企业知识资产进行统一管理规划,本专利技术属于企业管理自动化领域。
技术介绍
随着企业信息化的逐步普及,企业拥有越来越多的、各式各样的电子文件和数据 信息,面临“信息爆炸”的挑战,搜索引擎方便了人们的生活,计算机操作人员若要找到所需 资料,首先想到的是去网上找,目前最常用的搜索引擎为百度、Google等几家搜索引擎,对 于企业员工而言,若要找企业内部的信息,则使用网页的搜索引擎是无法满足要求的。企业的数据包括数据库信息、邮件信息、网页信息已经各种文档形式的信息,因 此,企业需要一个能够同时搜索各类信息的企业搜索引擎。
技术实现思路
技术问题本专利技术的目的是建立一种支持多数据源的是企业搜索引擎,企业搜索 弓I擎需要支持尽可能多的数据源和应用系统,包括企业内和企业外的数据。对于这些企业 内的数据,经过和业务系统的耦合,可以通过简单的系统配置和一定的数据更新策略来完 成数据的采集和建立索引工作;对于企业外的数据搜索处理,通过页面抓取技术将目标网 页抓取,解析页面内容并索引处理,经过处理后的Internet数据和企业内的数据一起进行 分类。对于企业内和企业外(Internet)的不同数据源,必须采用不同的信息采集和处 理手段。实现统一的搜索平台功能,建立企业级的信息搜索平台,实现跨系统、跨平台的综 合搜索。技术方案综合搜索平台系统框架设计福富企业搜索引擎的业务框架可以分为三层,分别是数据采集、综合搜索以及业 务展示。整个系统的业务结构如说明书附图1所示其中综合搜索位于整个业务结构中的中间层。它负责采集各中数据源的数据,经 过索引处理后将数据保存到中心数据库,并通过搜索功能和智能处理模块帮助用户精准的 定位所需数据。如说明书附图2所示,整个搜索引擎系统包含为7大部分眷数据源 数据采集层 数据索引层 中心数据库 数据检索层 智能管理模块 应用展示接口根据数据来源可以将数据分为三大类关系型数据库数据、网页数据和文件系统 数据。对于不同的数据类型,针对性的采用不同的技术来实现数据的采集。关系型数据库采集为了实现对关系数据库中信息的采集和检索处理,福富企业搜索引擎引入了数据 网关来实现各类关系数据库与搜索引擎中心数据库之间的数据关联和同步。数据网关包含文档格式分析和文档格式标签过滤模块,该模块对关系型数据库中 中的文件内容进行分析并存储到中心数据库。因此数据网关可以对各种关系型数据库中的 格式化文档进行全文检索。数据网关充分利用关系数据库支持事务的特点,可以保证索引和数据的同步,从 而保证查询的结果是完全正确的。数据网关支持所有当前的各主流关系型数据库,包括0raCle、DB2、SQL Server, SybaseUnformix等各大关系数据库,并能够支持每种数据库系统的多个不同主流版本。具 体结构如说明书附图3所示。数据采集和数据更新方式可以是以下几种方式 完全更新将源数据库表中所有符合条件的数据完全同步到目标数据库中。 差分更新将源数据库表中新修改的数据(包括添加、修改或删除的数据)同步 到目标数据库中。网页数据采集对于互联网或企业内部的网页,我们可以把每一个网页当作一个节点,把那些超 链接(Hyperlinks)当作连接网页的弧。我们可以从其中一个节点出发,用图的遍历算法, 自动地访问到每一个网页并把它们存起来。如附图4所示。对于不同的目标网页数据的采集,福富企业搜索引擎采用不同的采集策略 基于链接基于链接的抓取的关键是相关页面主题团之间的隧道现象,即很多在抓取路径上 偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为。我们提 出了一种基于反向链接的分层式上下文模型,用于描述指向目标网页一定物理跳数半径内 的网页拓扑图的中心为目标网页,将网页依据指向目标网页的物理跳数进行层次划分,从 外层网页指向内层网页的链接称为反向链接。通过对链接的遍历来完成采集。 基于网站网站粒度的网页数据采集的关键之处在于站点的划分和站点等级的计算。站点等 级的计算方法与页面等级类似,通过对网站之间的链接作一定程度抽象,并计算出链接的权重。网站划分情况分为按域名划分和按IP地址划分两种。在分布式情况下,通过对同 一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,同时,根据不同文件在 各个站点上的分布情况,构造文档图,然后进行网页采集。 基于网页基于网页的链接分析算法的基本思想是通过网页分割算法将网页分为不同的网页块,然后对这些网页块建立链接矩阵。同样的,通过对连接矩阵的遍历来完成网页数据采集。数据采集和数据更新方式可以是以下几种方式眷广度优先搜索策略广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层 次的搜索。通过将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再 将其中无关的网页过滤掉。眷最佳优先搜索策略最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似 度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页 分析算法预测为“有用”的网页。 支持增量更新的策略每次采集只采集上次更新后新生成的网页,而不是全部再采集一遍,从而保证信 息更新的效率。文件数据采集对于文件系统中的各类非结构化文档,通过文件数据采集模块进行信息抽取和处 理。它主要完成以下任务把本地各种类型的文档资料加载到中心数据库,从而为实现后续 的检索、发布做好基础;对已经进入中心数据库的数据进行在线加工,更好的满足服务的需 要;把WORD、EXCEL、POWERPOINT、PDF、HTML、XML、TXT等不同类型的文件进行文本抽取,并 装载到中心数据库中;从模板直接创建对应的中心数据库,进行快速应用。企业内数据包括各种企业应用系统的数据源,如关系型数据库、公司内部网(Web 页面)、门户系统、员工论坛、OA系统(Domino数据库)、文件系统(PDF、Word、EXCel等)等 应用系统。经过和业务系统的耦合,对于这些企业内的数据,可以通过简单的系统配置和一 定的数据更新策略来完成数据的采集和建立索引工作。企业外的数据主要是来自Internet相关行业网站的新闻、评论、公告。企业外数 据的主要数据类型是以Web页面。对于企业外的数据搜索处理,通过页面抓取技术将目标网页抓取,解析页面内容 并索引处理,经过处理后的Internet数据和企业内的数据一起进行分类。当企业员工使用 搜索查询相关信息时,可以同时得到企业内和企业外的相关数据,通过定时抓取网页更新 索引数据,保证企业员工获得最新的数据。综合考虑企业内和企业外的数据,可以将所需处理的数据归纳为结构化数据(各 种关系型数据库)和非结构化数据(Domino文件系统、Web网页、邮件系统、TXT文本、 OFFICE文档、PDF文档等)。对于这两大类型的数据,福富企业搜索引擎都可以很好的支持。附图说明图1是整体系统业务结构图;图2是抽象后的业务结构图3是数据网关;图4是网页数据处理。权利要求1.于多数据源的福富企业搜索引擎技术,其特征在于系统同时支持企业内部数 据本文档来自技高网...

【技术保护点】
一种基于多数据源的福富企业搜索引擎技术,其特征在于系统同时支持企业内部数据(数据库数据)、外部数据处理(网页、邮件等数据):复杂的应用系统环境下,企业内部数据知识管理系统与各业务系统的数据融合将采用几种方式:界面层耦合、业务层耦合、数据层耦合。经过和业务系统的耦合,对于这些企业内的数据,可以通过简单的系统配置和一定的数据更新策略来完成数据的采集和建立索引工作。对于企业外的数据搜索处理,通过页面抓取技术将目标网页抓取,解析页面内容并索引处理,经过处理后的Internet数据和企业内的数据一起进行分类。当企业员工使用搜索查询相关信息时,可以同时得到企业内和企业外的相关数据,通过定时抓取网页更新索引数据,保证企业员工获得最新的数据。具体实现方式是:关系型数据库采集福富企业搜索引擎引入了数据网关来实现各类关系数据库与搜索引擎中心数据库之间的数据关联和同步。数据网关包含文档格式分析和文档格式标签过滤模块,该模块对关系型数据库中中的文件内容进行分析并存储到中心数据库。因此数据网关可以对各种关系型数据库中的格式化文档进行全文检索。网页数据采集福富企业搜索引擎提出了一种基于反向链接的分层式上下文模型,用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心为目标网页,将网页依据指向目标网页的物理跳数进行层次划分,通过对链接的遍历来完成采集。网站划分情况分为按域名划分和按IP地址划分两种。在分布式情况下,通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,同时,根据不同文件在各个站点上的分布情况,构造文档图,然后进行网页采集。基于网页的链接分析算法的基本思想是通过网页分割算法将网页分为不同的网页块,然后对这些网页块建立链接矩阵,通过对连接矩阵的遍历来完成网页数据采集。文件数据采集对于文件系统中的各类非结构化文档,通过文件数据采集模块进行信息抽取和处理。把本地各种类型的文档资料加载到中心数据库,从而为实现后续的检索。...

【技术特征摘要】

【专利技术属性】
技术研发人员:黄震奇江勇林乐然罗志伟陈华光
申请(专利权)人:福建富士通信息软件有限公司
类型:发明
国别省市:35[中国|福建]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1