一种基于关系模式学习本体的数据集成系统的构建方法技术方案

技术编号:7544148 阅读:252 留言:0更新日期:2012-07-13 08:19
本发明专利技术提供一种基于关系模式学习本体的数据集成系统的构建方法,是一种把通过关系模式学习到的本体信息运用到数据集成中的方法。该方法是采用本体和XML技术的异构数据集成构建方法,即利用本体在语义上的优势和XML在语法上的表达能力来实现一种异构数据集成的方法。通过从局部数据源的关系模式中学习并构建针对局部数据源的局部本体和针对领域的全局本体,以及建立映射关系来消除数据的异构性。对外提供统一查询接口,通过所建立的映射关系把全局查询分解为对局部数据源的子查询,经过对各个子查询的优化后将查询结果合并返回。本发明专利技术解决了异构的数据源之间交流时产生的语法语义异构问题。

【技术实现步骤摘要】

本专利技术涉及一种数据集成系统的构建方法,特别是利用从关系模式中学习本体技术的数据集成的系统的构建方法。
技术介绍
目前,随着计算机网络的普及,数据资源的共享已经成为一个热门话题。很多企业需要将各种各样的数据集成起来,构成企业的管理决策的网络信息平台。数据集成以共享数据资源为出发点,对各种异构数据提供统一的表示、存储和管理,运用一定的技术手段将企业或部门内部的各种数据按一定的规则集成为一个整体。数据集成屏蔽了各种数据间的差异,通过系统进行统一操作,使得统一的表示、存储和管理各种数据成为可能。集成后的数据对于用户来说是统一的和无差异的。1993年,Gruber等人将本体的概念从哲学界引入到计算机界,并给出了一个定义“本体是概念模型的明确的规范说明”,之后又相继由Borstjtuder等人进行深入研究给出进一步阐述“本体是概念模型的明确形式化规范说明”。本体包含了本体包含了许多领域中的技术,如知识表示与推理、面向对象建模、数据库理论以及人工智能等。它可能被包括在一个软件系统中,像知识库一样工作,提供智能化的信息处理功能。但是目前的大部分信息都是被关系模式定义的,因此如何将从关系模式中学习本体信息也是一个研究点。随着XML及相关技术和应用的发展,XML不仅是应用系统之间交换数据的一种标准,而且已经成为hternet重要的信息交换标准和表示的技术之一。XML提供了一种可编辑、可解析、可表示各种数据的信息交换格式。同时,XML还可以方便地实现对资源的封装和集成发布。以上技术的逐步发展启发了我们利用本体在语义描述上的优势和XML在语法上的优势来构建一个异构数据集成系统,其中系统的本体从关系模式中学习而来。本专利技术就是在这种想法下产生的。
技术实现思路
本专利技术要解决的技术问题从关系模式中学习本体,解决本体描述数据源的准确性问题,并用来解决异构的数据源之间交流时产生的语法语义异构问题,构建。本专利技术的技术解决方案是,所述的构建方法包括通过关系模式学习本体信息构建、查询处理构建以及系统的整体架构构建三大部分;所述的系统的整体架构包括接口层,中间件层和数据源层三层;所述的接口层用来与外界进行交互;所述的中间件层负责系统核心查询业务,查询过程中使用本体库及本体映射规则;所述的数据源层包括局部数据源以及数据源上构建的局部本体库;所述的本体的构建过程包括局部本体的构建,全局本体的构建,以及全局本体和局部本体之间、局部本体和局部数据源之间的映射关系;所述的映射关系包括本体概念映射,本体属性映射以及本体关系映射;其中,所述的通过关系模式学习本体信息构建,是指对局部数据源的关系模式分析分别对本体的概念、属性和约束等信息进行构建1)如果对于关系R有唯一主键,可以创建一个对应的本体概念;2)如果两个关系Ri和&有相同主键且Ri中的每一个主键值都在&中,则Ri对应的概念是&对应概念的子概念;3)如果两个关系的主键值完全相同,则它们对应的概念为同一概念;4)如果关系氏的外键对应于&的一个属性,则创建一个从氏对应概念到&对应概念的对象属性;5)如果一个关系&的主键分别是氏和民主键的并集,且氏和民主键的交集为空,则创建一个从氏对应概念到&对应概念的可逆对象属性;6)对于一个关系模式R的属性A,都可以创建一个对应的本体属性P,如果A既不是主键也不是外键,P是一个值属性;7)如果A是主键或外键,则P的基数约束是1 ;如果A被声明是N0TNULL的,那么 P的最小基数约束是1 ;如果A被声明是Unique的,那么P的最大基数约束是2 ;8)如果A的取值是枚举给定的,那么P要映射为一个枚举属性;如果A的取值范围是一定的,那么P要映射为一个数据范围;如果A是一个外键,那么P有一个allValuesFrom 约束;所述的查询处理构建包括如下的学习步骤1)通过外界交互查询针对领域内全局本体的全局查询请求数据;2)通过分析所生成的全局查询以及全局本体与局部本体,局部本体和局部数据源之间的映射关系,把全局查询请求数据分解为针对局部数据源的子查询请求;3)针对每一个分解的子查询请求,通过从查询语句中提取出不含变量路径的表达式和基于路径的谓词,将查询合并化简;4)通过对各个子查询的查询结果进行合并,使得查询的一些中间结果和最终结果可以被之后的查询所使用,并把最终结果返回。其中,所述的局部本体构建,是根据权利要求1中通过对关系模式学习得到的本体信息;通过对关系模式的学习得到的本体包括本体的概念、本体的属性以及本体的约束; 对关系模式的学习是根据关系模式中存在主键和外键个数的不同创建相应本体信息。其中,所述的全局本体构建,是通过对局部本体的总体分析得到领域内的本体信肩、ο本专利技术与现有集成系统相比的优点在于1)直接从关系模式中学习本体信息,进而使本体对数据源的描述更为准确。2)构建两类本体,使得局部数据源和全局本体分离,降低了系统的耦合性,当数据源发生变化时,不会过多的影响到全局本体。3)对数据的处理统一使用XML,使得查询的一些中间结果和最终结果可以被之后的查询所使用。附图说明图1为一种基于关系模式学习本体的数据集成系统的架构图;图2为构建本体流程图;图3为一种基于关系模式学习本体的数据集成系统的查询流程图。 具体实施例方式下面结合附图及具体实施例对本专利技术进行详细说明。1)从关系模式学习本体信息。对于任意一个关系R,R中的每一列称之为一个属性,用Ai表示。关系R则可以被表示为R(A1; A2,5,An)。假设t是R中的一个元组,t 则表示元组中的某个属性值,attr(R)返回R中所有的属性。pkey(R)表示R中的主键, fkey (R)表示R中的外键。对于关系r e R,如果r有唯一主键,则可以创建一个对应的本体概念C ;如果两个关系氏和&有相同主键且氏中的每一个主键值都在&中,则氏对应的概念是&对应概念的子概念;如果两个关系的主键值完全相同,则它们对应的概念为同一概念;如果关系氏的外键对应于&的一个属性,则创建一个从氏对应概念到&对应概念的对象属性;如果一个关系&的主键分别是氏和民主键的并集,且氏和民主键的交集为空,则根据创建一个可逆对象属性;对于一个关系模式R的属性A,都可以创建一个对应的本体属性P,如果A既不是主键也不是外键,P是一个值属性;如果A是主键或外键,则P 的技术约束是1 ;如果A被声明是N0TNULL的,那么P的最小基数约束是1 ;如果A被声明是Unique的,那么P的最大基数约束是2 ;如果A的取值是枚举给定的,那么P要映射为一个枚举属性;如果A的取值范围是一定的,那么P要映射为一个数据范围;如果A是一个外键,那么P有一个alIValuesFrom约束。2)确定系统架构。如图1所示,是一种基于关系模式学习本体的数据集成系统的架构图。本系统分为三个部分接口层,中间件层和数据源层。接口层位于系统的最上层, 与外界进行交互,外界通过该层提供查询项,并调用中间件层进行统一查询。中间件层是系统中最关键的一层。其负责处理接口层传入的查询语句,经过解析,分解后传递给各个数据源,最后将查询到的数据进行集成后返回。数据源层是各类自治的数据源的集合,它是整个集成本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:李超高鹏吕志强李蕊
申请(专利权)人:北京航空航天大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术