当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于语义的异质异构关系型数据库的数据集成方法技术

技术编号:2832274 阅读:371 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于语义的异质异构关系型数据库的数据集成方法。它是通过建立领域内本体论仓库,将各种关系数据库注册到本体模型,从而实现海量关系型数据的集成共享。本发明专利技术通过使用本体论模型有效的屏蔽了不同媒质不同结构的关系数据库所存在模式差异,相对于其它的异质异构数据库的数据集成方法,本发明专利技术在数据集成方法的可行性、动态扩展性、普遍性、透明性方面体现出良好的性能。

【技术实现步骤摘要】

本专利技术涉及语义网络
和分布式的异质异构数据库的集成技术领 域,特别地,涉及。
技术介绍
随着信息和知识经济时代的飞速发展,各科学研究领域都已积累了大量的 科学数据,而且这些数据仍在呈指数级不断增长的趋势。实现这些科学数据共 享与集成应用对于增强我国科技创新能力,提高科技整体水平,减少重复建设, 节约人力物力资源,以及促进社会和经济发展都具有十分重要的意义。然而由 于各个行业和领域长期以来采用了不同的模式结构来描述数据,并使用各种不 同的关系数据库来存储数据,从而为行业之间、甚至领域内部的数据共享和集 成造成了几乎不可逾越的障碍。大规模数据集成和共享有两个基础性技术,分别是互联网技术和分布数据 库技术。互联网技术在数据集成方面体现出开放性,普遍性,松耦合性,动态性, 无界性等良好性能,但是仍然存在以下两个方面的本质缺陷l)当前互联网技术 缺乏规范化的信息表达模型和语义支持互联网上信息资源深度异质异构,如 果不能解决信息资源语义的不一致性问题,将无法实现语义上的互联互通,无 法支持无缝的信息集成;2)缺乏一个统一的体系架构以对全域范围内的资源进行 统一管理互联网上信息资源不存在统一的控制,呈现出无序性,因而,需要 研究一个高度可扩展的体系架构对虚拟的、动态的、层次化的组织进行动态的、 有序的管理;分布式数据库技术的各种模型基于两个基本假设l)数据库的位置透明性用户事先不知道数据源的位置和内容信息,需要用户手工选择信息源,从而在面对大规模海量数据集成时效率急剧下降;2)数据库的自治性各数据库在模式设计上完全独立,造成语义冲突,如果不能解决不同模式间的语义沖突,将不能真正意义上实现语义上的互操作和异构数据的集成共享。传统的集群数据库和联 邦数据库都试图采用模式集成的方法进行数据集成共享,但是以上两个问题都 不能得倒很好的解决,要么不能实现海量大规模数据的共享,要么不能很好的 解决异构数据库之间的语义冲突。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于语义的异质异构关 系型数据库的数据集成方法。本专利技术解决其技术问题采用的技术方案如下一种基于语义的异质异构关系 型数据库的数据集成方法,包括以下步骤1) 领域专家建立本体论仓库本体论是数据模式的语义表达;领域专家是领域内的权威人士,对该领域 有深入研究,能够确定领域内的数据语义关系;由领域专家建立该领域内统一 的本体论;该领域内的所有本体论共同构成领域的本体论仓库;这个本体论仓 库是该领域内的成员均认可的标准词汇表。2) 将在网络上分布的不同媒质不同结构的关系数据库注册到本体论将不同媒质的关系数据库的数据表和领域内统一本体论建立起对应关系, 并生成语义注册表,从而实现关系数据库到本体论的注册;语义注册表中记录 了不同的关系数据模式和领域本体之间的对应关系,本体是统一的,但是关系 数据库的存储媒质可以不同,可以将一个数据表注册到多个本体,也可以将多 个结构完全不同的数据表注册到同一个本体。同时要保存各个关系型数据库的 类型、数据库驱动方式、授权的访问方式在一个资源注册表中。这部分内容需 要数据源提供者和领域专家协同完成。3) 根据用户的输入激励,构造面向领域的富含语义的査询 在终端用户界面上,底层数据的媒质和结构差异对用户是透明的,用户只需接触到领域内的富含语义的易于理解的本体词汇,无需了解数据在不同数据 源上的具体存储结构;査询构造器根据用户的输入激励,自动构造基于本体的 中间査询模式;中间查询模式是一种区别于结构查询语言(SQL)面向语义的査 询语言,可以是SPARQL,也可以是Q3,这种中间查询模式能有效的屏蔽不同关 系数据模式之间的结构差异,同时又富含语义,能有效的表达领域对象之间的 关系。 4) 将富含语义的査询解析为标准的结构查询语言,生成SQL査询计划 查询解析器接收语义查询,通过语义解析后,生成以标准的结构查询语言(SQL)表示的查询计划;这些查询计划描述了所要查询的数据来自哪些数据资 源、具体的数据表名、数据列、査询条件以及各个数据表之间的Join关系等; 生成査询计划的过程中,分为如下几个步骤a:分析语义查询,从本体论中得到查询相关的所有概念及其子概念。 b:从语义注册表和资源注册表中得到这些概念相关的数据库、表信息。 C:分析注册信息,提示加入必要的关键字段。d:生成SQL语句5) 将査询计划分发到不同的关系数据库,执行SQL查询 在进行査询改写之后,分析第2)步己经生成的资源注册表,加载对应的关系数据库的访问驱动,构造数据库的连接,将生成的查询计划分配到各个关系数 据库,执行SQL查询。结合分布式数据库操作的策略,对查询的执行效率和安 全性进行综合考虑。6) 将关系模型的结果集包装为富含语义的结果集由于从数据资源中返回的数据仍然是以关系表的形式展现的,所以需要将关 系表中元素重新转换为语义模型的本体论词汇,使得返回给最终用户的査询结 果仍然是面向语义的。本专利技术与
技术介绍
相比,具有的有益的效果是(1) 可行性基于语义的异质异构关系型数据库的数据集成方法包括构建领域本体库、语义注册与资源注册、构造语义查询、查询改写、执行查询计划、 结果集的语义包装等六个步骤,是一套完整的可以用于任何领域的复杂知识共享和数据集成的解决方案,具有很强的可行性;(2) 动态扩展性通过可配置的注册机制,实现关系数据库资源的动态加入和整合。对于任何新资源的加入和退出,对其他的资源和系统结构都不会任何产生影响;(3) 普遍性普遍支持所有常见的关系数据库,只需要提供数据驱动方式和访 问就可以对其进行集成;通过定义领域本体,消除了不同媒质不能结构的 资源之间的语义鸿沟,从而能够有效处理异质异构的资源;使用户可以用 一致的语义视图对异构数据库进行分布式、透明的访问和查询;(4) 透明性数据使用者只需要接触领域内的语义本体概念,完全不需要了解 底层数据库的媒质和存储结构;用户的输入和最终的查询结果都是面向富含语义的本体概念,利于普通的非专业用户的理解和使用。 附图说明图1为中医领域本体论模型示例图;图2为中医领域本体论与关系数据库的映射方法示例图; 图3语义査询算法流程图。具体实施方式下面详细说明本专利技术,本专利技术的目的和效果将变得更加明显。本专利技术具体 包括以下步骤1) 建立统一的、权威的领域本体仓库。本体论是数据模式的语义表达;领域专家是领域内的权威人士,对该领域 有深入研究,能够确定领域内的数据语义关系;由领域专家建立该领域内统一 的本体论;该领域内的所有本体论共同构成领域的本体论仓库;这个本体论仓 库是该领域内的成员均认可的标准词汇表。例如在中医药领域,如图1所示领 域专家可以建立疾病,治疗方法,中草药的本体模型,并确定这三个本体之间 的关系。2) 语义注册将不同媒质的关系数据库的数据表和领域内统一本体论建立起对应关系, 并生成语义注册表,从而实现关系数据库到本体论的注册;语义注册表中记录 了不同的关系数据模式和领域本体之间的对应关系。这部分内容需要数据提供 者和领域专家协同完成。语义注册有三条基本规则a. 数据库关系表注册到本体b. 数据库关系表列注册到本体值属性c. 数据库关系表的连接(JOIN)注册到本体的关联属性如图2所示,在中医药领域,本文档来自技高网
...

【技术保护点】
一种基于语义的异质异构关系型数据库的数据集成方法,其特征在于:(1)建立仓库:建立统一的、权威的领域本体仓库。(2)语义注册:将在网络上分布的不同媒质不同结构的关系数据库注册到本体论。(3)构造富含语义的查询:根据用 户的输入激励,构造面向领域的富含语义的查询。(4)查询解析:查询解析器接收语义查询,通过语义解析后,生成以标准的结构查询语言表示的查询计划。(5)执行查询:将查询计划分发到不同的关系数据库,执行SQL查询。(6)结果 集包装:将关系模型的结果集包装为富含语义的结果集。

【技术特征摘要】
1.一种基于语义的异质异构关系型数据库的数据集成方法,其特征在于(1)建立仓库建立统一的、权威的领域本体仓库。(2)语义注册将在网络上分布的不同媒质不同结构的关系数据库注册到本体论。(3)构造富含语义的查询根据用户的输入激励,构造面向领...

【专利技术属性】
技术研发人员:吴朝晖张慧敏唐晶明姜晓红
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1