一种基于RDF的异构数据集成与查询系统及方法技术方案

技术编号:32968695 阅读:91 留言:0更新日期:2022-04-09 11:29
本发明专利技术请求保护一种基于RDF的异构数据集成与查询系统及方法,属于异构数据集成与数据语义处理技术相结合领域,包括:原始数据层、数据封装层、语义层、数据查询层和应用层,原始数据层将异构数据库中的结构化数据或非结构化数据传给数据封装层,数据封装层将封装后的数据传给语义层,语义层将进行语义处理之后的数据传递给数据查询层,数据查询层将数据传递给应用层。针对该架构,基于目前实验室现有实验条件,采用i5

【技术实现步骤摘要】
一种基于RDF的异构数据集成与查询系统及方法


[0001]本专利技术属于异构数据集成与数据语义处理技术结合的领域,涉及一种基于RDF的异构数据集成与查询系统及方法。

技术介绍

[0002]物联网系统在工作中,常产生大量异构数据,将这些数据赋予机器能理解的含义,是解决异构数据无法兼容的主要手段。然而在对数据进行含义赋予时,常常会发生语义异构,导致对同一事物在解释上所存在差异,也就体现为同一事物在不同领域中理解的不同。为了解决这种异构带来的难题,涌现出了大量不同类型的方案,使物联网系统之间的通信以及数据交换和语义知识的提取发生了很大的变化。当前,语义模型种类繁多,各具特点,共存发展,这些模型基础包括本体论、中间件、语义网,特别是基于本体论方面,包括oneM2M、语义传感器网络(SSN)本体、WSSN、上下文本体CANON、IOT

Lite、M3本体等。然而这些技术在使用数据时常常没有一个统一的数据源格式作为结果返回,造成语义处理出现歧义,为了在语义互操作工作中可以更好的使用数据,本专利技术可作为语义互操作第一步,即对异构数据进行相关处理。
[0003]经过检索,申请公开号CN107895046B,一种异构数据集成平台,用于对各个异构数据源进行无缝连接,所述平台包括应用系统、虚拟数据层和数据源层,所述应用系统用于对接访问接口和通过虚拟数据层管理各个节点数据源;所述虚拟数据层用于将若干个分布的、独立的异构数据源集成管理;所述数据源层用于接收异构数据源。本专利技术一种异构数据集成平台,将平台分割为应用系统、虚拟数据层和数据源层,对各个异构数据源进行无缝连接,采用抽象对象的方法,向上层应用系统屏蔽各种数据源的底层差别。该技术直接对底层数据源进行操作,抽取各种异构数据建立虚拟数据层,直接操作虚拟数据层,效率低下,并且对计算机内存消耗很高。有鉴于此,本专利技术添加了对于各个异构数据源的时间代价优化算法在查询之前对查询语句进行代价计算并优化为最优查询语句,可大大减少查询时间和计算机资源;除此之外,本专利技术将不同数据源进行局部和整体映射,屏蔽底层数据源的差异,用本体映射技术进行查询,效率远远高于对底层数据源直接进行操作,并且本专利技术中添加了数据转换器,使得查询的数据格式完全符合技术人员的预期。
[0004]申请公开号CN110046280A,一种面向抽检的多工位监控视频语义检索系统,属于视频数据处理和语义Web
该系统的整体架构包括:原始数据层、数据处理层、语义层、服务层和应用层。原始数据层包括产品生产流水线现场各工位的监控视频和用来训练的样本视频库。数据处理层包括样本视频处理模块和监控视频处理模块。语义层包括视频语义标注模块、视频信息语义化模块、视频领域知识本体模型、语义推理和查询模块、本体数据库和语义规则文件。服务层包括视频查询服务和权限检测服务。应用层包括视频检索模块、视频回放模块、用户权限模块。本专利技术可在抽检中对某一产品生产流水线上各工位的监控视频进行语义检索,提高抽检效率。该技术实现底层统一数据处理,处理不了异构数据源,并将所有的数据建立本体放入本体库中,当遇到异构数据时,系统无法正常运行。本发
明通过本体映射技术将异构数据源进行映射,在查询时,可以完成不同数据之间的查询转换。

技术实现思路

[0005]本专利技术旨在解决以上现有技术中在使用数据时面临海量数据处理而效率低下的问题。提出了一种基于RDF的异构数据集成与查询系统及方法。本专利技术的技术方案如下:
[0006]一种基于RDF的异构数据集成与查询系统及方法,其包括:原始数据层、数据封装层、语义层、数据查询层和应用层,所述原始数据层将异构数据库中的结构化数据或非结构化数据传给数据封装层,数据封装层将封装后的数据传给语义层,语义层将进行语义处理之后的数据传递给数据查询层,数据查询层将数据传递给应用层,其中,
[0007]所述原始数据层采用RDF Schema(资源描述框架模式)对不同数据源进行描述,消除异构数据源的语法异构;采用对数据源中的关系表结构和语义进行分析,消除异构数据源的语义异构;
[0008]所述数据封装层包括web服务与数据封装模块;数据封装模块分为查询转换器与结果转换器,查询转换器将子查询根据底层不同的数据库转换成相应数据库可识别的子查询;结果转换器根据不同的子查询得到不同的查询结果,再将查询处理结果进行格式转换,生成RDF数据格式的文件;
[0009]所述语义层包括Global Schema和Local Schema、以及两种模式之间的模式映射;其中Global Schema首先构建一个全局本体,其次做全局虚拟视图的语义化描写,最后通过虚拟视图使得在查询过程中不需查询底层异构数据源;其中构建Local Schema的过程即为对异构数据源的语义描述,可通过Turtle对RDF进行序列化,完成模式创建,Turtle文档由一系列指令、三元组语句或空白行组成;
[0010]所述数据查询层主要实现对用户请求的处理,包括对请求的优化,对结果的缓存以及对数据源的包装;查询使用语言为SPARQL或SQL
[0011]所述应用层包括web接口、管理接口和其他接口。
[0012]进一步的,所述语义层的三元组是一个(主语、谓词、宾语)项的序列,由空格分隔,并在每个三元组之后由

.

结尾,RDF术语有三种类型:RDF URI引用、文字和空白节点;通过RDF根据底层异构数据源数据类型建立相应局部本体以及全局本体,再将其进行模式映射达到互操作,其中模式映射即为Local Schema到Global Schema的映射。
[0013]进一步的,所述Local Schema到Global Schema的映射通过采用中间映射的方式进行模式映射,即将Local Schema首先映射成用RDF描述的文件,再将这些描述文件映射到Global Schema,前者映射模式为1:1,后者映射模式为n:1,是一种公共数据的描述模型,由Turtle和本体技术描述而成的,该映射方法的中间状态属于数据源的虚拟视图,而非真实存在。
[0014]进一步的,所述数据查询层包括查询代价优化模块、选择复制模块、查询执行模块、结果缓存模块;其中,查询代价优化模块用于对查询语句进行查询代价的计算并优化成最小代价查询,这一过程可得到查询执行的代价规划文档;所述选择复制模块用于对部分查询数据复制为热点数据;所述查询执行模块主要负责查询计划的执行,当发出请求经过处理的结果返回至查询执行模块;所述结果缓存模块将热点数据缓存至指定的内存空间,
方便后期查询,缩短响应时间,并将查询结果以用户希望的格式返回至应用层。
[0015]进一步的,所述查询代价优化模块通过SPARQL语句得到预期结果;首先生成SPARQL查询语句;其次对查询语句进行次处理,分析对应数据源的子查询语句;然后通过改进的Cost

Based Optimization算法对查询语句进行时间代价计算,得到查询执行的代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
Optimization算法对查询语句进行时间代价计算,得到查询执行的代价规划文档。6.根据权利要求5所述的一种基于RDF的异构数据集成与查询系统,其特征在于,所述采用改进的Cost

Based Optimization基于成本优化算法需要用到脚本工具Preanalyze;算法操作如下:(1)首先生成ANALYZE语句,打开该算法,SET hive.cbo.enable=TRUE;(2)用/preanalyze.sh

f分析SPARQL语句,根据底层不同数据库文件,分析不同的数据库查询语句文件,获取统计信息并执行文件;(3)获得分析文件后,执行/preanalyze.sh

d语句和/(数据库文件后缀)s

imy.conf语句。7.一种基于权利要求1

6任一项所述系统的异构数...

【专利技术属性】
技术研发人员:耿道渠耿记磊赵阳春王平江渝
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1