一种面向RDF三元组的专业数据直接映射方法技术

技术编号:22387325 阅读:22 留言:0更新日期:2019-10-29 06:30
一种面向RDF三元组的专业数据直接映射方法,包括以下步骤:预处理长字符串类型的RDF三元组;对长整型RDF三元组进行分割处理;构建RDF数据的可达性查询索引;保存RDF数据的可达性查询索引;获取待映射的数据文件;配置数据映射逻辑;获取数据映射逻辑并对其进行解析,生成数据映射代码;执行数据映射代码;解析数据中的逻辑段,获得SQL片段;根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;生成嵌入有上述SQL语句的数据映射脚本。本发明专利技术可以高效、准确地建立大规模RDF数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。

A direct mapping method of professional data for RDF triples

【技术实现步骤摘要】
一种面向RDF三元组的专业数据直接映射方法
本专利技术涉及专业数据直接映射
,尤其涉及一种面向RDF三元组的专业数据直接映射方法。
技术介绍
资料描述框架,简称RDF,是用于描述Web资源的标记语言,同时也是整个语义网系统结构中的核心,它被广泛用于描述互联网上存在的各种信息资源,数据映射是指将源数据通过某种数据加工步骤映射为目标数据的过程,通常而言,源数据以及目标数据都是数据表的字段,而数据加工步骤则使用结构化查询语言语句来表示,用于描述数据映射的数据称为数据映射逻辑,基于数据映射逻辑可以生成用于实现数据映射的代码;在现有技术中,数据映射逻辑通常采用文字描述的方式,将数据映射逻辑转化为对应的代码过程往往需要开发人员通过手工编写,或在部分自动生成的基础上结合大量的手工修改才能完成,不仅效率低,还容易导致代码与数据映射逻辑不一致的情况发生,并且现有RDF三元组的专业数据的可达性查询方式无法满足快速有效处理数据的需求。
技术实现思路
(一)专利技术目的为解决
技术介绍
中存在的技术问题,本专利技术提出一种面向RDF三元组的专业数据直接映射方法,可以高效、准确地建立大规模RDF数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。(二)技术方案为解决上述问题,本专利技术提出了一种面向RDF三元组的专业数据直接映射方法,包括以下步骤:S1、预处理长字符串类型的RDF三元组,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;S2、利用预设框架对长整型RDF三元组进行分割处理,生成数据索引文件夹;S3、利用数据索引文件夹构建RDF数据的可达性查询索引;S4、对构建的RDF数据的可达性查询索引进行验证和评估;S5、保存构建的RDF数据的可达性查询索引;S6、获取待映射的数据文件;S7、配置数据映射逻辑;S8、获取数据映射逻辑并对其进行解析,生成数据映射代码;S9、执行数据映射代码,进行数据映射;S10、解析数据中的逻辑段,获得SQL片段;S11、根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;S12、生成嵌入有上述SQL语句的数据映射脚本。优选的,在S1中,每个长整型RDF三元组包括主体、谓词和客体。优选的,在S2中,预设框架为MapReduce框架或Spark框架。优选的,在S2中,还包括对长整型RDF三元组进行分类操作,并生成与每种分类方式相对应的数据索引文件夹。优选的,每个类别的索引文件夹中包含有多个子文件。优选的,在S3中,具体包括以下步骤:利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类;根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定RDF数据的可达性查询索引的非根节点等价类;利用RDF数据的可达性查询索引的根节点等价类、RDF数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类与非根节点等价类的谓词;生成RDF数据的可达性查询索引。优选的,在S10中,具体包括以下步骤:解析逻辑段的段名称并获得与逻辑段相对应的SQL语句中的操作关键词;解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数;解析所述逻辑段中的附加文本字段,获得附加文本;基于操作关键词、操作参数和附加文本生成SQL片段。优选的,在S12中,具体包括以下步骤:获得数据映射脚本公用部分的模板文件;将SQL语句嵌入模板文件以生成数据映射脚本。本专利技术的上述技术方案具有如下有益的技术效果:本专利技术可以高效、准确地建立大规模RDF数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。附图说明图1为本专利技术提出的一种面向RDF三元组的专业数据直接映射方法的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。如图1所示,本专利技术提出的一种面向RDF三元组的专业数据直接映射方法,包括以下步骤:S1、预处理长字符串类型的RDF三元组,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;S2、利用预设框架对长整型RDF三元组进行分割处理,生成数据索引文件夹;S3、利用数据索引文件夹构建RDF数据的可达性查询索引;S4、对构建的RDF数据的可达性查询索引进行验证和评估;S5、保存构建的RDF数据的可达性查询索引;S6、获取待映射的数据文件;S7、配置数据映射逻辑;S8、获取数据映射逻辑并对其进行解析,生成数据映射代码;S9、执行数据映射代码,进行数据映射;S10、解析数据中的逻辑段,获得SQL片段;S11、根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;S12、生成嵌入有上述SQL语句的数据映射脚本。在一个可选的实施例中,在S1中,每个长整型RDF三元组包括主体、谓词和客体。在一个可选的实施例中,在S2中,预设框架为MapReduce框架或Spark框架。在一个可选的实施例中,在S2中,还包括对长整型RDF三元组进行分类操作,并生成与每种分类方式相对应的数据索引文件夹。在一个可选的实施例中,每个类别的索引文件夹中包含有多个子文件。在一个可选的实施例中,在S3中,具体包括以下步骤:利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类;根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定RDF数据的可达性查询索引的非根节点等价类;利用RDF数据的可达性查询索引的根节点等价类、RDF数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类与非根节点等价类的谓词;生成RDF数据的可达性查询索引。在一个可选的实施例中,在S10中,具体包括以下步骤:解析逻辑段的段名称并获得与逻辑段相对应的SQL语句中的操作关键词;解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数;解析所述逻辑段中的附加文本字段,获得附加文本;基于操作关键词、操作参数和附加文本生成SQL片段。在一个可选的实施例中,在S12中,具体包括以下步骤:获得包括所述数据映射脚本的公用部分的模板文件;将所述SQL语句嵌入所述模板文件以生成所述数据映射脚本。本专利技术中,首先对长字符串类型的RDF三元组进行预处理,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;利用预设框架对长整型RDF三元组进行分割处理,生成数据索引文件夹;利用数据索引文件夹构建RDF数据的可达性查询索引,包括利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类,根据集合的独立性定理,利用主体-客体后代索本文档来自技高网...

【技术保护点】
1.一种面向RDF三元组的专业数据直接映射方法,其特征在于,包括以下步骤:S1、预处理长字符串类型的RDF三元组,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;S2、利用预设框架对长整型RDF三元组进行分割处理,生成数据索引文件夹;S3、利用数据索引文件夹构建RDF数据的可达性查询索引;S4、对构建的RDF数据的可达性查询索引进行验证和评估;S5、保存构建的RDF数据的可达性查询索引;S6、获取待映射的数据文件;S7、配置数据映射逻辑;S8、获取数据映射逻辑并对其进行解析,生成数据映射代码;S9、执行数据映射代码,进行数据映射;S10、解析数据中的逻辑段,获得SQL片段;S11、根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;S12、生成嵌入有上述SQL语句的数据映射脚本。

【技术特征摘要】
1.一种面向RDF三元组的专业数据直接映射方法,其特征在于,包括以下步骤:S1、预处理长字符串类型的RDF三元组,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;S2、利用预设框架对长整型RDF三元组进行分割处理,生成数据索引文件夹;S3、利用数据索引文件夹构建RDF数据的可达性查询索引;S4、对构建的RDF数据的可达性查询索引进行验证和评估;S5、保存构建的RDF数据的可达性查询索引;S6、获取待映射的数据文件;S7、配置数据映射逻辑;S8、获取数据映射逻辑并对其进行解析,生成数据映射代码;S9、执行数据映射代码,进行数据映射;S10、解析数据中的逻辑段,获得SQL片段;S11、根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;S12、生成嵌入有上述SQL语句的数据映射脚本。2.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S1中,每个长整型RDF三元组包括主体、谓词和客体。3.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S2中,预设框架为MapReduce框架或Spark框架。4.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S2中,还包括对长整型RDF三元组进行分类操作,并生成与每种分类方式相对应的数据索引文件夹。5.根据权利要求4所述的一种面向RDF...

【专利技术属性】
技术研发人员:肖清林
申请(专利权)人:福建奇点时空数字科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1