一种基于XML间接映射的RDF构建方法技术

技术编号:28623398 阅读:26 留言:0更新日期:2021-05-28 16:19
本发明专利技术公开了一种基于XML间接映射的RDF构建方法,该方法通过映射文档对XML文档中的相关元素进行查询定位来构建RDF,关键在于设计一种适合于编写该映射文档的映射语言——X2RML,包括:阐述映射文档的结构,X2RML映射文档也被称作映射图,映射图可以拥有若干个子映射图;明确子映射图所对应的三元组映射的结构,三元组映射包含逻辑树组件、主语映射组件以及谓语‑宾语映射组件,各个映射组件实现不同的映射功能;定义逻辑树组件中的逻辑树;定义主语映射组件;定义谓语‑宾语映射组件,包括谓语映射组件和宾语映射组件。本发明专利技术的优点是:用户可以通过编辑映射文档来自主选择XML中的部分元素,然后将这部分元素映射为RDF。

【技术实现步骤摘要】
一种基于XML间接映射的RDF构建方法
本专利技术公开了一种一种基于XML间接映射的RDF构建方法。该方法通过映射文档对XML文档中的相关元素进行查询定位来构建RDF,关键在于设计一种适合于编写该映射文档的映射语言——X2RML。
技术介绍
XML作为一种灵活的半结构化标签语言,在信息表示和数据交换方面有先天的优势。XML现在被广泛的应用于各种团体和商界,在很多应用领域,人们已经定义了基于XML的应用,比如数学领域(MathML)、天文领域(AML)、生物信息领域(BSML)、投资领域(IRML)等等。此外,可以作为统一数据交换格式的XML在企业信息交换方面也发挥了巨大的作用。XML已经成为Web数据表示与交换的事实上的标准。语义Web是基于图和“链接”的组织方式,但是所链接的不再是网页而是客观世界中的实体,实体之间的链接也被增加了语义描述。RDF是语义Web中用于组织语义化数据的数据模型,RDFSchema通过定义RDF使用的词汇为其赋予语义。知识图谱作为语义Web发展的产物成为了研究的热点,虽然并不是所有知识图谱的描述框架是RDF,但本质都是描述实体、实体的属性及关系,知识图谱中将三元组称作为知识。RDF通过聚合大量的知识实现快速响应和推理,已经被广泛地应用到智能领域作为数据组织的方式。Web中存在大量不同结构形态且没有语义信息的数据,基于这些数据构建RDF或知识图谱已经成为了一个重要的研究方向。XML是Web中统一的数据存储和交换格式,因其结构灵活、可移植性强,以XML描述的数据广泛存在于Web中,已经有一些工作致力于研究基于XML构建RDF的方法,但构建效果不甚理想,综合分析现有方法发现有以下几点不足:映射规则不合理,不能真正反映数据蕴含的语义信息;可处理的XML类型单一,方法的通用性和可移植性较差;未能有效识别等价元素,无法避免所构建的RDF出现冗余。本专利技术基于已有方法的不足提出基于XML间接映射的RDF构建方法。
技术实现思路
专利技术目的:本专利技术致力于使用户可以通过编辑映射文档来自主选择XML中的部分元素,然后将这部分元素映射为RDF,另外该方法针对那些经常发生更新的XML数据具有良好的映射效果。技术方案:本专利技术方案主要包括以下步骤:步骤一:构建X2RML映射文档。X2RML映射文档结构:X2RML映射文档是以RDF图的形式来描述的,即RDF不仅仅是映射XML数据的目标数据模型也是用于描述X2RML映射文档所选用的数据模型,X2RML映射文档也被称作映射图,映射图可以拥有若干个子映射图,每个子映射图都对应一个三元组映射,三元组映射又包含逻辑树组件、主语映射组件以及谓语-宾语映射组件,各个映射组件实现不同的映射功能;步骤二:定义三元组映射。(1)逻辑树组件:逻辑树组件中的逻辑树确定了子映射图所要映射的源数据,然后使用三元组映射中的主语映射组件和谓语-宾语映射组件将逻辑树确定的若干元素映射为若干条RDF三元组序列,每个元素对应一组与之相关的RDF三元组序列;(2)主语映射组件:该组件中的主语映射将逻辑树中定位的每个元素映射为所生成的与该元素相关的RDF三元组序列中的主语部分;(3)谓语-宾语映射组件:包括谓语映射组件和宾语映射组件,映射结果即相关RDF三元组的属性和值。步骤三:定义各映射组件组成部分。(1)主语映射:主语映射是有关如何将逻辑树中的一个子树对应的元素的相关内容映射为所生成的若干RDF三元组的主语的若干RDF陈述;(2)主语类型映射:描述主语类型映射的RDF陈述所用的属性为xr:class,xr:class的值是词汇表中相关类的限定名(QName),该类是对应的主语映射组件生成的RDF陈述中的主语资源所属的类;(3)常量映射:常量映射所生成的RDF术语与逻辑树中的子树无关,描述常量映射的RDF陈述中使用的属性为xr:consant,属性xr:consant的值为常量,该常量是预定义的RDF术语,它是目标RDF三元组序列的相关三元组的组成部分;(4)简单子元素映射:简单子元素映射也是一个术语映射,描述该映射的陈述用到了属性xr:simSubElement,该属性的值必须是一个简单子元素的标签的名称,逻辑树中的简单子元素所内嵌的文本值即该简单子元素映射所映射生成的RDF术语;(5)属性映射:描述该映射的陈述用到了属性xr:attribute,该属性的值必须逻辑树子树的根元素包含属性(attribute)的名称,该属性(attribute)的属性值为属性映射所映射生成的RDF术语;(6)标识符模板映射:标识符模板映射也是一个术语映射,简称模板映射。描述该映射的RDF陈述用到了属性xr:template,该属性的值必须是字符串模板,字符串模板用于生成目标RDF三元组序列中的资源标识符IRI。有益效果:本专利技术优化了映射规则,确保映射过程中的数据内容和语义的完备和准确;提出了对不同类型的XML进行映射的通用型方法;可以识别XML中的等价元素,解决由这种等价元素所导致的RDF数据冗余问题。附图说明图1为逻辑树组件构成示意图;图2为三元组映射构成示意图;图3为各映射组件组成部分示意图;图4为映射流程示意图;具体实施方式下面结合附图,对本专利技术做进一步说明。本专利技术所述基于XML数据自动构建RDF数据的方法,包括以下三部分:1、逻辑树组件和逻辑树逻辑树组件确定了它所属的三元组映射所要处理的XML元素集,描述该组件的RDF陈述所用的属性为xr:logicalTree,该属性的值是若干与逻辑树相关的RDF陈述,这些陈述通过XQuery查询语句定位了所要处理的XML元素集并规定了处理元素集的方式。逻辑树组件的构成如图1。在映射文档中使用如下查询映射来指定逻辑树:[]xr:xQuery″″″for$xindoc(″books.xml″)/SigmodRecord/issue/articles/articlewhere$x/initPage>40return$x″″″.2、三元组映射逻辑树确定了子映射图所需要的的数据信息,通过三元组映射(子图映射)将逻辑树中包含的信息映射为若干条RDF三元组。逻辑树的每个子树可以映射为若干条三元组,同一个子树映射生成的RDF三元组拥有共同的主语。三元组映射的构成如图2。三元组映射包含若干条陈述,这些陈述拥相同的主语,所以可以采用Turtle中嵌套空白节点的语法,三元组映射必须满足以下要求:必须有且仅有一条有关逻辑树组件的陈述,该陈述的属性为xr:logicalTree属性,它的值是确定逻辑树的陈述,该陈述指定了要映射为RDF三元组的基于输入的XML数据集的有效XQuery查询的结果,逻辑树组件建立该三元组映射和逻辑树的关系;◆必须有且仅有一条有关主语映射组件的RDF陈述,该陈述规定了为所链接的逻辑树的每个子本文档来自技高网
...

【技术保护点】
1.一种基于XML间接映射的RDF构建方法,其主要特征包括如下步骤:/n(1)X2RML映射文档结构:X2RML映射文档是以RDF图的形式来描述的,即RDF不仅仅是映射XML数据的目标数据模型也是用于描述X2RML映射文档所选用的数据模型,X2RML映射文档也被称作映射图,映射图可以拥有若干个子映射图,每个子映射图都对应一个三元组映射,三元组映射又包含逻辑树组件、主语映射组件以及谓语-宾语映射组件,各个映射组件实现不同的映射功能;/n(2)定义逻辑树组件中的逻辑树:逻辑树组件中的逻辑树通过查询定位的方式从输入的XML文档中获取所需的元素节点集,逻辑树定位XML元素的方式是通过一个有效的XQuery查询,这个XQuery查询的结果是所输入的XML文档中的部分元素,可以将这些查询所得的元素形式化为XML文档的树形模型中对应的子树模型;/n(3)定义主语映射组件和谓语-宾语映射组件:逻辑树确定了子映射图所要映射的源数据,然后使用三元组映射中的主语映射组件和谓语-宾语映射组件将逻辑树确定的若干元素映射为若干条RDF三元组序列,每个元素对应一组与之相关的RDF三元组序列。/n

【技术特征摘要】
1.一种基于XML间接映射的RDF构建方法,其主要特征包括如下步骤:
(1)X2RML映射文档结构:X2RML映射文档是以RDF图的形式来描述的,即RDF不仅仅是映射XML数据的目标数据模型也是用于描述X2RML映射文档所选用的数据模型,X2RML映射文档也被称作映射图,映射图可以拥有若干个子映射图,每个子映射图都对应一个三元组映射,三元组映射又包含逻辑树组件、主语映射组件以及谓语-宾语映射组件,各个映射组件实现不同的映射功能;
(2)定义逻辑树组件中的逻辑树:逻辑树组件中的逻辑树通过查询定位的方式从输入的XML文档中获取所需的元素节点集,逻辑树定位XML元素的方式是通过一个有效的XQuery查询,这个XQuery查询的结果是所输入的XML文档中的部分元素,可以将这些查询所得的元素形式化为XML文档的树形模型中对应的子树模型;
(3)定义主语映射组件和谓语-宾语映射组件:逻辑树确定了子映射图所要映射的源数据,然后使用三元组映射中的主语映射组件和谓语-宾语映射组件将逻辑树确定的若干元素映射为若干条RDF三元组序列,每个元素对应一组与之相关的RDF三元组序列。


2.根据权利1要求所述的三元组映射,其特征在于,所述步骤(1)中提出的三元组映射包括三个部分:
(2-1)逻辑树组件:逻辑树组件中的逻辑树确定了子映射图所要映射的源数据,然后使用三元组映射中的主语映射组件和谓语-宾语映射组件将逻辑树确定的若干元素映射为若干条RDF三元组序列,每个元素对应一组与之相关的RDF三元组序列;
(2-2)主语映射组件:该组件中的主语映射将逻辑树中定位的每个元素映射为所生成的与该元素相关的RDF三元组序列中的主语部分;
(2-3)谓语-宾语映射组件:包括谓语映射组件和宾语映射组件,映射结果即相关RDF三元组的属性和值。


3.根据权利1要求所述的逻辑树组件,其特征在于,所述步骤(2)中提出的逻辑树组件规定如下:
(3-1)逻辑树组件确定了它所属的三元组映射所要处理的XML元素集,描述该组件的RDF陈述所用的属性为xr:logicalTree,该属性...

【专利技术属性】
技术研发人员:刘玉春马宗民
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1