当前位置: 首页 > 专利查询>河海大学专利>正文

一种从元数据标注的CSV数据到RDF数据的转换方法技术

技术编号:12099603 阅读:115 留言:0更新日期:2015-09-23 17:21
本发明专利技术公开了一种从元数据标注的CSV数据到RDF数据的转换方法,包括:读取并解析CSV文件,获得表列数据并存入内存数据结构;读取并解析元数据描述文件,获得元数据并存入内存数据结构;结合已获得的表列数据与元数据,生成RDF三元组集并存入内存数据结构;将生成的RDF三元组集输出为Turtle语法格式的RDF数据文件。本发明专利技术公开的数据格式转换方法能将用W3C技术规范《Web表列数据与元数据模型》定义的元数据模型词汇进行标注的CSV数据转换为语义上等价的RDF数据,这样就可以利用现有软件工具方便地将转换所得的RDF数据发布到关联数据网,供各式各样的语义万维网应用共享、复用与处理来自CSV文件中的表列数据,使得量大面广的CSV数据能发挥最大潜能。

【技术实现步骤摘要】

本专利技术涉及数据管理领域中的一种数据格式转换方法,尤其是一种从元数据标注 的CSV数据到RDF数据的转换方法。
技术介绍
在科学领域和电子政务领域的开放数据运动(opendatamovements)使得万 维网(WorldWideWeb)上逗号分隔值(comma-separatedvalues,CSV)格式的数据显 著增长。CSV是常用的表列数据(tabulardata)文件格式,虽然简单实用,但是难以表 达数据世系(provenance)、数据域含义、数据域/表之间的关系、用户访问权限等元数据 (metadata)或标注(annotations)信息。有鉴于此,国际万维网联盟(W3C)的数据行动 计划G)ataActivity:http://www.w3.org/2013/data/)最近成立 了称为"CSVonthe Web"的工作组(http://www.w3.org/2013/csvw/),旨在将原有非标准CSV格式(参见: Y.Shafranovich,CommonFormatandMIMETypeforComma-SeparatedValues(CSV) Files.IETFRFC4180,October2005. http://tools.ietf.org/html/rfc4180)进行扩充, 形成CSV标准(俗称CSV+),并制订相关技术规范,以方便CSV数据的操纵、可视化、解释、多 表数据结合、数据格式转换等Web高级应用。 CSV+标准中,W3C正在制订的《Web表列数据与元数据模型》技术规范(参见: JeniTennison,GreggKellogg(Editors).ModelforTabularDataandMetadataonthe Web.W3CWorkingDraft16April2015.http://www.w3.org/TR/tabular-data_model/. )以及《表列数据的元数据词汇》技术规范(参见Jeni Tennison,GreggKellogg(Editors).MetadataVocabularyforTabularData.W3C WorkingDraft16April2015.http://www.w3.org/TR/tabular_metadata/?)可用来对CSV数据进行建模、描述与标注,形成所谓的"元数据标注的CSV数 据"。 另一方面,资源描述框架(ResourceDescriptionFramework,RDF)(参见: RichardCyganiak,DavidWood,MarkusLanthaler(Editors).RDF1.1Conceptsand AbstractSyntax.W3CRecommendation25February2014.http://www.w3.org/TR/ rdfll-conc印ts/.)是表示Web信息的一种公共框架和格式;RDF数据模型是一种称为RDF 图的有向标记图(directed,labeledgraph)语义模型,已成为万维网尤其是语义万维网 (SemanticWeb)或数据网(WebofData)上的标准数据模型和数据表示格式。当前流行的 关联数据(LinkedData)或关联开发数据(LinkedOpenData)就是以RDF作为数据模型 与表示格式的。 基于以上背景,如何实现从元数据标注的CSV数据到RDF数据的转换,是亟待解决 的关键技术问题。由于CSV+标准正在制订过程中(已接近完成),因此,目前国内外尚未出 现从元数据标注的CSV数据到RDF数据的完整转换方法及其详细实现技术。 本专利技术旨在提供一种数据格式的转换方法,该方法能将用W3C技术规范《Web表 列数据与元数据模型》定义的元数据模型词汇进行标注的CSV数据转换为语义上等价的RDF数据。RDF有多种语义上相互等价的语法格式(参见:GuusSchreiber,YvesRaimond (Editors).RDF1.1Primer.W3CWorkingGroupNote24June2014.http://www. w3.org/TR/rdfll-primer/.),本专利技术技术方案的【具体实施方式】中用Turtle语法(参见: EricPrud'hommeaux,GavinCarothers(Editors).RDFLITurtle:TerseRDFTriple Language.W3CRecommendation25February2014,http://www.w3.org/TR/turtle/.)来 表示RDF数据。
技术实现思路
本专利技术旨在提供一种数据格式的转换方法,该方法能将用W3C技术规范《Web表列 数据与元数据模型》定义的元数据模型词汇进行标注的CSV数据转换为语义上等价的RDF 数据(本专利技术技术方案的【具体实施方式】中用Turtle语法来表示RDF数据)。 为了解决上述技术问题,本专利技术公开一种从元数据标注的CSV数据到RDF数据的 转换方法,包括:步骤S1,读取并解析CSV文件,获得表列数据并存入内存数据结构;步骤 S2,读取并解析元数据描述文件,获得元数据并存入内存数据结构;步骤S3,结合已获得的 表列数据与元数据,生成RDF三元组集并存入内存数据结构;步骤S4,将生成的RDF三元组 集输出为Turtle语法格式的RDF数据文件。 所述步骤S1进一步包括:步骤S1-1,逐行读取CSV文件中的表列数据,生成输入 流;步骤S1-2,解析输入流,并将解析结果存入表列数据内存数据结构。 所述步骤S2进一步包括:步骤S2-1,读取元数据描述文件并生成JS0N对象;步骤 52- 2,创建存储元数据的内存数据结构;步骤S2-3,解析JS0N对象,提取CSV表描述信息后 存入元数据内存数据结构;步骤S2-4,解析JS0N对象,提取CSV模式描述信息后存入元数 据内存数据结构;步骤S2-5,解析JS0N对象,提取CSV列描述信息后存入元数据内存数据 结构。 所述步骤S3进一步包括:步骤S3-1,创建存储RDF三元组的内存数据结构;步骤 53- 2,从元数据内存数据结构中提取CSV表描述信息,生成RDF三元组后存入RDF三元组内 存数据结构;步骤S3-3,从元数据内存数据结构中提取CSV列描述信息,生成RDF三元组后 存入RDF三元组内存数据结构;步骤S3-4,结合CSV数据和元数据中列描述信息,生成RDF 三元组后存入RDF三元组内存数据结构。 所述步骤S3-4进一步包括:步骤S3-4-1,根据元数据中列描述信息确定CSV列名 所对应的RDF属性名以及该列值的XML模式数据类型;步骤S3-4-2,逐个提取CSV数据中 的列值,转换成RDF三元组。 所述步骤S4进一步包括:步骤S4-1,将名空间前缀定义添加到RDF三元组内存数 据结构;步骤S4-2,将RDF三元组内存数据结构输出为RDF数据文件。 本专利技术的技术方案能将元数据标注的CSV数据转换为语义上等价的RDF数据(本 专利技术技术方案的【具体实施方式】中用Turtle语法来表示RDF数据),这样就可以利用现有软 件工具方便地将转换所得的RDF数本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104933162.html" title="一种从元数据标注的CSV数据到RDF数据的转换方法原文来自X技术">从元数据标注的CSV数据到RDF数据的转换方法</a>

【技术保护点】
一种从元数据标注的CSV数据到RDF数据的转换方法,其特征在于,包括:步骤S1,读取并解析CSV文件,获得表列数据并存入内存数据结构;步骤S2,读取并解析元数据描述文件,获得元数据并存入内存数据结构;步骤S3,结合已获得的表列数据与元数据,生成RDF三元组集并存入内存数据结构;步骤S4,将生成的RDF三元组集输出为Turtle语法格式的RDF数据文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:许卓明张进王骏华
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1