本体数据导入/导出方法及装置制造方法及图纸

技术编号:2916601 阅读:255 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种灵活的本体数据导入/导出方法及装置。具体地,根据本发明专利技术的本体数据导入装置,包括:本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;未知格式导入器,用于根据本体数据格式分析器的格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。此外,根据本发明专利技术的本体数据导出装置包括基于关键词和查询语言相结合的本体导出器和本体数据导出格式分析器,其中基于关键词和查询语言相结合的本体导出器按照本体数据导出格式分析器返回的导出格式,输出从本体库返回的查询结果。

【技术实现步骤摘要】

本专利技术涉及数据管理领域,更具体地,涉及一种灵活的本体数据导入/导出方法及装置,能够导入/导出从公认标准格式到私有格式的本体,使得本体管理系统能够服务于更多的应用。
技术介绍
本体是一种重要的数据语义表示方法,本体数据管理是为了让应用更好地使用本体数据来达到智能化的目的,其中本体数据的导入和导出是本体数据管理中的重要功能。导入能够将来源不同的本体数据存储到本体管理系统中去,导出可以将本体管理系统中的本体数据表示成不同的格式,供不同的应用使用。本体信息可以被组织成多种形式,包括工业界公认的标准格式,企业内部广泛使用的企业内部格式以及特定应用使用的私有格式。在本体导入方面,如何处理未知的私有格式的导入;在本体导出方面,如何根据不同的条件导出成私有格式;是当前本体数据管理中困难但重要的未解决问题。目前已经存在一些和本体导入/导出相关的工作和方法。USO156253,该系统可以导入已知格式的本体,并且可以根据XML(可扩展置标语言)查询语言(XQL,XML Query Language)来导出符合查询条件的本体数据,导出的格式也是固定的已知格式。图12示出了USO156253的整体操作流程,其中这个系统能够接受的格式固定,为已知格式1;导出的格式也已经固定,为已知格式2;该系统的格式判断器判断输入的格式是否为格式1,如果不是,则简单地拒绝导入。对于导出,该系统支持不带条件的全部导出和利用查询语言的导出。因为该系统的本体表示语言为XML,所以采用了XML-->数据库来存储本体,同时导出语言采用了XML的查询语言XQL。USO163450,该系统可以导入固定格式1的本体,导出固定格式2的本体,其中不对本体进行存储,导入和导出在一个流水线上完成。JP10333952,该方法可以将某个应用内部的数据自动的用分隔符分隔成表格形式或者列表形式的数据,然后导出给别的应用使用。JP8190479,该方法在数据库转换的时候根据数据库列类型的取值范围以及取值长度来进行数据转换,决定转换源和转换目的的列之间如何对应。综合现有的本体导入/导出方法,它们可以对已知固定格式的本体进行导入/导出,同时在导出的时候,可以根据查询语言导出符合查询条件的本体数据,但是,仍有如下的问题没有解决:(1)不能导入私有的未知格式的本体,私有未知格式本体的导入包括数据切分以及对属性取值范围和属性值类型的确定,目前方法可以进行数据切分,但无法进行属性取值范围和属性值类型的确定;(2)不能根据关键词的搜索条件导出已知格式和私有的未知格式的本体;(3)不能根据关键词和查询语言相结合的方式导出已知格式和私有的未知格式的本体。基于文本和数据库的导入导出方法可以根据数据类型来进行格式的转换,但是文本和数据库和本体数据具有较大的不同,主要体现在文本和数据库是一种数据载体,而本体数据中存在概念、属性和实例,在转换本体数据的时候,需要分别考虑概念、属性和实例的转化。所以,基于文本和数据库的数据转化方法在使用到本体导入的时候需要较大的改变。
技术实现思路
考虑到上述问题,本专利技术提出了一种灵活的本体数据导入/导出方法及装置。不但可以处理已知格式的本体数据导入/导出,还可以处理未知格式的本体数据导入/导出,并且能够结合关键词和查询语句导出一部分符合条件的本体数据,存储成已知或者未知格式。因为对格-->式的良好的适应性,根据本专利技术的本体数据导入/导出方法及装置能够满足更多种类的应用的需要。根据本专利技术的第一方案,提出了一种本体数据导入装置,包括:本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;未知格式导入器,用于根据本体数据格式分析器的格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。根据本专利技术的第二方案,提出了一种本体数据导入方法,包括:分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;根据格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。根据本专利技术的第三方案,提出了一种本体数据导出装置,包括:基于关键词和查询语言相结合的本体导出器,用于接收关键词和/或导出格式,处理成查询语言后,对存储本体的关系数据库的本体库中所存储的本体数据进行查询,以及向本体数据导出格式分析器请求导出格式;本体数据导出格式分析器,用于根据基于关键词和查询语言相结合的本体导出器的请求,直接返回导出格式,或通过利用存储已成功导入的本体的格式的本体格式库的查询,获得导出格式;基于关键词和查询语言相结合的本体导出器还用于按照本体数据导出格式分析器返回的导出格式,输出从本体库返回的查询结果。根据本专利技术的第四方案,提出了一种本体数据导出方法,包括:接收关键词和/或导出格式,处理成查询语言后,对存储本体的关系数据库的本体库中所存储的本体数据进行查询,并请求导出格式;根据导出格式请求,直接返回导出格式,或通过利用存储已成功导入的本体的格式的本体格式库的查询,获得导出格式;按照本体数据导出格式分析器返回的导出格式,输出从本体库返回的查询结果。根据本专利技术的第五方案,提出了一种本体数据导入/导出装置,包括:根据上述本专利技术的本体数据导入装置;以及根据上述本专利技术的本体数据导出装置。-->附图说明通过下面结合附图说明本专利技术的优选实施例,将使本专利技术的上述及其它目的、特征和优点更加清楚,其中:图1描述了根据本专利技术的本体数据导入/导出装置100的整体方框图。图2给出了利用关系型数据库110’表示本体库110的示意性结构图。图3示出了根据本专利技术的本体格式库120的示意性结构图。图4a和4b是分别示出了未知格式本体数据的两种输入情况的示意图。图5a示出了本体数据格式分析器130的未知格式导入操作的流程图。图5b是给出了用于详细说明图5a所示步骤S504的示例的示意图。图6示出了已知格式导入器140的示意图。图7示出了未知格式导入操作的具体示例。图8a~8c示出了查询输入界面的示意图。图9示出了根据本专利技术的关键词和查询语言相结合的导出方法的流程图。图10是示出了本体数据的两种导出情况的示意图。图11示出了本体数据导出格式分析器170的操作流程。图12示出了USO156253的整体操作流程。具体实施方式下面参照附图对本专利技术的优选实施例进行详细说明,在描述过程中省略了对于本专利技术来说是不必要的细节和功能,以防止对本专利技术的理解造成混淆。图1描述了根据本专利技术的本体数据导入/导出装置100的整体方框图。-->如图1所示,根据本专利技术的本体数据导入/导出装置100包括:本体库110,用于存储本体的关系数据库;本体格式库120,该本体格式库120包含了导入成功的私有格式的本体的格式,并且包含对这些格式所包含的分隔符进行统计的结果;本体数据格式分析器130,用于分析输入的本体格式,如果为标准的已知格式,则直接返回该格式,如果为私有的未知格式,则需要利用本体格式库120进行格式的确定;已知格式导入器140,用于对已知格式的本体进行导入;未知格式导入器150,用于根据本体数据格式分析器130的结果,对数据进行切分并且导入,在导入的时候需要生成属性的值范围和对属性值的类型进行确本文档来自技高网
...

【技术保护点】
一种本体数据导入装置,包括: 本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定; 未知格式导入器,用于根据本体数据格式分析器的格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。

【技术特征摘要】
1.一种本体数据导入装置,包括:本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;未知格式导入器,用于根据本体数据格式分析器的格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。2.根据权利要求1所述的本体数据导入装置,其特征在于所述本体库中包括采用由主语、谓语和宾语构成的三元组表示的概念、属性和实例。3.根据权利要求2所述的本体数据导入装置,其特征在于如果本体数据格式分析器分析确定输入的本体格式为标准的已知格式,则直接返回该格式,所述本体数据导入装置还包括:已知格式导入器,用于将已知格式的本体数据导入本体库;其中:本体格式库所存储的已成功导入的本体的格式包括:已经注册的已知本体类型和格式、历史上使用过的私有未知格式和统计信息,其中所述统计信息包括已成功导入的私有未知格式和用于私有未知格式的分隔符的统计记录。4.根据权利要求3所述的本体数据导入装置,其特征在于私有未知格式表示为由特定分隔符分隔的三元组模式。5.根据权利要求1所述的本体数据导入装置,其特征在于本体数据格式分析器在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式包含格式信息,则直接提取所述格式信息,并将所述私有未知格式添加到本体格式库中,将本体数据的内容和格式信息直接提供给未知格式导入器。6.根据权利要求5所述的本体数据导入装置,其特征在于本体数据格式分析器在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一私有未知格式匹配时,确定采用该匹配私有未知格式,并将本体数据的内容和格式信息提供给未知格式导入器。7.根据权利要求6所述的本体数据导入装置,其特征在于本体数据格式分析器在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一私有未知格式均不匹配时,从所述本体格式库中的分隔符库中取出最常用的n个分隔符,分别针对这n个字符的每一个字符,重复进行如下操作:在输入的内容中,用这个字符进行查找,如果能够找到相应的出现位置,则从该位置开始不断地进行前向和后向分隔符探测,将连续的分隔符区域确定为一个分隔区域,当找出两个分隔区域时,确定并生成相应的分隔格式,作为探测出的私有未知格式,并将本体数据的内容和格式信息提供给未知格式导入器。8.根据权利要求2~4之一所述的本体数据导入装置,其特征在于在导入输入数据时,未知格式导入器首先导入主语,然后确定谓语的类型属性,并生成该属性的值域,最后根据所确定的谓语的类型属性,导入宾语。9.根据权利要求8所述的本体数据导入装置,其特征在于未知格式导入器分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语出现过数值,则确定该谓语为数值类型属性,并将该属性的值域定义为数值型。10.根据权利要求9所述的本体数据导入装置,其特征在于未知格式导入器分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语未出现过数值,则判断与该谓语关联的宾语是否部分能够在主语中找到,如果能够找到,则确定该谓语为对象类型属性;如果未能找到,则确定该谓语为数值类型属性,并将该属性的值域定义为字符串型。11.一种本体数据导入方法,包括:分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;根据格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。12.根据权利要求11所述的本体数据导入方法,其特征在于所述本体库中包括采用由主语、谓语和宾语构成的三元组表示的概念、属性和实例。13.根据权利要求12所述的本体数据导入方法,其特征在于如果本体数据格式分析器分析确定输入的本体格式为标准的已知格式,则直接返回该格式,所述本体数据导入方法还包括:将已知格式的本体数据导入本体库;其中:本体格式库所存储的已成功导入的本体的格式包括:已经注册的已知本体类型和格式、历史上使用过的私有未知格式和统计信息,其中所述统计信息包括已成功导入的私有未知格式和用于私有未知格式的分隔符的统计记录。14.根据权利要求13所述的本体数据导入方法,其特征在于私有未知格式表示为由特定分隔符分隔的三元组模式。15.根据权利要求1所述的本体数据导入方法,其特征在于在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式包含格式信息,则直接提取所述格式信息,并将所述私有未知格式添加到本体格式库中。16.根据权利要求15所述的本体数据导入方法,其特征在于在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一私有未知格式匹配时,确定采用该匹配私有未知格式。17.根据权利要求16所述的本体数据导入方法,其特征在于在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一私有未知格式均不匹配时,从所述本体格式库中的分隔符库中取出最常用的n个分隔符,分别针对这n个字符的每一个字符,重复进行如下操作:在输入的内容中,用这个字符进行查找,如果能够找到相应的出现位置,则从该位置开始不断地进行前向和后向分隔符探测,将连续的分隔符区域确定为一个分隔区域,当找出两个分隔区域时,确定并生成相应的分隔格式,作为探测出的私有未知格式。18.根据权利要求12~14之一所述的本体数据导入方法,其特征在于在导入输入数据时,首先导入主语,然后确定谓语的类型属性,并生成该属性的值域,最后根据所确定的谓语的类型属性,导入宾语。19.根据权利要求18所述的本体数据导入方法,其特征在于分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语出现过数值,则确定该谓语为数值类型属性,并将该属性的值域定义为数值型。20.根据权利要求19所述的本体数据导入方法,其特征在于分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语未出现过数值,则判断与该谓语关联的宾语是否部分能够...

【专利技术属性】
技术研发人员:梁邦勇齐红威丰强泽
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1