【技术实现步骤摘要】
本专利技术涉及数据管理领域,更具体地,涉及一种灵活的本体数据导入/导出方法及装置,能够导入/导出从公认标准格式到私有格式的本体,使得本体管理系统能够服务于更多的应用。
技术介绍
本体是一种重要的数据语义表示方法,本体数据管理是为了让应用更好地使用本体数据来达到智能化的目的,其中本体数据的导入和导出是本体数据管理中的重要功能。导入能够将来源不同的本体数据存储到本体管理系统中去,导出可以将本体管理系统中的本体数据表示成不同的格式,供不同的应用使用。本体信息可以被组织成多种形式,包括工业界公认的标准格式,企业内部广泛使用的企业内部格式以及特定应用使用的私有格式。在本体导入方面,如何处理未知的私有格式的导入;在本体导出方面,如何根据不同的条件导出成私有格式;是当前本体数据管理中困难但重要的未解决问题。目前已经存在一些和本体导入/导出相关的工作和方法。USO156253,该系统可以导入已知格式的本体,并且可以根据XML(可扩展置标语言)查询语言(XQL,XML Query Language)来导出符合查询条件的本体数据,导出的格式也是固定的已知格式。图12示出了USO156253的整体操作流程,其中这个系统能够接受的格式固定,为已知格式1;导出的格式也已经固定,为已知格式2;该系统的格式判断器判断输入的格式是否为格式1,如果不是,则简单地拒绝导入。对于导出,该系统支持不带条件的全部导出和利用查询语言的导出。因为该系统的本体表示语言为XML,所以采用了XML-->数据库来存储本体,同时导出语言采用了XML的查询语言XQL。USO163450,该系统可以导入固定格式1 ...
【技术保护点】
一种本体数据导入装置,包括: 本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定; 未知格式导入器,用于根据本体数据格式分析器的格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。
【技术特征摘要】
1.一种本体数据导入装置,包括:本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;未知格式导入器,用于根据本体数据格式分析器的格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。2.根据权利要求1所述的本体数据导入装置,其特征在于所述本体库中包括采用由主语、谓语和宾语构成的三元组表示的概念、属性和实例。3.根据权利要求2所述的本体数据导入装置,其特征在于如果本体数据格式分析器分析确定输入的本体格式为标准的已知格式,则直接返回该格式,所述本体数据导入装置还包括:已知格式导入器,用于将已知格式的本体数据导入本体库;其中:本体格式库所存储的已成功导入的本体的格式包括:已经注册的已知本体类型和格式、历史上使用过的私有未知格式和统计信息,其中所述统计信息包括已成功导入的私有未知格式和用于私有未知格式的分隔符的统计记录。4.根据权利要求3所述的本体数据导入装置,其特征在于私有未知格式表示为由特定分隔符分隔的三元组模式。5.根据权利要求1所述的本体数据导入装置,其特征在于本体数据格式分析器在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式包含格式信息,则直接提取所述格式信息,并将所述私有未知格式添加到本体格式库中,将本体数据的内容和格式信息直接提供给未知格式导入器。6.根据权利要求5所述的本体数据导入装置,其特征在于本体数据格式分析器在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一私有未知格式匹配时,确定采用该匹配私有未知格式,并将本体数据的内容和格式信息提供给未知格式导入器。7.根据权利要求6所述的本体数据导入装置,其特征在于本体数据格式分析器在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一私有未知格式均不匹配时,从所述本体格式库中的分隔符库中取出最常用的n个分隔符,分别针对这n个字符的每一个字符,重复进行如下操作:在输入的内容中,用这个字符进行查找,如果能够找到相应的出现位置,则从该位置开始不断地进行前向和后向分隔符探测,将连续的分隔符区域确定为一个分隔区域,当找出两个分隔区域时,确定并生成相应的分隔格式,作为探测出的私有未知格式,并将本体数据的内容和格式信息提供给未知格式导入器。8.根据权利要求2~4之一所述的本体数据导入装置,其特征在于在导入输入数据时,未知格式导入器首先导入主语,然后确定谓语的类型属性,并生成该属性的值域,最后根据所确定的谓语的类型属性,导入宾语。9.根据权利要求8所述的本体数据导入装置,其特征在于未知格式导入器分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语出现过数值,则确定该谓语为数值类型属性,并将该属性的值域定义为数值型。10.根据权利要求9所述的本体数据导入装置,其特征在于未知格式导入器分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语未出现过数值,则判断与该谓语关联的宾语是否部分能够在主语中找到,如果能够找到,则确定该谓语为对象类型属性;如果未能找到,则确定该谓语为数值类型属性,并将该属性的值域定义为字符串型。11.一种本体数据导入方法,包括:分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;根据格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。12.根据权利要求11所述的本体数据导入方法,其特征在于所述本体库中包括采用由主语、谓语和宾语构成的三元组表示的概念、属性和实例。13.根据权利要求12所述的本体数据导入方法,其特征在于如果本体数据格式分析器分析确定输入的本体格式为标准的已知格式,则直接返回该格式,所述本体数据导入方法还包括:将已知格式的本体数据导入本体库;其中:本体格式库所存储的已成功导入的本体的格式包括:已经注册的已知本体类型和格式、历史上使用过的私有未知格式和统计信息,其中所述统计信息包括已成功导入的私有未知格式和用于私有未知格式的分隔符的统计记录。14.根据权利要求13所述的本体数据导入方法,其特征在于私有未知格式表示为由特定分隔符分隔的三元组模式。15.根据权利要求1所述的本体数据导入方法,其特征在于在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式包含格式信息,则直接提取所述格式信息,并将所述私有未知格式添加到本体格式库中。16.根据权利要求15所述的本体数据导入方法,其特征在于在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一私有未知格式匹配时,确定采用该匹配私有未知格式。17.根据权利要求16所述的本体数据导入方法,其特征在于在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一私有未知格式均不匹配时,从所述本体格式库中的分隔符库中取出最常用的n个分隔符,分别针对这n个字符的每一个字符,重复进行如下操作:在输入的内容中,用这个字符进行查找,如果能够找到相应的出现位置,则从该位置开始不断地进行前向和后向分隔符探测,将连续的分隔符区域确定为一个分隔区域,当找出两个分隔区域时,确定并生成相应的分隔格式,作为探测出的私有未知格式。18.根据权利要求12~14之一所述的本体数据导入方法,其特征在于在导入输入数据时,首先导入主语,然后确定谓语的类型属性,并生成该属性的值域,最后根据所确定的谓语的类型属性,导入宾语。19.根据权利要求18所述的本体数据导入方法,其特征在于分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语出现过数值,则确定该谓语为数值类型属性,并将该属性的值域定义为数值型。20.根据权利要求19所述的本体数据导入方法,其特征在于分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语未出现过数值,则判断与该谓语关联的宾语是否部分能够...
【专利技术属性】
技术研发人员:梁邦勇,齐红威,丰强泽,
申请(专利权)人:日电中国有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。