一种基于多源异构数据的层次本体构造方法技术

技术编号:29968524 阅读:13 留言:0更新日期:2021-09-08 09:41
本发明专利技术公开了一种基于多源异构数据的层次本体构造方法,所述方法包括如下步骤:步骤S1、获取关系型数据库数据;步骤S2、提取数据库中数据模式;步骤S3、挖掘数据中隐藏关系信息;步骤S4、根据数据模式信息生成映射文件;步骤S5、根据映射文件以及数据库数据,筛选有效个体,生成本体;步骤S6、读取生成的本体文件,将本体融合入默认本体中。该方法能够根据数据库中的表数据、表结构、表关系自动提取有效信息,构造层次本体,并且保证本体中的个体都是有效的,并构建数据映射表,使从本体能够查询到所有的数据库数据,并对不同数据库构造出的本体进行融合,形成大规模的领域本体。形成大规模的领域本体。形成大规模的领域本体。

【技术实现步骤摘要】
一种基于多源异构数据的层次本体构造方法


[0001]本专利技术属于计算机服务
,涉及一种将多源异构数据转化并融合为本体的方法,具体涉及一种将关系型数据库中数据资源转换为结构化的资源,并将不同来源的资源进行整合从而构造大规模领域本体的方法。

技术介绍

[0002]随着计算机网络的发展以及制造业的智能化,企业与企业之间的信息交流与合作越来越频繁。目前企业大部分以关系型数据库存储数据资源信息,而随着数据库中数据的不断增加,数据库结构的改变,导致其中数据越来越不能被理解,这样无法使企业的数据被有效利用。企业与企业之间的交流合作往往需要专业人员去搜集资料并且实地考察沟通,当企业中的数据可以结构化的表示,那么将不同企业的结构化的本体进行融合,构建大规模的领域本体,可以挖掘企业之间潜在的数据联系,有助于企业更好的进行资源交换和合作。
[0003]目前企业中最常见使用的数据存储方式是以MySQL为代表的关系型数据库。在关系型数据库中,表与表之间的联系通过定义主外键来进行显示表示,或者通过定义关系表,使用约定规则来进行隐式表示,对于不同规范的数据库,普通用户往往不能了解数据库整体架构,不能够有效掌握数据信息。本体是一个抽象的概念模型,这个模型包含了某个领域内概念与概念之间的关系,是相应领域内公认的概念的集合。对本体的描述语言主要有RDF、RDFS和OWL等。在本体中主要有四个概念:1、类:具有相同特征的事务。2、层次结构:对类的组织和描述。3、属性:对类的特征描述,其中又包括数据属性和关系属性。4、个体:类的实例。本体可以使数据的概念关系更清晰,数据的组织更有逻辑性。目前构造本体可以采用斯坦福大学开发的工具Prot
é
g
é
进行本体的构造,需要人工进行,构建后的修改和维护也需要人工进行,对于不同来源的数据本体没有办法直接进行合并。
[0004]构建本体是构建知识图谱中重要的一步。知识图谱采用规范而标准的概念模型,本体术语和语法格式来构建和描述数据,并且还可以通过语义链接增强数据之间的关联。这种表达规范,关联性强的数据在辅助决策、支持推理、优化搜索等多个方面都能发挥优势。知识图谱的构建的主要过程为知识获取、知识表示、知识融合。知识图谱的构造是非常复杂的工程,知识获取是知识图谱构造的最基础的工作,可以从多个数据来源获取知识图谱数据,包括文本、人工导入、结构化数据库等。结构化数据库例如各种关系型数据库,是最常用的数据来源之一,但是通常不能直接作为知识图谱来使用,需要定义到本体模型之间的语义映射,对于复杂的数据库来说,自定义本体会损失数据库中许多信息。知识表示则是使用计算机符号来描述人脑中的知识,知识表示决定了知识图谱的产出目标,包括语义描述框架、Schema与本体、知识交换语法、实体命名及ID体系,其中基本描述框架定义知识图谱的基本数据模型和逻辑结构,本体定义知识图谱的类集、属性集、关系集和词汇集。知识融合是指构建知识图谱时可以从第三方知识库或者已有结构化数据中输入知识,从而丰富知识图谱中的知识内容。
[0005]通过上述的研究背景可以发现,关系型数据库不能很好的描述企业的数据资源,不利于企业之间的信息交换。

技术实现思路

[0006]为了解决现有技术中存在的以上问题,本专利技术对于不同模式的关系型数据库,提出了一种基于多源异构数据的层次本体构造方法。该方法能够根据数据库中的表数据、表结构、表关系自动提取有效信息,构造层次本体,并且保证本体中的个体都是有效的,并构建数据映射表,使从本体能够查询到所有的数据库数据,并对不同数据库构造出的本体进行融合,形成大规模的领域本体。
[0007]本专利技术的目的是通过以下技术方案实现的:
[0008]一种基于多源异构数据的层次本体构造方法,包括如下步骤:
[0009]步骤S1、获取关系型数据库数据,具体步骤如下:
[0010](1)提供用户名和密码,远程连接需要的数据库;
[0011](2)使用.sql文件将数据导入到本地进行使用。
[0012]步骤S2、提取数据库中数据模式,具体步骤如下:
[0013](1)检索数据库中各表的信息,提取每一个表的表信息,表信息包括表名、表类型、表注释等;
[0014](2)检索各表中各列的信息,提取每一列的列信息,列信息包括列名、列属性、列值能否为空、列注释等;
[0015](3)判断表是否拥有主键,如果拥有主键则存储主键列信息;
[0016](4)检索各表,判断表是否有外键,如果有外键,则在table类中存储外键对应的表和列信息。
[0017]步骤S3、挖掘数据中隐藏关系信息,具体步骤如下:
[0018](1)检索各表,如果该表包含主键,则将主键中所有数据存到Redis中,数据的组织形式为set,一个表的主键对应一个set;
[0019](2)检索各表,将该表中除了主键以外的所有列,分别与Redis中其它表的主键数据进行匹配,判断列之间的对应关系,并设置标志位;
[0020](3)将(2)中挖掘到的关系存储到table类中。
[0021]步骤S4、根据数据模式信息生成映射文件,具体步骤如下:
[0022]根据步骤S2、步骤S3获得的数据模式信息构建将数据库中信息映射到本体的映射文件,其中:映射文件中包含表名以及对应的实体名、列名以及对应的属性名、外键关系对应的表之间信息和关系名以及挖掘预测的关系和对应的表之间信息和关系名;
[0023]步骤S5、根据映射文件以及数据库数据,筛选有效个体,生成本体,具体步骤如下:
[0024](1)检查映射文件,确保映射文件的格式正确,并且不存在命名重复的情况;
[0025](2)根据映射文件生成实体;
[0026](3)根据映射文件生成属性,并连接到对应实体上,属性的uri为“实体的uri/属性名”;
[0027](4)读取映射文件中的外键关系,为实体之间添加关系,为关系添加comment属性,将关系对应的两表的连接信息存储到关系型数据库中,将该条数据的id值赋给comment;
[0028](5)读取映射文件中的预测关系,重复步骤(4)中添加关系的操作,然后判断预测关系的标志值,根据标志值将实体分为待实例化和不需实例化两类,待实例化集中将生成有效个体;
[0029](6)遍历实例化集合,从数据库中读取该实体对应表中的数据,将这些数据进行实例化,生成有效个体;
[0030](7)将数据保存为本体rdf/owl文件。
[0031]步骤S6、读取生成的本体文件,将本体融合入默认本体中,具体步骤如下:
[0032](1)将每一个概念层的实体(第一次遍历生成的实体)与默认本体中的每一个实体和属性进行语义相似度和结构相似度匹配,生成匹配表;
[0033](2)根据匹配表,将两本体连接,若匹配表中的匹配项为1:null,则在默认本体中创建相同的实体;若匹配表中的匹配项为1:1,则进行约束补全,包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构数据的层次本体构造方法,其特征在于所述方法包括如下步骤:步骤S1、获取关系型数据库数据;步骤S2、提取数据库中数据模式;步骤S3、挖掘数据中隐藏关系信息;步骤S4、根据数据模式信息生成映射文件;步骤S5、根据映射文件以及数据库数据,筛选有效个体,生成本体;步骤S6、读取生成的本体文件,将本体融合入默认本体中。2.根据权利要求1所述的基于多源异构数据的层次本体构造方法,其特征在于所述步骤S1的具体步骤如下:(1)提供用户名和密码,远程连接需要的数据库;(2)使用.sql文件将数据导入到本地进行使用。3.根据权利要求1所述的基于多源异构数据的层次本体构造方法,其特征在于所述步骤S2的具体步骤如下:(1)检索数据库中各表的信息,提取每一个表的表信息;(2)检索各表中各列的信息,提取每一列的列信息;(3)判断表是否拥有主键,如果拥有主键则存储主键列信息;(4)检索各表,判断表是否有外键,如果有外键,则在table类中存储外键对应的表和列信息。4.根据权利要求1所述的基于多源异构数据的层次本体构造方法,其特征在于所述步骤S3的具体步骤如下:(1)检索各表,如果该表包含主键,则将主键中所有数据存到Redis中,数据的组织形式为set,一个表的主键对应一个set;(2)检索各表,将该表中除了主键以外的所有列,分别与Redis中其它表的主键数据进行匹配,判断列之间的对应关系,并设置标志位;(3)将(2)中挖掘到的关系存储到table类中。5.根据权利要求4所述的基于多源异构数据的层次本体构造方法,其特征在于所述(2)中,如果本表该列数据有重复,将标志设置为n,如果没有则标志设置为1;如果本表中数据有不存在于正在匹配的表的主键,则判断该列与正在匹配的表无关;如果本表中所有数据都存在于正在匹配的表的主键中,则判断该列与正在匹配的表有关,关系为标志位所代表的关系。6.根据权利要求1所述的基于多源异构数据的层次本体构造方法,其特征在于所述步骤S4的具体步骤如下:根据步骤S2、步骤S3获得的...

【专利技术属性】
技术研发人员:涂志莹张明阳初佃辉张凯
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1