解决数据语义异构问题的多源异构数据库数据集成方法技术

技术编号:17796779 阅读:143 留言:0更新日期:2018-04-25 20:16
本发明专利技术提出了一种解决数据语义异构问题的多源异构数据库数据集成方法,包括:采集来自企业的多个数据源,每个所述数据源包含的表格、属性、语义均不同,将上述多个数据源采用模式对齐方式进行处理,以确定具有相同语义的属性和具有不同语义的属性;对已经模式对齐的数据,记录数据的链接,以确定指向相同实体的链接和指向不同实体的链接;采用数据融合方式查询出反应企业真实情况的真实值。本发明专利技术解决语义歧义、实例表示歧义、数据不一致性等问题。

Multi source heterogeneous database data integration method to solve data semantic heterogeneity problem

This invention proposes a multi source heterogeneous database data integration method to solve the problem of data semantic heterogeneity. It includes: collecting multiple data sources from the enterprise, different forms, attributes and semantics of each data source, and processing the above data sources by pattern alignment to determine the same The attributes of the semantics and the attributes with different semantics; the data linked to the already pattern aligned data to determine the links to the same entities and the links to the different entities; the data fusion method is used to query the true value of the real situation of the reaction enterprise. The invention solves the problems of semantic ambiguity, instance ambiguity and data inconsistency.

【技术实现步骤摘要】
解决数据语义异构问题的多源异构数据库数据集成方法
本专利技术涉及数据集成
,特别涉及一种解决数据语义异构问题的多源异构数据库数据集成方法。
技术介绍
数据集成的目标是为多个自治数据源中的数据提供统一的存储,这一目标说起来容易,但实现起来已被证明异常困难,尤其是对分布在多个异构数据库中的数据进行数据集成时,常常遇到语义歧义、实例表示歧义、数据不一致性等问题,具体表现为:1.语义歧义:同一概念信息在不同数据源的语义表示(例如,数据库Schema模式)可能非常不同,不同概念信息在不同数据源中的语义表示可能很相似;2.实例表示歧义:数据集成常常需要将来自多个数据源的同一个数据实例关联在一起,然而由于数据源的自治性,这些数据实例具有不同的表示形式;3.数据不一致性:同一个实例在不同的数据源中的信息表现存在差异,且其信息跟数据源存在不一致性传统数据集成技术手段在解决以上问题时,大都可以分为模式对齐、记录链接、数据融合三个步骤,存在以下不足:1.集成成本高:传统集成技术需要通过数据分析人员开展大量的数据梳理工作,数据分析人员通过工具分析表结构、抽取概要数据、与业务专家交谈等方式,完成对数据库本文档来自技高网...
解决数据语义异构问题的多源异构数据库数据集成方法

【技术保护点】
一种解决数据语义异构问题的多源异构数据库数据集成方法,其特征在于,包括如下步骤:步骤S1,采集来自企业的多个数据源,每个所述数据源包含的表格、属性、语义均不同,将上述多个数据源采用模式对齐方式进行处理,以确定具有相同语义的属性和具有不同语义的属性;步骤S2,对已经模式对齐的数据,记录数据的链接,以确定指向相同实体的链接和指向不同实体的链接;步骤S3,采用数据融合方式查询出反应企业真实情况的真实值。

【技术特征摘要】
1.一种解决数据语义异构问题的多源异构数据库数据集成方法,其特征在于,包括如下步骤:步骤S1,采集来自企业的多个数据源,每个所述数据源包含的表格、属性、语义均不同,将上述多个数据源采用模式对齐方式进行处理,以确定具有相同语义的属性和具有不同语义的属性;步骤S2,对已经模式对齐的数据,记录数据的链接,以确定指向相同实体的链接和指向不同实体的链接;步骤S3,采用数据融合方式查询出反应企业真实情况的真实值。2.如权利要求1所述的解决数据语义异构问题的多源异构数据库数据集成方法,其特征在于,在所述步骤S1中,采集得到的多个数据源存储在关系型数据库中。3.如权利要求1所述的解决数据语义异构问题的多源异构数据库数据集成方法,其特征在于,在所述步骤S2中,首先对数据进行分块;然后记录数据的链接连接,将链接进行两两匹配,判断两者是否属于同一实体;最后对匹配的记录链接对进行聚类,以使得划分内部都是指向同一实体,不同划分指向不同的实体。4.如权利要求3所述的解决数据语义异构问题的多源异构数据库数据集成方法,其特征在于,所述对数...

【专利技术属性】
技术研发人员:张敏杰杨宁于嘉明白文峰
申请(专利权)人:北京睿力科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1