大数据仓库的异构数据整合系统及方法技术方案

技术编号：25396650 阅读：36 留言：0更新日期：2020-08-25 23:01

本发明专利技术属于大数据技术领域，具体为提供大数据仓库的异构数据整合系统及方法，所述系统包括：若干个分类器和数据融合装置；所述分类器分别基于多个特征空间进行训练，通过对每个所述分类器对多个已知训练样本进行分类，得出每个已知训练样本的分类结果，根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系，分别计算出每个所述特征空间与目标空间之间的映射规则；在保证数据整合准确性的情况下，提升了数据整合的效率；同时，本发明专利技术在数据整合前，对异构数据进行初步分类，使得利用分类器进行分类时，减轻了分类器的工作量，提升了分类器的工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
大数据仓库的异构数据整合系统及方法
本专利技术属于大数据
，具体涉及基于大数据仓库的异构数据整合系统及方法。
技术介绍
异构数据是相关的多个数据的集合。异构数据库系统是相关的多个数据库系统的集合，可以实现数据的共享和透明访问，几个数据库系统在加入异构数据库系统之前本身就已经存在。拥有自己的数据阵管理系统、外构数据库的各个组成部分具有自身的自治性，实现数据共享的同时，每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据仓库，由数据仓库之父比尔·恩门(BillInmon)于1990年提出，主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料，透过数据仓库理论所特有的资料储存架构，做有系统的分析整理，以利各种分析方法如联机分析处理(OLAP)、数据挖掘(DataMining)之进行，并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建，帮助决策者能快速有效的自大量资料中，分析出有价值的资讯，以利决策拟定及快速回应外在环境变动，帮助建构商业智能(BI)。计算机发展的早期，人们已经提出了建立数据仓库的构想。“数据仓库”一词最早是在1990年，由BillInmon先生提出的，其描述如下：数据仓库是为支持企业决策而特别设计和建立的数据集合。企业建立数据仓库是为了填补现有数据存储形式...

【技术保护点】
1.大数据仓库的异构数据整合系统，其特征在于，所述系统包括：若干个分类器和数据融合装置；所述分类器分别基于多个特征空间进行训练，通过对每个所述分类器对多个已知训练样本进行分类，得出每个已知训练样本的分类结果，根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系，分别计算出每个所述特征空间与目标空间之间的映射规则；所述数据融合装置根据分类器得出的映射规则，针对每个具有不同特征空间的待分类的目标异构数据进行转换，使其统一映射至目标空间，完成异构数据整合；所述系统还包括：异构数据成分分析装置，用于分析出来自于不同数据源的异构数据的主成分，根据主成分，得出异构数据之间的异构程度值，将异构程度值低于设定的阈值的异构数据归为同构数据，完成异构数据的初步整合；将初步整合的结果发送至分类器。/n

【技术特征摘要】
1.大数据仓库的异构数据整合系统，其特征在于，所述系统包括：若干个分类器和数据融合装置；所述分类器分别基于多个特征空间进行训练，通过对每个所述分类器对多个已知训练样本进行分类，得出每个已知训练样本的分类结果，根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系，分别计算出每个所述特征空间与目标空间之间的映射规则；所述数据融合装置根据分类器得出的映射规则，针对每个具有不同特征空间的待分类的目标异构数据进行转换，使其统一映射至目标空间，完成异构数据整合；所述系统还包括：异构数据成分分析装置，用于分析出来自于不同数据源的异构数据的主成分，根据主成分，得出异构数据之间的异构程度值，将异构程度值低于设定的阈值的异构数据归为同构数据，完成异构数据的初步整合；将初步整合的结果发送至分类器。

2.如权利要求1所述的系统，其特征在于，所述分类器分别基于多个特征空间进行训练，通过对每个所述分类器对多个已知训练样本进行分类，得出每个已知训练样本的分类结果，根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系，分别计算出每个所述特征空间与目标空间之间的映射规则的方法执行以下步骤：根据采集到的训练样本，提取数据特征，使用如下公式，统计数据特征符合每一个特征空间的次数：其中，N为符合特征空间的次数，S为数据个数，λi为第i个训练样本的权重，M为每一个特征空间中的特征个数，countj第i个训练样本的数据特征个数；根据统计到的训练样本符合每一个特征空间中的次数，按照从多到少，设置对应训练样本的特征空间从高到低的优先级，完成数据特征空间训练；根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系，统计分析出特征空间与目标空间之间的映射规则。

3.如权利要求2所述的系统，其特征在于，所述异构数据成分分析装置，用于分析出来自于不同数据源的异构数据的主成分，根据主成分，得出异构数据之间的异构程度值，将异构程度值低于设定的阈值的异构数据归为同构数据，完成异构数据的初步整合的方法执行以下步骤：使用如下公式，利用自相关算法计算不同数据源的异构数据之间的的相似系数：其中，xi和x为不同两个不同数据源的异构数据的主成分，n为计算次数，B为调整系数，取值范围为：10～20。

4.如权利要求3所述的系统，其特征在于，述数据融合装置根据分类器得出的映射规则，针对每个具有不同特征空间的待分类的目标异构数据进行转换，使其统一映射至目标空间，完成异构数据整合的方法执行以下步骤：提取待分类的目标异构数据的特征空间，根据待分类的目标异构数据的特征空间，并将目标异构数据进行归类划分为不同的目标异构数据库；对目标异构数据库进行归一化处理得到分类目标异构数据矩阵；使用如下公式，将分类目标异构数据矩阵分别与每一个定向特征空间群进行映射匹配：其中，sim(dj，dk)为映射匹配结果，为产品目标异构数据矩阵，wji为矩阵行值，|dj|为对应的矩阵行列式的值；为定向特征空间群，wki为矩阵行值，|dk||为对应的矩阵行列式的值；根据最终映射匹配的结果，将匹配映射结果sim(dj，dk)最小的值对应的定向特征空间群作为对应产品信息的特征空间，完成特征空间构建；数据关联子系统，根据构建的特征空间，进行混沌模糊匹配，完成不同异构数据之间的整合。

5.如权利要求4所述的系统，其特征在于，所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及其对应的权重构成。

【专利技术属性】
技术研发人员：杨明，
申请(专利权)人：北华航天工业学院，
类型：发明
国别省市：河北;13

全部详细技术资料下载我是这个专利的主人