【技术实现步骤摘要】
分布式异构数据源主成份分析系统
本专利技术属于数据分析
,特别是涉及一种分布式异构数据源主成份分析系统。
技术介绍
异构数据集是分布在不同系统互不交互的的数据源,每个应用系统的数据源可抽象为多个数据集。数据集是具有相同主题的数据或信息的集合,可规划为数据库,数据中的表单或集合。为实现数据的共享和透明访问,用户普遍将数据集存储在异构分布式数据库(DBMS),用数据处理语言访问数据库。由于DBMS缺乏统计性能和高维数据集性质,通常需要将数据集从异构数据库中导出到客户端机器,以执行外部软件包分析。而通过不同数据库语句扩展统计功能,可以消除数据导出和客户端开销。通常,异构数据库可以采用相关分析和主成分分析(PCA)进行统计分析数据集,相关矩阵用作PCA的输入,达到降低维数的目的。在实际生产生活中,不同部门的数据分别存放在相应部门系统平台上,而且每个系统平台数据的语法语义可能不同,这是数据集成的一个瓶颈。当要提取数据主成分时,必须要收集每个平台的数据,再通过第三方平台将数据统一集成到一个系统平台才可以获取到主成分。面对分布式数据集,传统PCA算法需要花销大量时间分析数 ...
【技术保护点】
1.一种分布式异构数据源主成份分析系统,其特征在于,包括:转换单元,适于将原始数据集转换为对应的分布式异构数据集;所述分布式异构数据集中的每个异构数据集分别具有对应的属性列数;判断单元,适于判断是否能够对所述分布式异构数据集进行主成份分析;分析单元,适于当确定能够对所述分布式异构数据集进行主成份分析时,对所述分布式异构数据集执行主成份分析,得到对应的分析结果。
【技术特征摘要】
1.一种分布式异构数据源主成份分析系统,其特征在于,包括:转换单元,适于将原始数据集转换为对应的分布式异构数据集;所述分布式异构数据集中的每个异构数据集分别具有对应的属性列数;判断单元,适于判断是否能够对所述分布式异构数据集进行主成份分析;分析单元,适于当确定能够对所述分布式异构数据集进行主成份分析时,对所述分布式异构数据集执行主成份分析,得到对应的分析结果。2.根据权利要求1所述的分布式异构数据源主成份分析系统,其特征在于,所述转换单元,适于对所述原始数据集中的数据依次执行语义映射集成、格式映射集成和结果映射集成,得到对应的分布式异构数据集。3.根据权利要求1所述的分布式异构数据源主成份分析系统,其特征在于,所述判断单元,适于对所述分布式异构数据集中的每个异构数据集分别执行KMO检验,得到对应的KMO检验系数;对所述分布式异构数据集中的每个异构数据集分别执行巴特利球体检验,得到对应的巴特利球体检验P值;当所述分布式异构数据集中的每个异构数据集对应的KMO检验系数和巴特利球体检验P值均大于对应的阈值时,确定能够对所述分布式异构数据集进行主成份分析。4.根据权利要求1所述的分布式异构数据源主成份分析系统,其特征在于,所述分析单元,适于计算所述分布式异构数据集中的本地异构数据集与非本地异构数据集之间的组合协方差矩阵;基于计算得出的组合协方差矩阵,计算所述非本地异构数据集对应的误差分...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。