一种基于数据分析的分布式数据清洗系统及方法技术方案

技术编号：26170823 阅读：37 留言：0更新日期：2020-10-31 13:40

本发明专利技术涉及一种基于数据分析的分布式数据清洗系统，该基于数据分析的分布式数据清洗系统，包括多元异构数据库，存储用户模型、元数据元素以及与其有对应关系的源数据元素；以及至少一个以上的处理单元，可操作来：提取多元异构数据库的用户模型、元数据元素以及源数据元素；选出初始元数据元素；选择所述用户模型的至少一个以上的数据属性项作为关系参数，所述关系参数对应的预设加权值，提取元数据集Q；对元数据集Q中的所述元数据元素进行清洗；本发明专利技术基于用户模型配合关系参数的选定能够筛选多个类别的元数据集，对于各个类别的元数据集可以选定针对的清洗规则，提高清洗速度，具有较高的灵活度和实用性，提高了数据清洗的可控性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据分析的分布式数据清洗系统及方法
本专利技术属于人工智能数据处理
，具体涉及一种基于数据分析的分布式数据清洗系统。
技术介绍
异构数据库系统是相关的多个数据库系统的集合，可以实现数据的共享和透明访问，几个数据库系统在加入异构数据库系统之前本身就已经存在，拥有自己的数据库管理系统、外构数据库的各个组成部分具有自身的自治性，实现数据共享的同时，每个数据库系统仍有自己的应用特性、完整性控制和安全性控制；----异构数据库系统的目标在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。其中关键的一点就是以局部数据库模式为基础，建立全局的数据模式或全局外视图。这种全局模式对于建立高级的决策支持系统尤为重要。----大型机构在许多地点都有分支机构，每个子机构的数据库中都有着自己的信息数据，而决策制订人员一般只关心宏观的、为全局模式所描述的信息。建立在数据仓库技术基础上的异构数据库全局模式的描述是一种好的解决方案。数据仓库可以从异构数据库系统中的多个数据库中收集信息，并建立统一的全局模式...

【技术保护点】
1.一种基于数据分析的分布式数据清洗系统，其特征在于：包括：/n-多元异构数据库，存储用户模型、元数据元素以及与其有对应关系的源数据元素；以及/n-至少一个以上的处理单元，可操作来：/n提取多元异构数据库的用户模型、元数据元素以及源数据元素；/n计算所述元数据元素与所述用户模型的相关度，将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较，选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素；/n选择所述用户模型的至少一个以上的数据属性项作为关系参数，所述关系参数对应的预设加权值，提取与所述初始元数据元素具有公共关系的元数据元素组成集合C，集合C中的元数据元素提取对应的...

【技术特征摘要】
1.一种基于数据分析的分布式数据清洗系统，其特征在于：包括：
-多元异构数据库，存储用户模型、元数据元素以及与其有对应关系的源数据元素；以及
-至少一个以上的处理单元，可操作来：
提取多元异构数据库的用户模型、元数据元素以及源数据元素；
计算所述元数据元素与所述用户模型的相关度，将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较，选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素；
选择所述用户模型的至少一个以上的数据属性项作为关系参数，所述关系参数对应的预设加权值，提取与所述初始元数据元素具有公共关系的元数据元素组成集合C，集合C中的元数据元素提取对应的源数据元素组成集合D，在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素，并计算所述源数据元素与初始元数据元素的倾向度，选择倾向度大于预定倾向度阈值的所述源数据元素，并提取所述源数据元素对应的所述元数据元素与所述初始元数据元素共同组成元数据集Q；
选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗，清洗后的元数据元素导入异构多源数据库保存；
迭代执行上述步骤，以完成数据清洗。

2.根据权利要求1所述的基于数据分析的分布式数据清洗系统，其特征在于：所述处理单元包括采集模块、处理模块、元数据分类模块、清洗模块和输出模块，所述采集模块用于采集多元异构数据库的用户模型、元数据元素以及源数据元素；
所述处理模块用于对所述采集模块所采集的所述元数据元素与所述用户模型的相关度，筛选初始元数据元素；
所述元数据分类模块从所述采集模块采集的元数据元素中筛选与所述初始元数据元素具有公共关系的元数据元素，从所述采集模块采集的源数据元素中提取与所述与所述初始元数据元素具有公共关系的元数据元素对应的源数据元素，根据与所述初始元数据元素的倾向度筛选所述源数据元素，之后在采集模块采集的元数据元素中提取与所述源数据元素对应的所述元数据元素组成元数据集Q；
所述清洗模块对所述元数据集Q中的所述元数据元素进行清洗；
所述输出模块对所述清洗模块清洗后的所述元数据元素输出到多元异构数据库储存。

3.一种基于数据分析的分布式数据清洗方法，其特征在于：包括：
从多元异构数据库中提取一个用户模型；
从多元异构数据库中提取任意一个元数据元素，计算所述元数据元素与所述用户模型的相关度；
将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较，如果相关度大于预定的相关度阈值，则执行下一步骤，反之，重复上一步骤直至选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素；
选择所述用户模型的至少一个以上的数据属性项作为关系参数，所述关系参数对应的预设加权值，提取与所述初始元数据元素具有公共关系的元数据元素组成集合C，集合C中的元数据元素提取对应的源数据元素组成集合D，在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素，并计算所述源数据元素与初始元数据元素的倾向度，选择倾向度大于预定倾向度阈值的所述源数据元素，并提取所述源数据元素对...

【专利技术属性】
技术研发人员：张伟，徐志峰，
申请(专利权)人：山东省科院易达科技咨询有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人