【技术实现步骤摘要】
一种基于数据分析的分布式数据清洗系统及方法
本专利技术属于人工智能数据处理
,具体涉及一种基于数据分析的分布式数据清洗系统。
技术介绍
异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的数据库管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制;----异构数据库系统的目标在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。其中关键的一点就是以局部数据库模式为基础,建立全局的数据模式或全局外视图。这种全局模式对于建立高级的决策支持系统尤为重要。----大型机构在许多地点都有分支机构,每个子机构的数据库中都有着自己的信息数据,而决策制订人员一般只关心宏观的、为全局模式所描述的信息。建立在数据仓库技术基础上的异构数据库全局模式的描述是一种好的解决方案。数据仓库可以从异构数据库系统中的多个数据库中收集信息,并建立统一的全局模式,同时收集的数据还支持对历史数据的访问,用户通过数据仓库提供的统一的数据接口进行决策支持的查询;在异构数据库的基础上增加了数据来源的多元化构成多元异构数据库,多元异构数据库相较于普通异构数据库更增加了来源多元化的数据特性,因此在数据的多元复杂程度上更上一层,对于这样的多元异构数据库如果直接通过清洗工具进行清洗,那么预定的清洗规则无法普遍适用于多元异构数据库中的数据,对于复杂多元的数据的清洗 ...
【技术保护点】
1.一种基于数据分析的分布式数据清洗系统,其特征在于:包括:/n-多元异构数据库,存储用户模型、元数据元素以及与其有对应关系的源数据元素;以及/n-至少一个以上的处理单元,可操作来:/n提取多元异构数据库的用户模型、元数据元素以及源数据元素;/n计算所述元数据元素与所述用户模型的相关度,将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较,选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素;/n选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取与所述初始元数据元素具有公共关系的元数据元素组成集合C,集合C中的元数据元素提取对应的源数据元素组成集合D,在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素,并计算所述源数据元素与初始元数据元素的倾向度,选择倾向度大于预定倾向度阈值的所述源数据元素,并提取所述源数据元素对应的所述元数据元素与所述初始元数据元素共同组成元数据集Q;/n选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗,清洗后的元数据元素导入异构 ...
【技术特征摘要】
1.一种基于数据分析的分布式数据清洗系统,其特征在于:包括:
-多元异构数据库,存储用户模型、元数据元素以及与其有对应关系的源数据元素;以及
-至少一个以上的处理单元,可操作来:
提取多元异构数据库的用户模型、元数据元素以及源数据元素;
计算所述元数据元素与所述用户模型的相关度,将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较,选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素;
选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取与所述初始元数据元素具有公共关系的元数据元素组成集合C,集合C中的元数据元素提取对应的源数据元素组成集合D,在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素,并计算所述源数据元素与初始元数据元素的倾向度,选择倾向度大于预定倾向度阈值的所述源数据元素,并提取所述源数据元素对应的所述元数据元素与所述初始元数据元素共同组成元数据集Q;
选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗,清洗后的元数据元素导入异构多源数据库保存;
迭代执行上述步骤,以完成数据清洗。
2.根据权利要求1所述的基于数据分析的分布式数据清洗系统,其特征在于:所述处理单元包括采集模块、处理模块、元数据分类模块、清洗模块和输出模块,所述采集模块用于采集多元异构数据库的用户模型、元数据元素以及源数据元素;
所述处理模块用于对所述采集模块所采集的所述元数据元素与所述用户模型的相关度,筛选初始元数据元素;
所述元数据分类模块从所述采集模块采集的元数据元素中筛选与所述初始元数据元素具有公共关系的元数据元素,从所述采集模块采集的源数据元素中提取与所述与所述初始元数据元素具有公共关系的元数据元素对应的源数据元素,根据与所述初始元数据元素的倾向度筛选所述源数据元素,之后在采集模块采集的元数据元素中提取与所述源数据元素对应的所述元数据元素组成元数据集Q;
所述清洗模块对所述元数据集Q中的所述元数据元素进行清洗;
所述输出模块对所述清洗模块清洗后的所述元数据元素输出到多元异构数据库储存。
3.一种基于数据分析的分布式数据清洗方法,其特征在于:包括:
从多元异构数据库中提取一个用户模型;
从多元异构数据库中提取任意一个元数据元素,计算所述元数据元素与所述用户模型的相关度;
将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较,如果相关度大于预定的相关度阈值,则执行下一步骤,反之,重复上一步骤直至选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素;
选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取与所述初始元数据元素具有公共关系的元数据元素组成集合C,集合C中的元数据元素提取对应的源数据元素组成集合D,在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素,并计算所述源数据元素与初始元数据元素的倾向度,选择倾向度大于预定倾向度阈值的所述源数据元素,并提取所述源数据元素对...
【专利技术属性】
技术研发人员:张伟,徐志峰,
申请(专利权)人:山东省科院易达科技咨询有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。