一种基于数据分析的分布式数据清洗系统及方法技术方案

技术编号:26170823 阅读:19 留言:0更新日期:2020-10-31 13:40
本发明专利技术涉及一种基于数据分析的分布式数据清洗系统,该基于数据分析的分布式数据清洗系统,包括多元异构数据库,存储用户模型、元数据元素以及与其有对应关系的源数据元素;以及至少一个以上的处理单元,可操作来:提取多元异构数据库的用户模型、元数据元素以及源数据元素;选出初始元数据元素;选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取元数据集Q;对元数据集Q中的所述元数据元素进行清洗;本发明专利技术基于用户模型配合关系参数的选定能够筛选多个类别的元数据集,对于各个类别的元数据集可以选定针对的清洗规则,提高清洗速度,具有较高的灵活度和实用性,提高了数据清洗的可控性。

【技术实现步骤摘要】
一种基于数据分析的分布式数据清洗系统及方法
本专利技术属于人工智能数据处理
,具体涉及一种基于数据分析的分布式数据清洗系统。
技术介绍
异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的数据库管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制;----异构数据库系统的目标在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。其中关键的一点就是以局部数据库模式为基础,建立全局的数据模式或全局外视图。这种全局模式对于建立高级的决策支持系统尤为重要。----大型机构在许多地点都有分支机构,每个子机构的数据库中都有着自己的信息数据,而决策制订人员一般只关心宏观的、为全局模式所描述的信息。建立在数据仓库技术基础上的异构数据库全局模式的描述是一种好的解决方案。数据仓库可以从异构数据库系统中的多个数据库中收集信息,并建立统一的全局模式,同时收集的数据还支持对历史数据的访问,用户通过数据仓库提供的统一的数据接口进行决策支持的查询;在异构数据库的基础上增加了数据来源的多元化构成多元异构数据库,多元异构数据库相较于普通异构数据库更增加了来源多元化的数据特性,因此在数据的多元复杂程度上更上一层,对于这样的多元异构数据库如果直接通过清洗工具进行清洗,那么预定的清洗规则无法普遍适用于多元异构数据库中的数据,对于复杂多元的数据的清洗会导致数据属性丢失,破坏数据的完整性,清洗速度慢,而且清洗的效果也是不可预估的。
技术实现思路
本专利技术提供一种的基于数据分析的分布式数据清洗系统,解决相关技术中多元异构数据库直接应用清洗工具清洗产生的技术问题。根据本专利技术的一个方面,提供了一种基于数据分析的分布式数据清洗系统,包括:-多元异构数据库,存储用户模型、元数据元素以及与其有对应关系的源数据元素;以及-至少一个以上的处理单元,可操作来:提取多元异构数据库的用户模型、元数据元素以及源数据元素;计算所述元数据元素与所述用户模型的相关度,将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较,选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素;选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取与所述初始元数据元素具有公共关系的元数据元素组成集合C,集合C中的元数据元素提取对应的源数据元素组成集合D,在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素,并计算所述源数据元素与初始元数据元素的倾向度,选择倾向度大于预定倾向度阈值的所述源数据元素,并提取所述源数据元素对应的所述元数据元素与所述初始元数据元素共同组成元数据集Q;选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗,清洗后的元数据元素导入异构多源数据库保存;迭代执行上述步骤,以完成数据清洗。进一步地,所述处理单元包括采集模块、处理模块、元数据分类模块、清洗模块和输出模块,所述采集模块用于采集多元异构数据库的用户模型、元数据元素以及源数据元素;所述处理模块用于对所述采集模块所采集的所述元数据元素与所述用户模型的相关度,筛选初始元数据元素;所述元数据分类模块从所述采集模块采集的元数据元素中筛选与所述初始元数据元素具有公共关系的元数据元素,从所述采集模块采集的源数据元素中提取与所述与所述初始元数据元素具有公共关系的元数据元素对应的源数据元素,根据与所述初始元数据元素的倾向度筛选所述源数据元素,之后在采集模块采集的元数据元素中提取与所述源数据元素对应的所述元数据元素组成元数据集Q;所述清洗模块对所述元数据集Q中的所述元数据元素进行清洗;所述输出模块对所述清洗模块清洗后的所述元数据元素输出到多元异构数据库储存。一种基于数据分析的分布式数据清洗方法,包括:从多元异构数据库中提取一个用户模型;从多元异构数据库中提取任意一个元数据元素,计算所述元数据元素与所述用户模型的相关度;将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较,如果相关度大于预定的相关度阈值,则执行下一步骤,反之,重复上一步骤直至选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素;选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取与所述初始元数据元素具有公共关系的元数据元素组成集合C,集合C中的元数据元素提取对应的源数据元素组成集合D,在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素,并计算所述源数据元素与初始元数据元素的倾向度,选择倾向度大于预定倾向度阈值的所述源数据元素,并提取所述源数据元素对应的所述元数据元素与所述初始元数据元素共同组成元数据集Q;选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗,清洗后的元数据元素返回异构多源数据库保存;依照除第一个步骤以外的其他步骤进行迭代得到若干个已清洗的元数据集Q1,Q2,...,Qi,...Qn,完成数据清洗。进一步地,所述依照除第一个步骤以外的其他步骤进行迭代中每一次迭代完成后屏蔽已经选出的元数据集Q中的所有元数据元素。进一步地,所述依照除第一个步骤以外的其他步骤进行迭代中每一次迭代完成后屏蔽已经选择的数据属性项。进一步地,所述用户模型为M={X,W},其中X表征数据属性,W表征每一数据属性的权重;所述X={X1,X2,...,Xi,...,Xn},Xi代表的数据属性项,W={W1,W2,...,Wi,...,Wn},Wi为Xi的权重向量;所述从数据库中提取任意一个元数据元素,计算所述元数据元素与所述用户模型的相似度包括:计算实施元数据元素的所有的数据属性项与实施用户模型的相关度,并求和得到所述用户模型与所述元数据元素的相关度;通过公式(1)计算所述用户模型与所述元数据元素的数据属性项的相关度:其中,Puj表示用户模型与所述元数据元素的相关度,X表示用户模型的数据属性项集合(i是其中某一个数据属性),S(i,k)表示元数据元素的数据属性项集合(j是这个集合中的某一个数据属性项),Rji表示数据属性项j和数据属性项i的相似度,Wi表示所述用户模型中数据属性项i对应的权重向量;进一步地,所述预定的相关度阈值在(0,1)的区间内进行选择,数值越小则迭代次数越少,并且能够提取更多的元数据元素以及源数据元素,数值越大则对相关度的要求越高,导致迭代次数的增加,提取的元数据元素以及源数据元素减少,但是会提高提取的元数据元素以及源数据元素减少的质量,预定相关度阈值的选值一定程度上决定了选择策略。进一步地,所述关系参本文档来自技高网
...

【技术保护点】
1.一种基于数据分析的分布式数据清洗系统,其特征在于:包括:/n-多元异构数据库,存储用户模型、元数据元素以及与其有对应关系的源数据元素;以及/n-至少一个以上的处理单元,可操作来:/n提取多元异构数据库的用户模型、元数据元素以及源数据元素;/n计算所述元数据元素与所述用户模型的相关度,将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较,选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素;/n选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取与所述初始元数据元素具有公共关系的元数据元素组成集合C,集合C中的元数据元素提取对应的源数据元素组成集合D,在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素,并计算所述源数据元素与初始元数据元素的倾向度,选择倾向度大于预定倾向度阈值的所述源数据元素,并提取所述源数据元素对应的所述元数据元素与所述初始元数据元素共同组成元数据集Q;/n选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗,清洗后的元数据元素导入异构多源数据库保存;/n迭代执行上述步骤,以完成数据清洗。/n...

【技术特征摘要】
1.一种基于数据分析的分布式数据清洗系统,其特征在于:包括:
-多元异构数据库,存储用户模型、元数据元素以及与其有对应关系的源数据元素;以及
-至少一个以上的处理单元,可操作来:
提取多元异构数据库的用户模型、元数据元素以及源数据元素;
计算所述元数据元素与所述用户模型的相关度,将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较,选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素;
选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取与所述初始元数据元素具有公共关系的元数据元素组成集合C,集合C中的元数据元素提取对应的源数据元素组成集合D,在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素,并计算所述源数据元素与初始元数据元素的倾向度,选择倾向度大于预定倾向度阈值的所述源数据元素,并提取所述源数据元素对应的所述元数据元素与所述初始元数据元素共同组成元数据集Q;
选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗,清洗后的元数据元素导入异构多源数据库保存;
迭代执行上述步骤,以完成数据清洗。


2.根据权利要求1所述的基于数据分析的分布式数据清洗系统,其特征在于:所述处理单元包括采集模块、处理模块、元数据分类模块、清洗模块和输出模块,所述采集模块用于采集多元异构数据库的用户模型、元数据元素以及源数据元素;
所述处理模块用于对所述采集模块所采集的所述元数据元素与所述用户模型的相关度,筛选初始元数据元素;
所述元数据分类模块从所述采集模块采集的元数据元素中筛选与所述初始元数据元素具有公共关系的元数据元素,从所述采集模块采集的源数据元素中提取与所述与所述初始元数据元素具有公共关系的元数据元素对应的源数据元素,根据与所述初始元数据元素的倾向度筛选所述源数据元素,之后在采集模块采集的元数据元素中提取与所述源数据元素对应的所述元数据元素组成元数据集Q;
所述清洗模块对所述元数据集Q中的所述元数据元素进行清洗;
所述输出模块对所述清洗模块清洗后的所述元数据元素输出到多元异构数据库储存。


3.一种基于数据分析的分布式数据清洗方法,其特征在于:包括:
从多元异构数据库中提取一个用户模型;
从多元异构数据库中提取任意一个元数据元素,计算所述元数据元素与所述用户模型的相关度;
将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较,如果相关度大于预定的相关度阈值,则执行下一步骤,反之,重复上一步骤直至选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素;
选择所述用户模型的至少一个以上的数据属性项作为关系参数,所述关系参数对应的预设加权值,提取与所述初始元数据元素具有公共关系的元数据元素组成集合C,集合C中的元数据元素提取对应的源数据元素组成集合D,在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素,并计算所述源数据元素与初始元数据元素的倾向度,选择倾向度大于预定倾向度阈值的所述源数据元素,并提取所述源数据元素对...

【专利技术属性】
技术研发人员:张伟徐志峰
申请(专利权)人:山东省科院易达科技咨询有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1