当前位置: 首页 > 专利查询>吴本刚专利>正文

一种专用数据质量管理与有用数据挖掘装置制造方法及图纸

技术编号:14299189 阅读:102 留言:0更新日期:2016-12-26 04:28
本发明专利技术公开了一种专用数据质量管理与有用数据挖掘装置,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块。

【技术实现步骤摘要】

本专利技术涉及专用数据领域,具体涉及一种专用数据质量管理与有用数据挖掘装置
技术介绍
数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据是载荷或记录信息的按一定规则排列组合的物理符号。而专用数据在各自领域起着重要作用。在现在使用的数据信息中,有很大一部分的数据是由管理者来进行发布,并且根据用户的建议或者管理者自身的需求由管理者来进行修改的,对于这部分的海量信息,如何能够更好地进行质量管理和挖掘,快速有效地从中找到有用的信息,是一个亟需解决的问题。
技术实现思路
针对上述问题,本专利技术提供一种专用数据质量管理与有用数据挖掘装置。本专利技术的目的采用以下技术方案来实现:一种专用数据质量管理与有用数据挖掘装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;初步处理子模块,其特征是:接收业务子系统发送的申请信息,所述申请信息包括业务子系统标识、数据表操作信息和数据表操作触发信息;解析所述数据表操作触发信息获得数据表流向信息;接收所述业务子系统发送的用户信息和目标数据表。若所述数据表操作信息为新增数据表,则依据所述业务子系统标识查询多个历史记录信息获得与所述业务子系统标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子系统将所述目标数据表存储到数据中心;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容。优选地,其特征是,所述历史记录信息至少包括业务子系统标识和数据表名称。优选地,其特征在于,所述指示所述业务子系统将所述目标数据表存储到数据中心之后,还包括:接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子系统与所述数据中心的接口方式;生成当前记录信息,所述当前记录信息包括所述业务子系统标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。优选地,(1)数据描述子模块通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,则影响者网络聚类系数定义为: K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3 ]]>式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;(2)数据质量评价子模块采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示: R ( X , Y ) = Σ i = 1 N | x i - 本文档来自技高网...
一种专用数据质量管理与有用数据挖掘装置

【技术保护点】
一种专用数据质量管理与有用数据挖掘装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;初步处理子模块,其特征是:接收业务子系统发送的申请信息,所述申请信息包括业务子系统标识、数据表操作信息和数据表操作触发信息;解析所述数据表操作触发信息获得数据表流向信息;接收所述业务子系统发送的用户信息和目标数据表。若所述数据表操作信息为新增数据表,则依据所述业务子系统标识查询多个历史记录信息获得与所述业务子系统标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子系统将所述目标数据表存储到数据中心;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容。

【技术特征摘要】
1.一种专用数据质量管理与有用数据挖掘装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;初步处理子模块,其特征是:接收业务子系统发送的申请信息,所述申请信息包括业务子系统标识、数据表操作信息和数据表操作触发信息;解析所述数据表操作触发信息获得数据表流向信息;接收所述业务子系统发送的用户信息和目标数据表。若所述数据表操作信息为新增数据表,则依据所述业务子系统标识查询多个历史记录信息获得与所述业务子系统标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子系统将所述目标数据表存储到数据中心;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容。2.根据权利要求1所述的一种专用数据质量管理与有用数据挖掘装置,其特征是,所述历史记录信息至少包括业务子系统标识和数据表名称。3.根据权利要求1所述的一种专用数据质量管理与有用数据挖掘装置,其特征在于,所述指示所述业务子系统将所述目标数据表存储到数据中心之后,还包括:接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子系统与所述数据中心的接口方式;生成当前记录信息,所述当前记录信息包括所述业务子系统标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。4.根据权利要求1所述的一种专用数据质量管理与有用数据挖掘装置,其特征是,(1)数据描述子模块通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,则影响者网络聚类系数定义为: K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3 ]]>式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;(2)数据质量评价子模块采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:吴本刚
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1