数据标准化方法及装置制造方法及图纸

技术编号:21605366 阅读:34 留言:0更新日期:2019-07-13 18:10
本申请提供一种数据标准化方法及装置,将业务数据库的元数据依次同多个标准数据库的元数据进行比较,找出相同的元数据,并标识为相似元数据。针对业务数据库中与该标准数据库之间不同的差异元数据。计算该差异元数据对应的数据与该业务数据库中预存的样本数据之间的相似度。将数据相似度大于预设阈值的样本数据对应的元数据在行业标准库标识为相似元数据。统计该行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为业务数据库最接近的行业标准库。

Data standardization methods and devices

【技术实现步骤摘要】
数据标准化方法及装置
本申请涉及数据处理领域,具体而言,涉及一种数据标准化方法及装置。
技术介绍
随着信息技术的普及和发展,政府及企业的信息化程度越来越高,进而导致业务数据量也进一步加大。面对大量的业务数据,有效并快速地建立准确和规范的数据模型已成为趋势。但面对大量的行业标准,通过人工识别方式建立实际业务数据同已有标准之间的关系会花费大量的时间及精力。
技术实现思路
为了克服现有技术中的至少一个不足,本申请的目的之一在于提供一种数据标准化方法,应用于数据处理设备,所述数据处理设备预存有多个行业标准库,所述行业标准库预存有样本数据;所述方法包括:获取业务数据库;针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对;将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据;针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据;统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。可选地,所述计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度的步骤包括:通过人工神经网络计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度。可选地,所述方法还包括:根据所述最接近的行业标准库中的相似元数据创建标准信息数据库;从所述业务数据库获取与所述最接近的行业标准库中的相似元数据对应的数据,存入所述标准信息数据库。可选地,所述数据处理设备还包括行业共享信息库,所述方法还包括:将所述行业共享信息库的元数据和所述标准信息数据库的元数据进行比较,确定出所述标准信息数据库中与所述行业共享信息库中的相同的共享元数据;根据所述共享元数据对应的数据创建共享数据表。可选地,所述方法还包括:针对每个所述共享数据表,提供相应的接口,使得其他设备通过该接口获取所述共享数据表中的数据。可选地,所述元数据包括字段名称,所述将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据的步骤包括:将所述行业标准库中与所述业务数据库相同的字段名称标识为相似元数据。可选地,所述元数据还包括表名称、字段类型和字段长度。本申请实施例的另一目的在于提供一种数据标准化装置,应用于数据处理设备,所述数据处理设备预存有多个行业标准库,所述行业标准库预存有样本数据,所述数据标准化装置包括获取模块、比较模块、标识模块、相似度计算模块和统计模块;所述获取模块用于获取业务数据库;所述比较模块用于针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对;所述标识模块用于将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据;所述相似度计算模块用于针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据;所述统计模块用于统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。可选地,所述比较模块通过以下方式将该行业标准库的元数据与业务数据库的元数据进行比对:通过人工神经网络计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度。可选地,所述数据标准化装置还包括创建模块、写入模块;所述创建模块用于根据所述最接近的行业标准库中的相似元数据创建标准信息数据库;所述写入模块用于从所述业务数据库获取与所述最接近的行业标准库中的相似元数据对应的数据,存入所述标准信息数据库。相对于现有技术而言,本申请具有以下有益效果:本申请实施例提供一种数据标准化方法及装置,将业务数据库的元数据依次同多个标准数据库的元数据进行比较,找出相同的元数据,并标识为相似元数据。针对业务数据库中与该标准数据库之间不同的差异元数据。计算该差异元数据对应的数据与该业务数据库中预存的样本数据之间的相似度。将数据相似度大于预设阈值的样本数据对应的元数据在行业标准库标识为相似元数据。统计该行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为业务数据库最接近的行业标准库。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的数据处理设备的方框示意图;图2为本申请实施例提供的数据标准化方法的步骤流程图;图3为本申请实施例提供的业务数据表和行业标准数据表对比示意图;图4为本申请实施例提供的数据标准化装置的结构示意图之一;图5为本申请实施例提供的数据标准化装置的结构示意图之二。图标:100-数据处理设备;130-处理器;120-存储器;110-数据标准化装置;500-业务数据表;600-行业标准数据表;1101-获取模块;1102-比较模块;1103-标识模块;1104-相似度计算模块;1105-统计模块;1106-创建模块;1107-写入模块。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。请参照图1,图1是本申请实施例提供的数据处理设备100的方框示意图,该数据处理设备100包括数据标准化装置110、存储器120和处理器130。所述存储器120和处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据标准化装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在数据处理设备100的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述数据标准化装置110所包括的软件功能模块及计算机程序等。所述数据处理设备100可以是,但不限于,智能手机、个人电脑(personalcomputer,PC)、平板电脑、个人数字助理(personaldigitalassistant,PDA)、移动上网设备(mobileInter本文档来自技高网...

【技术保护点】
1.一种数据标准化方法,其特征在于,应用于数据处理设备,所述数据处理设备预存有多个行业标准库,所述行业标准库预存有样本数据;所述方法包括:获取业务数据库;针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对;将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据;针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据;统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。

【技术特征摘要】
1.一种数据标准化方法,其特征在于,应用于数据处理设备,所述数据处理设备预存有多个行业标准库,所述行业标准库预存有样本数据;所述方法包括:获取业务数据库;针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对;将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据;针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据;统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。2.根据权利要求1所述的数据标准化方法,其特征在于,所述计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度的步骤包括:通过人工神经网络计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度。3.根据权利要求1所述的数据标准化方法,特征在于,所述方法还包括:根据所述最接近的行业标准库中的相似元数据创建标准信息数据库;从所述业务数据库获取与所述最接近的行业标准库中的相似元数据对应的数据,存入所述标准信息数据库。4.根据权利要求3所述数据标准化方法,其特征在于,所述数据处理设备还包括行业共享信息库,所述方法还包括:将所述行业共享信息库的元数据和所述标准信息数据库的元数据进行比较,确定出所述标准信息数据库中与所述行业共享信息库中的相同的共享元数据;根据所述共享元数据对应的数据创建共享数据表。5.根据权利要求4所述的数据标准化方法,其特征在于,所述方法还包括:针对每个所述共享数据表,提供相应的接口,使得其他设备通过该接口获取所述共享数据表中的数据。6.根据权利要求1所述的数据标准化方法,...

【专利技术属性】
技术研发人员:刘俊良廖华琛王怡君王双
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1