数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:20363078 阅读:24 留言:0更新日期:2019-02-16 16:37
本发明专利技术的实施例提供了一种数据处理方法、装置、电子设备及存储介质,涉及大数据技术领域。该方法包括:基于多个数据表的表结构信息对多个数据表进行聚类处理获得多个类簇;确定各个类簇的类簇中心向量与多个标准模板表之间的距离,并基于所述距离确定各个类簇的类簇模板表;基于各个类簇的类簇模板表中的字段对各个类簇中的数据表的字段进行合并处理;基于类簇模板表中各字段的校验规则对各个类簇中合并处理后的数据表的字段进行校验,并将校验通过的数据表导入到目标数据库中。本发明专利技术实施例的技术方案能够自动地对数据表中的海量数据进行合并、校验、导入,提高了数据处理效率。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
本专利技术涉及大数据
,具体而言,涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。
技术介绍
随着互联网技术的发展,越来越多的企业采用数字化的信息管理平台。如何收集信息管理平台上的数据成为了关注的焦点。目前,企业信息管理平台例如Oracle海波龙平台中,针对企业信息管理的各项目,采用由下往上的方式收集数据,收集的数据形式很可能与平台提供的数据表模板不匹配,需要对收集的数据进行处理例如合并、校验之后再导入。在合并、校验、导入等多个处理环节中容易造成数据错乱、操作繁琐等问题,降低了数据处理效率,从而降低了用户工作效率和使用体验。因此,需要提供一种能够解决上述问题中的一个或多个问题的数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术实施例的目的在于提供一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本专利技术实施例的第一方面,提供了一种数据处理方法,包括:基于多个数据表的表结构信息对所述多个数据表进行聚类处理获得多个类簇;确定各个类簇的类簇中心向量与多个标准模板表之间的距离,并基于所述距离确定各个类簇的类簇模板表;基于各个类簇的类簇模板表中的字段对各个类簇中的数据表的字段进行合并处理;基于所述类簇模板表中各字段的校验规则对各个类簇中合并处理后的数据表的字段进行校验,并将校验通过的数据表导入到目标数据库中。在本专利技术的一些实施例中,基于前述方案,基于多个数据表的表结构信息对所述多个数据表进行聚类处理获得多个类簇,包括:基于各个数据表的表结构信息确定各个数据表的指纹特征向量;计算各个数据表的所述指纹特征向量之间的距离;基于所述指纹特征向量之间的距离对所述多个数据表进行聚类处理获得多个类簇。在本专利技术的一些实施例中,基于前述方案,确定各个类簇的类簇中心向量与多个标准模板表的距离,并基于所述距离确定各个类簇的类簇模板表,包括:获取各个标准模板表的结构特征信息,基于所述结构特征信息确定各个标准模板表的指纹特征向量;计算各个类簇的类簇中心向量与各个标准模板表的指纹特征向量之间的距离;将与所述类簇的类簇中心向量距离最近的标准模板表作为所述类簇的类簇模板表。在本专利技术的一些实施例中,基于前述方案,所述表结构信息包括:表名称、表的字段数量、表的各字段的名称、表的各字段的类型、表的主键、表的外键。在本专利技术的一些实施例中,基于前述方案,基于各个类簇的类簇模板表中的字段对各个类簇中的数据表的字段进行合并处理,包括:确定所述类簇的类簇模板表的中的字段与所述类簇中的数据表的字段的对应关系;在所述对应关系为一对多时,对所述类簇中的数据表的字段进行合并处理。在本专利技术的一些实施例中,基于前述方案,所述数据处理方法还包括:在校验失败时,根据所述校验规则的类型对校验失败的数据表中的对应字段的数据进行调整。在本专利技术的一些实施例中,基于前述方案,对各个类簇中的数据表的字段进行合并处理之前,所述数据处理方法还包括:根据各个类簇中的数据表的各个字段的内容将各个字段分为标识型数据、数值型数据、时间型数据、电话型数据、文本型数据。根据本专利技术实施例的第二方面,提供了一种数据处理装置,包括:聚类单元,用于基于多个数据表的表结构信息对所述多个数据表进行聚类处理获得多个类簇;类簇模板表确定单元,用于确定各个类簇的类簇中心向量与多个标准模板表之间的距离,并基于所述距离确定各个类簇的类簇模板表;合并单元,用于基于各个类簇的类簇模板表中的字段对各个类簇中的数据表的字段进行合并处理;校验导入单元,用于基于所述类簇模板表中各字段的校验规则对各个类簇中合并处理后的数据表的字段进行校验,并将校验通过的数据表导入到目标数据库中。根据本专利技术实施例的第三方面,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述第一方面所述的数据处理方法。根据本专利技术实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的数据处理方法。在本专利技术的一些实施例所提供的技术方案中,一方面,基于表结构信息对多个数据表进行聚类处理,能够将具有相同内容的数据表聚类到同一类簇中,从而能够提高数据处理效率;另一方面,根据标准模板表对类簇内的数据表的字段进行合并、校验处理,校验通过后再进行导入,能够避免数据错乱的问题;再一方面,由于能够自动地对数据表中的数据进行合并、校验、导入,从而能够提高用户工作效率和使用体验。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示出了根据本专利技术的一些实施例的数据处理方法的流程示意图;图2示出了根据本专利技术的一些实施例对多个数据表进行聚类处理的流程示意图;图3示出了根据本专利技术的一些实施例的数据处理装置的示意框图;图4示出了适于用来实现本专利技术实施例的电子设备的计算机系统的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本专利技术将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本专利技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本专利技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本专利技术的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。图1示出了根据本专利技术的一些实施例的数据处理方法的流程示意图。参照图1所示,在步骤S110中,基于多个数据表的表结构信息对所述多个数据表进行聚类处理获得多个类簇。在示例实施例中,以电商平台的产品销售的数据表为例进行说明,多个数据表可以包括:商品信息表、商品入库表、商品出库表、物流信息表、商品销售表等数本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:基于多个数据表的表结构信息对所述多个数据表进行聚类处理获得多个类簇;确定各个类簇的类簇中心向量与多个标准模板表之间的距离,并基于所述距离确定各个类簇的类簇模板表;基于各个类簇的类簇模板表中的字段对各个类簇中的数据表的字段进行合并处理;基于所述类簇模板表中各字段的校验规则对各个类簇中合并处理后的数据表的字段进行校验,并将校验通过的数据表导入到目标数据库中。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:基于多个数据表的表结构信息对所述多个数据表进行聚类处理获得多个类簇;确定各个类簇的类簇中心向量与多个标准模板表之间的距离,并基于所述距离确定各个类簇的类簇模板表;基于各个类簇的类簇模板表中的字段对各个类簇中的数据表的字段进行合并处理;基于所述类簇模板表中各字段的校验规则对各个类簇中合并处理后的数据表的字段进行校验,并将校验通过的数据表导入到目标数据库中。2.根据权利要求1所述的数据处理方法,其特征在于,基于多个数据表的表结构信息对所述多个数据表进行聚类处理获得多个类簇,包括:基于各个数据表的表结构信息确定各个数据表的指纹特征向量;计算各个数据表的所述指纹特征向量之间的距离;基于所述指纹特征向量之间的距离对所述多个数据表进行聚类处理获得多个类簇。3.根据权利要求1所述的数据处理方法,其特征在于,确定各个类簇的类簇中心向量与多个标准模板表的距离,并基于所述距离确定各个类簇的类簇模板表,包括:获取各个标准模板表的结构特征信息,基于所述结构特征信息确定各个标准模板表的指纹特征向量;计算各个类簇的类簇中心向量与各个标准模板表的指纹特征向量之间的距离;将与所述类簇的类簇中心向量距离最近的标准模板表作为所述类簇的类簇模板表。4.根据权利要求1所述的数据处理方法,其特征在于,所述表结构信息包括:表名称、表的字段数量、表的各字段的名称、表的各字段的类型、表的主键、表的外键。5.根据权利要求1所述的数据处理方法,其特征在于,基于各个类簇的类簇模板表中的字段对各个类簇中的数据表的字...

【专利技术属性】
技术研发人员:吴远春
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1