一种应用于大数据平台的自动化数据事务处理方法及系统技术方案

技术编号：35921226 阅读：16 留言：0更新日期：2022-12-10 11:05

本发明专利技术公开了一种应用于大数据平台的自动化数据事务处理方法及系统,该方法包括：获取数据变更信息，对数据变更信息进行解析，得到解析后的数据变更内容；对数据变更内容，按照表类型和变更类型进行分类，得到二维数据变更操作列表；对大数据平台系统级的表属性表和字段表进行查询，得到所有表级属性和字段属性信息；对二维数据变更操作列表中的变更信息，在所有表级属性和字段属性信息中进行遍历匹配；按照变更类型分类处理，得到每个变更内容需要完成的后续系列操作；采用多线程高并发操作法，对后续系列操作进行多线程并发处理。本发明专利技术适应于星环科技大数据平台TDH的自动化数据事务处理。据事务处理。据事务处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于大数据平台的自动化数据事务处理方法及系统

[0001]本专利技术涉及大数据领域中的数据事务处理
，具体涉及一种应用于大数据平台的自动化数据事务处理方法及系统。

技术介绍

[0002]星环科技大数据平台TDH有很多数据是通过分布式sql引擎inceptor(基于hive开发的商业组件，其中hive是基于hadoop的一个数据仓库工具)存储在hadoop分布式文件系统HDFS上，在对分布式sql引擎inceptor的表进行变更时(新增/删除字段，修改表的分桶字段/分桶字段类型/分桶数量等)，存在很多限制，不能直接通过数据操纵语言DML/数据定义语言DDL语句进行操作。
[0003]常用的方法是修改hive配置文件或者设置大量的事务参数，开启hive的事务特性，然后对事务表进行操作，但是非事务表不能进行数据事务操作的。此种方法操作繁琐，且对表的类型以及存储方式都有严格的要求，存储方式必须是Hadoop生态圈中的列式存储格式表orc表，并且存在新增的字段为null值问题以及字段错位的风险。
[0004]以上现有技术修改hive参数文件或者在hive命令行中通过设置事务参数来开启事务，这一种方案的原理是：事务是通过hive元数据服务Hive Metastore管理的，具体修改操作是通过orc应用程序接口ORC API执行到hadoop分布式文件系统HDFS上面的，绕开了元数据服务Metastore。当一个读操作开始的时候，元数据服务metastore会提供读的表，和当前已经提交的事务ids集合(...

【技术保护点】

【技术特征摘要】
1.一种应用于大数据平台的自动化数据事务处理方法，其特征在于，该方法包括：获取数据变更信息，对所述数据变更信息进行解析，得到解析后的数据变更内容；对所述数据变更内容，按照表类型和变更类型进行分类，得到二维数据变更操作列表；对大数据平台系统级的表属性表和字段表进行查询，得到所有表级属性和字段属性信息；对所述二维数据变更操作列表中的变更信息，在所述所有表级属性和字段属性信息中进行遍历匹配；按照变更类型分类处理，得到每个变更内容需要完成的后续系列操作；采用多线程高并发操作法，对所述后续系列操作进行多线程并发处理。2.根据权利要求1所述的一种应用于大数据平台的自动化数据事务处理方法，其特征在于，所述获取数据变更信息，对所述数据变更信息进行解析，得到解析后的数据变更内容；对所述数据变更内容，按照表类型和变更类型进行分类，得到二维数据变更操作列表，包括：输入带数据变更信息的数据文件；使用python程序对所述数据文件进行解析：读取所述数据文件的内容，遍历所述数据文件每一行数据，获取本次数据事务变更涉及的数据变更内容；对所述数据变更内容，按照变更类型和表类型进行分类组合，得到二维数据变更操作列表。3.根据权利要求2所述的一种应用于大数据平台的自动化数据事务处理方法，其特征在于，所述数据变更内容包括数据库名称、表名称、变更类型、新增的字段信息，新的分桶信息、主键标志和分布键标志；所述变更类型包括新增字段、修改表级属性和/或修改分布键信息；所述变更类型包括表结构变更、分布键信息变更、表事务属性变更和表存储类型变更；所述表类型包括orc事务表、orc非事务表、text事务表、text非事务表、holodesk表、hbase表、分区表和非分区表，所述分区表包括范围分区表和单值分区表。4.根据权利要求1所述的一种应用于大数据平台的自动化数据事务处理方法，其特征在于，所述对大数据平台系统级的表属性表和字段表进行查询，得到所有表级属性和字段属性信息，包括：对大数据平台系统级的表属性表进行数据查询，得到系统级各种表的属性信息；对大数据平台系统级的字段表进行数据查询，得到系统级各种表的字段属性信息；以及根据大数据平台系统级的系统表获取分区信息，所述分区信息包括分区字段、分区值和分区类型。5.根据权利要求2所述的一种应用于大数据平台的自动化数据事务处理方法，其特征在于，所述对所述二维数据变更操作列表中的变更信息，在所述所有表级属性和字段属性信息中进行遍历匹配；按照变更类型分类处理，得到每个变更内容需要完成的后续系列操作，包括：步骤A：循环遍历所述二维数据变更操作列表中的变更信息：根据数据库名称和表名称，在所述所有表级属性信息和字段属性信息中进行遍历，根据数据库名称和表名称进行比对，若数据库名称和表名称一致，则得到旧的表级属性和字段属性；
判断变更信息的类型，若是表结构变更，则遍历表结构变更信息，在...

【专利技术属性】
技术研发人员：危先银，
申请(专利权)人：四川新网银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人