一种Hive动态脱敏方法及系统技术方案

技术编号：34427634 阅读：41 留言：0更新日期：2022-08-06 16:01

本发明专利技术公开了一种Hive动态脱敏方法和系统，基于敏感数据发现和字段血缘解析来实现，所述方法包括以下步骤：步骤S1：HQL语法树解析，对提交的HQLs进行逐个解析，生成对应的抽象语法树节点；步骤S2：通过正则表达式以及语法树结构特征判断HQL是否是查询语句；步骤S3：被判定为是查询语句时，HQL字段血缘解析；步骤S4：对Hive JDBC ResultSet实现类中获取列值的方法进行改写，完成脱敏处理。本发明专利技术的方法和系统能够实现基于敏感数据发现和字段血缘解析的透明化、自动化动态脱敏，有效提高实际生产环境中数据的安全性。生产环境中数据的安全性。生产环境中数据的安全性。

全部详细技术资料下载

【技术实现步骤摘要】
一种Hive动态脱敏方法及系统

[0001]本专利技术涉及计算机网络及数据处理
，尤其是涉及一种基于敏感数据发现和字段血缘解析的Hive动态脱敏方法及系统。

技术介绍

[0002]近年来，随着互联网的快速发展，企业数据呈现爆炸性地增长趋势。数据智能成为企业保持核心竞争力的关键。数据中台战略是企业打通数据孤岛，实现“业务数据化和数据业务化”的必然选择。与此同时，数据中台离不开以Hadoop为核心的大数据技术生态支撑。其中，Hive是数据中台建设离线数仓、进行OLAP（Online Analysis Process, OLAP）分析的必要工具。它能够为业务开发人员屏蔽大数据底层复杂的分布式计算编程框架，如MapReduce、弹性分布式数据集（Resillient Distributed Dataset, RDD）等，提供一种被称为HiveQL或HQL的SQL方言，来查询存储在Hadoop集群中的海量数据。然而，新的数据存储和分析模型对传统建立在关系型数据库基础上的数据安全系统提出了变革性挑战。
[0003]数据安全必须覆盖数据的整个生命周期，如数据产生、存储、传输、使用、共享以及销毁。在每一个环节都需要面向不同开发人员提供安全的数据接入。因此，数据安全必须借助多种技术手段实现，其中数据脱敏是必不可少。数据脱敏可以在数据传输、共享和展示时通过对敏感信息进行脱敏处理来防止用户隐私数据、商业机密等敏感信息泄露。针对不同的场景，数据脱敏可以分为静态脱敏和动态脱敏。静态脱敏适用于数据脱离生产环境进行共享和迁移场景，在...

【技术保护点】

【技术特征摘要】
1.一种Hive动态脱敏方法，所述方法基于敏感数据发现和字段血缘解析来实现，其特征在于，所述方法包括以下步骤：步骤S1：HQL语法树解析，对提交的HQLs进行逐个解析，生成对应的抽象语法树节点；步骤S2：通过正则表达式以及语法树结构特征判断HQL是否是查询语句；步骤S3：被判定为是查询语句时，HQL字段血缘解析；步骤S4：对Hive JDBC ResultSet实现类中获取列值的方法进行改写，完成脱敏处理。2.根据权利要求1所述的Hive动态脱敏方法，其特征在于，步骤S1中，HQL语法树解析利用Hive提供的ParseDriver对HQL进行解析，得到相应的ASTNode。3.根据权利要求2所述的Hive动态脱敏方法，其特征在于，步骤S2中，判断HQL为查询语句的ASTNode的充分必要条件如下：从ASTNode的根出发，其0号子节点必须为TOK_QUERY类型，并且TOK_QUERY子节点必须包含一个TOK_INSERT类型的子节点，该节点的子树索引序列0
→0→
0对应的Token类型必须为TOK_DESTINATION
→
TOK_DIR
→
TOK_TMP_FILE。4.根据权利要求3所述的Hive动态脱敏方法，其特征在于，步骤S2中，在一个HQL被判定为查询语句的情况下，进入步骤S3；若一个HQL被判定为非查询语句，则直接交由HiveJDBC提交到HiveServer2上去执行。5.根据权利要求4所述的Hive动态脱敏方法，其特征在于，步骤S3中，HQL字段血缘解析包括以下步骤：S31.通过字符串匹配和字符串替换方式将HQL调整为以select开头；S32.改写HQL为“insert overwrite table temp + HQL”的形式；S33.利用ParseDriver对改写后的HQL进行抽象语法树解析，获得ASTNode；S34.对步骤S33中生成的ASTNode进行左递归遍历，收集输入表、输出表、子查询、列集信息，最终获得“temp”表与HQL中输入表的字段血缘关系；当节点为以下几种类型的特殊节点时要进行相应的信息收集：当节点为TOK_TABREF类型时，获取其子节点所对应的表，将其加入输入表集合，并将子查询对象添加到子查询列表和子查询映射表中；当节点为TOK_SELEXPR类型时，若其子节点为TOK_ALLCOLREF,则代表查询输入表所有列，输入表可以从最新的子查询映射表中通过键值获取，将所有键关联的子查询的列集进行汇聚，作为目标表的列集，存到全局列集中，供父查询引用，若最新子查询列集为空，查看子查询键值所对应的...

【专利技术属性】
技术研发人员：卢薇，
申请(专利权)人：杭州比智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人