智能数据脱敏方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:25550976 阅读:65 留言:0更新日期:2020-09-08 18:50
本申请实施例属于数据处理技术领域,涉及一种智能数据脱敏方法,包括获取当前数据库中的总数据,切分总数据为单个的子数据,子数据的格式为由第一字段名和字段值组成的格式;根据第一测试模型确定是否存在与第一字段名匹配的第二字段名;在确定存在与第一字段名匹配的第二字段名时,调用第二字段名对应的脱敏方案,根据脱敏方案对子数据进行脱敏处理;在不存在匹配的第二字段名时,则根据第二测试模型确定子数据是否为敏感数据,在确定子数据为敏感数据时,对子数据进行脱敏处理。本申请提高了数据脱敏效率,有效地保证了信息数据的安全性。此外,本发明专利技术还涉及区块链技术,敏感数据可存储于区块链节点中。

【技术实现步骤摘要】
智能数据脱敏方法、装置、计算机设备及存储介质
本申请涉及数据处理
,尤其涉及智能数据脱敏方法、装置、计算机设备及存储介质。
技术介绍
随着信息技术行业的不断发展,无纸化办公、移动办公等技术已经逐渐普及,使用计算机、手机等设备开展工作、阅览信息、提交信息等已经成为人们在工作、生活过程中不可或缺的一部分。然而,信息技术在一方面给我们带来便利信息交换方式的同时,在另一方面,也不可避免地带来了很多的信息安全问题。在互联网应用中,有不少的信息都是相对敏感的信息,这些信息直接在网络中进行传输,很容易就会造成信息泄漏、隐私泄漏的问题。为了避免这些问题,可行的方法之一,就是数据脱敏。数据脱敏,指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的数据。目前数据脱敏,基本都是依靠人工规定哪些数据需要进行脱敏处理,以及定义好脱敏方式,目前的数据脱敏方案,一般都是在特定的场景下,通过人工识别并进行脱敏处理。在数据种类较多时,由于敏感数据识别效率低下,则进一步导致数据脱敏处理效率低下的技术问题。
技术实现思路
本申请实施例的目的在于提出一种智能数据脱敏方法、装置、计算机设备及存储介质,旨在解决数据脱敏效率低下的技术问题。为了解决上述技术问题,本申请实施例提供一种智能数据脱敏方法,采用了如下所述的技术方案:一种智能数据脱敏方法,包括以下步骤:获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。进一步的,所述根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值的步骤包括:根据所述第一测试模型,计算所述第一字段名与测试数据库中第二字段名的点互信息;根据所述点互信息确定所述第一字段名与所述第二字段名的含义匹配值。进一步的,所述根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名的步骤包括:获取预设阈值;确定所述含义匹配值是否不小于所述预设阈值,在确定所述含义匹配值不小于所述预设阈值时,确定所述测试数据库中存在与所述第一字段名匹配的第二字段名。进一步的,所述获取所述场景类别类下预设的第二测试模型的步骤之前,所述智能数据脱敏方法还包括:采集测试数据,获取所述测试数据对应的不同应用场景;在不同的所述应用场景下,根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型。进一步的,所述根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型的步骤包括:划分同一应用场景的测试数据为训练数据和验证数据;根据所述训练数据对基础训练模型进行训练;在达到预设训练次数后,通过所述验证数据对多次训练后的基础训练模型进行验证;若验证通过,则得到对应场景类别的第二测试模型。进一步的,所述划分同一应用场景的测试数据为训练数据和验证数据的步骤包括:构建K邻近模型;根据所述K邻近模型,划分同一应用场景的测试数据为训练数据和验证数据。进一步的,所述敏感数据存储在区块链中,所述在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理的步骤包括:识别所述子数据的字段名,确定所述子数据的字段名是否为主流数据;若所述子数据的字段名为主流数据,则根据所述字段名对应的预设脱敏方式对所述子数据进行脱敏处理;若所述子数据的字段名为非主流数据,获取所述子数据的字段值并进行类型识别,根据所述字段值的类型对应的预设脱敏方式对所述子数据进行脱敏处理。为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:一种智能数据脱敏装置,包括:切分模块,用于获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;判定模块,用于获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;第一脱敏模块,用于在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;第二脱敏模块,用于在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述智能数据脱敏方法的步骤。为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述智能数据脱敏方法的步骤。上述智能数据脱敏方法、装置、计算机设备及存储介质,通过获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式,以便根据该字段名和字段值对数据进行进一步的处理;而后获取预设的第一测试模型,该第一测试模型为检验模型,根据所述第一测试模型,可以确定预设的测试数据库中是否存在与所述第一字段名匹配的第二字段名,其中,该测试数据库为预先设定的数据库,其中存储了大量的敏感数据及其对应的脱敏方案;在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获本文档来自技高网...

【技术保护点】
1.一种智能数据脱敏方法,其特征在于,包括下述步骤:/n获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;/n获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;/n在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;/n在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。/n

【技术特征摘要】
1.一种智能数据脱敏方法,其特征在于,包括下述步骤:
获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;
获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;
在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;
在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。


2.根据权利要求1所述的智能数据脱敏方法,其特征在于,所述根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值的步骤包括:
根据所述第一测试模型,计算所述第一字段名与测试数据库中第二字段名的点互信息;
根据所述点互信息确定所述第一字段名与所述第二字段名的含义匹配值。


3.根据权利要求1所述的智能数据脱敏方法,其特征在于,所述根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名的步骤包括:
获取预设阈值;
确定所述含义匹配值是否不小于所述预设阈值,在确定所述含义匹配值不小于所述预设阈值时,确定所述测试数据库中存在与所述第一字段名匹配的第二字段名。


4.根据权利要求1所述的智能数据脱敏方法,其特征在于,所述获取所述场景类别类下预设的第二测试模型的步骤之前,所述智能数据脱敏方法还包括:
采集测试数据,获取所述测试数据对应的不同应用场景;
在不同的所述应用场景下,根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型。


5.根据权利要求4所述的智能数据脱敏方法,其特征在于,所述根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型的步骤包括:
划分同一应用场景的测试数据为训练数据和验证数据;
根据所述训练数据对基础训练模型进行训练;
在达到预设训练次数后,通过所述验证数...

【专利技术属性】
技术研发人员:温桂龙
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1