基于区块链的脱敏数据完整性检测方法及检测系统技术方案

技术编号:28464732 阅读:13 留言:0更新日期:2021-05-15 21:30
本发明专利技术公开了基于区块链的脱敏数据完整性检测方法及检测系统,包括对原始数据进行上链;使用编码算法对链上的敏感数据进行编码,并获得脱敏数据;对脱敏数据中的数据项进行分类,对各类数据项的编码进行标识;获取标识数量和类型,统计脱敏数据中不同类别的数据项的数量;将统计结果与原始数据进行数量比对,判断脱敏后数据的完整性。本发明专利技术解决了现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,为鉴定数据完整程度提供了充分依据;还实现了脱敏后的数据能够最大程度保留原始数据的格式,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。因为脱敏处理而受到影响。因为脱敏处理而受到影响。

【技术实现步骤摘要】
基于区块链的脱敏数据完整性检测方法及检测系统


[0001]本专利技术涉及数据脱敏领域,具体涉及基于区块链的脱敏数据完整性检测方法及检测系统。

技术介绍

[0002]对于数据处理和分析任务,往往涉及到的是敏感数据,如商业价值高的数据、个人隐私数据、个人医疗健康类数据、关系国家和公共安全的数据等。对于这些数据的处理和分析,一方面数据处理和分析的主体与数据源,即数据主权拥有者,通常是不同的;另一方面,即使数据处理和分析主体与数据主权拥有者是相同的主体,但因为数据处理和分析过程涉及到不同的环节和任务,而这些环节可能是由不同的生产商和供应商提供,其产品和服务和安全性、安全级别也很难完全得到保证。
[0003]为了解决上述问题,现有技术中通常在数据处理和分析前对数据进行脱敏处理,将其中一些敏感类的信息去除或进行某种变换,但是现有的脱敏处理方式难以客观保留原始数据的格式,难以保证处理和分析任务结果的真实性和准确性,并且现有技术中在数据脱敏后,也无法对其相较于脱敏前的完整程度进行评价判断。

技术实现思路

[0004]本专利技术提供基于区块链的脱敏数据完整性检测方法及检测系统,解决的技术问题之一是现有技术中无法对脱敏后数据的完整程度进行评价判断,实现对脱敏数据的完整性进行有效检测的目的。
[0005]本专利技术通过下述技术方案实现:
[0006]基于区块链的脱敏数据完整性检测方法,包括:
[0007]S1、将原始数据上链;
[0008]S2、编码链上的敏感数据,获得脱敏数据;r/>[0009]S3、将脱敏数据中的数据项分类,标识各类数据项的编码;
[0010]S4、获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;
[0011]S5、比对统计结果与原始数据的数量,基于比对结果判断脱敏后数据的完整性。
[0012]针对现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,本专利技术首先提出一种基于区块链的脱敏数据完整性检测方法,本方法的原理包括:首先对原始数据进行上链,基于区块链的不可伪造、全程留痕、可以追溯、公开透明、集体维护等特征,保证原始数据的不可篡改和准确性;之后通过编码算法对敏感数据进行脱敏处理,得到脱敏数据。本方法中对脱敏数据中的数据项进行分类,根据不同类别的数据项对编码进行不同的标识;之后获取标识数量和类型,其获取方法可通过插入标识获取工具取得,根据获取标识的数量统计脱敏数据中不同类别的数据项的数量;最后将统计结果与原始数据进行数量比对,即可判断脱敏后数据的完整性。本方法解决了现有技术中无法对脱敏后数据的完整程度进行评价判断的问题,为鉴定数据完整程度提供了充分依据。
[0013]进一步的,步骤S2中对链上敏感数据编码的方法包括:定义原始数据中各数据项的格式串类型,针对不同格式串类型指定不同脱敏规则。不同格式串类型,其敏感信息不同、需要进行脱敏处理的位置及方式均会存在差异,而现有技术中的方法忽略了这种差异性,这是导致现有的脱敏处理方式难以客观保留原始数据格式的主要问题。为此,本方案根据数据格式和属性类别的不同,定义不同的脱敏规则,使得在脱敏后数据格式保持不变的前提下,能够尽可能保留数据本身的特性和属性,从而不会由于脱敏而影响数据分析和处理的准确性、完整性、真实性,使得数据处理和分析任务的结果不因为脱敏处理而受到影响。
[0014]进一步的,所述格式串类型包括日期型、纯数字型、纯字符串型、无格式数据流型中的一种或多种;
[0015]对于日期型格式串,脱敏规则为:将日期中具体的月和/或日信息进行脱敏处理;
[0016]对于纯数字型格式串,脱敏规则为:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;
[0017]对于纯字符串型格式串,脱敏规则为:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;
[0018]对于无格式数据流型格式串,脱敏规则为:将编码处理成规整的长度统一的字符串数据项。
[0019]本方案对格式串类型的脱敏规则进行了进一步限定,在不降低数据项有效性、完整性和具体意义的前提下,提取其格式模式串,并进行不同数据类型的脱敏处理,实现脱敏后的数据能够最大程度保留原始数据的格式的效果。
[0020]进一步的,所述机构名称中的实体信息,为机构名称中排除地域和后缀后的有效信息;所述实体信息中的局部,为1/3的有效信息。即是当纯字符串型格式串为机构名称时,识别出机构名称中不包括地域名(比如某某省、某某市)和后缀(比如有限公司)中的实体信息,并对其中1/3的有效信息进行脱敏处理,此处的脱敏处理优选为使用占位符代替。
[0021]进一步的,步骤S3中,所述标识设置在编码尾部,便于对标识数量和类型的统计识别。
[0022]进一步的,步骤S5中的比对方法包括:
[0023]S501、获取脱敏数据中标识量最大的数据项,与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,进入步骤S502;
[0024]S502、对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;
[0025]S503、将所有的偏离值与原始数据总量进行对比,计算偏离占比;
[0026]S504、将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。
[0027]本方法首先将脱敏数据中标识量最大的数据项与原始数据对应的数据项的总量进行对比,以该对比结果作为判断前提,此种前提设置方式以标识量最大、理论偏离值相对
较大的的数据项作为完整性检测的第一步,若对比结果不一致,数据的整体完整性必然不足,数据必然缺失,因此能够直接认定完整性不符合要求,以此显著降低比对过程的计算量,提高比对效率。若对比结果一致,此时还不能确定脱敏后数据完整,继续进入后续步骤:对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;将所有的偏离值与原始数据总量进行对比,计算偏离占比;将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离阈值,则判定数据完整性为缺失;若偏离占比在预设偏离阈值内,则认为数据完整性满足要求。其中偏离阈值由本领域技术人员根据具体应用环境进行适应性设置即可。
[0028]如前所述的基于区块链的脱敏数据完整性检测方法,用于鉴别交易信息的完整性。本申请的检测方法最为适用于交易信息脱敏处理后的完整性检测,由于模型相似度高,可通过本方法去检测链上存储的交易信息是否完整,认定存储的交易信息必须包括日期、数字、字符和内容,检测存储交易信息中是否含有所有的特征,即为判定交易信息是否完整的依据。通过建立脱敏数据模型的方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于区块链的脱敏数据完整性检测方法,其特征在于,包括:S1、将原始数据上链;S2、编码链上的敏感数据,获得脱敏数据;S3、将脱敏数据中的数据项分类,标识各类数据项的编码;S4、获取标识数量和类型,统计脱敏数据中不同类别的数据项,获得统计结果;S5、比对统计结果与原始数据的数量,基于比对结果判断脱敏后数据的完整性。2.根据权利要求1所述的基于区块链的脱敏数据完整性检测方法,其特征在于,步骤S2中编码的方法包括:定义原始数据中各数据项的格式串类型,针对不同格式串类型指定不同脱敏规则。3.根据权利要求2所述的基于区块链的脱敏数据完整性检测方法,其特征在于,所述格式串类型包括日期型、纯数字型、纯字符串型、无格式数据流型中的一种或多种;对于日期型格式串,脱敏规则为:将日期中具体的月和/或日信息进行脱敏处理;对于纯数字型格式串,脱敏规则为:将数字中的低位设置为0;或,将数字与个人姓名/机构名称作为联合脱敏单元,对个人姓名/机构名称进行脱敏;对于纯字符串型格式串,脱敏规则为:识别字符串属于个人姓名或机构名称或其它:如果字符串是个人姓名,则对最后一个字进行脱敏处理;如果字符串是机构名称,则识别出机构名称中的实体信息,对实体信息中的局部进行脱敏处理;如果字符串是其它,则不进行脱敏处理;对于无格式数据流型格式串,脱敏规则为:将编码处理成规整的长度统一的字符串数据项。4.根据权利要求3所述的基于区块链的脱敏数据完整性检测方法,其特征在于,所述机构名称中的实体信息,为机构名称中排除地域和后缀后的有效信息;所述实体信息中的局部,为1/3的有效信息。5.根据权利要求1所述的基于区块链的脱敏数据完整性检测方法,其特征在于,步骤S3中,所述标识设置在编码尾部。6.根据权利要求1所述的基于区块链的脱敏数据完整性检测方法,其特征在于,步骤S5中的比对方法包括:S501、获取脱敏数据中标识量最大的数据项,与原始数据中对应数据项的数据总量进行对比:若对比结果不一致,认定数据缺失,完整性不符合要求;若对比结果一致,进入步骤S502;S502、对脱敏数据中各类数据项的标识进行两两对比,获得脱敏数据中每类数据项的偏离值;S503、将所有的偏离值与原始数据总量进行对比,计算偏离占比;S504、将偏离占比与预设偏离阈值进行对比:若偏离占比超出预设偏离...

【专利技术属性】
技术研发人员:洪薇洪健李京昆刘文思
申请(专利权)人:湖北宸威玺链信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1