一种数据脱敏的方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：22056158 阅读：28 留言：0更新日期：2019-09-07 15:34

本发明专利技术提供了一种数据脱敏的方法、装置、存储介质及计算机设备，其中，该方法包括：建立脱敏模型，脱敏模型的输入为字段和与字段相应的数据，输出为数据的脱敏规则；确定待脱敏数据以及与待脱敏数据相应的待脱敏字段，将待脱敏数据和待脱敏字段作为脱敏模型的输入，确定待脱敏数据的脱敏规则；根据确定的待脱敏数据的脱敏规则对待脱敏数据进行脱敏处理。该方法基于数据和字段两个维度来确定待脱敏数据的脱敏规则，可以使得确定脱敏规则的结果更加准确；且该方法适用于确定数据库中的大量数据的脱敏规则，可以省去人工去逐条设置脱敏规则的繁琐工作，在提高数据脱敏效率的同时，还可以节约人力成本。

A Data Desensitization Method, Device, Storage Media and Computer Equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种数据脱敏的方法、装置、存储介质及计算机设备
本专利技术涉及数据脱敏
，特别涉及一种数据脱敏的方法、装置、存储介质及计算机设备。
技术介绍
敏感信息一般指涉及隐私权的信息，包括财产信息、健康生理信息、生物识别信息、身份信息和网络身份标识信息等，比如，身份证号、银行卡号、电话号码、网页浏览记录、行踪轨迹等。由于敏感信息可能涉及用户或其他主体的隐私信息，故需要采用数据安全防护手段防止数据泄露，一般采用数据脱敏、或加密的方法保护数据的隐私性和安全性。例如，可以利用掩码脱敏的方法将11位的手机号码修改为“135xxxx6789”，其中的四位数“xxxx”即为隐去的信息。目前存在多种脱敏方法，而不同类型的敏感数据可能适用于不同的脱敏方法，且按照业务需求、同类型数据的脱敏方法也可能存在不同。当前在选择脱敏方法时，主要依赖操作人员手工设定，过程较为繁琐；同时还需要根据业务实际需要与管控内部要求共同协商制定，许多字段的规则无法简单复用，但若按逐个确认又十分消耗人力与时间。
技术实现思路
为解决现有技术中存在问题，本专利技术提供一种数据脱敏的方法、装置、存储介质及计算机设备。根据本专利技术的第一个方面，提供一种数据脱敏的方法，包括：建立脱敏模型，所述脱敏模型的输入为字段和与所述字段相应的数据，输出为所述数据的脱敏规则；确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段，将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏数据的脱敏规则；根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。根据本专利技术的第二个方面，提供一种数据脱敏的装置，包括：...

【技术保护点】
1.一种数据脱敏的方法，其特征在于，包括：建立脱敏模型，所述脱敏模型的输入为字段和与所述字段相应的数据，输出为所述数据的脱敏规则；确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段，将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏数据的脱敏规则；根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。

【技术特征摘要】
1.一种数据脱敏的方法，其特征在于，包括：建立脱敏模型，所述脱敏模型的输入为字段和与所述字段相应的数据，输出为所述数据的脱敏规则；确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段，将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入，确定所述待脱敏数据的脱敏规则；根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。2.根据权利要求1所述的方法，其特征在于，所述建立脱敏模型包括：获取样本集，所述样本集包括样本字段、与所述样本字段相对应的一个或多个样本数据以及每个样本数据的预设脱敏规则；将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入、将所述样本数据的预设脱敏规则作为所述脱敏模型的输出，对所述脱敏模型进行训练，确定训练后的脱敏模型；根据测试集对训练后的所述脱敏模型进行测试，在所述脱敏模型通过测试时，将训练后的所述脱敏模型作为最终建立的脱敏模型。3.根据权利要求2所述的方法，其特征在于，所述将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入包括：根据预设脱敏规则中的规则信息对相应的样本数据进行分段处理，确定每段的样本子数据，所述预设脱敏规则的规则信息包括脱敏位置和脱敏位数；根据所述样本数据生成数据总特征向量，并根据每段的所述样本子数据生成相应的数据子特征向量，将所述数据总特征数据向量和所有的所述数据子特征向量作为脱敏模型的输入。4.根据权利要求2所述的方法，其特征在于，所述将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入包括：分别对样本集中的所述样本字段进行分词处理，确定每个所述样本字段的分词；将所有所述样本字段的分词作为分词集合，确定所述样本字段每个分词在所述分词集合中的词频；根据分词的词频生成所述样本字段的字段特征向量，并将所述字段特征向量作为脱敏模型的输入。5.根据权利要求4所述的方法，其特征在于，所述将所有所述样本字段的分词作为分词集合，确定所述样本字段每个分词在所述分词集合中的词频，包括：分别确定所述样本集中每个所述样本字段所对应的样本数据的数量ωi，ωi表示第i个样本字段所对应的样本数量，i∈[1,n]，n为所述样本集中的样本字段的数量；将ωi作为所述样本字段中的每个分词的数量...

【专利技术属性】
技术研发人员：许超俊，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人