一种非文本数据的脱敏方法、装置及存储介质制造方法及图纸

技术编号：36372902 阅读：62 留言：0更新日期：2023-01-18 09:31

本发明专利技术实施例公开一种非文本数据的脱敏方法、装置及存储介质，方法包括：对非文本类型的非结构化数据进行转换，得到非结构化的文本数据；基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和/或词级校验，根据每一校验结果的预警信息，对预警信息所属区域的文本进行修正，获取修正后的正确的文本数据；采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息，并对捕获的敏感信息进行脱敏处理，得到脱敏后的文本数据；将脱敏后的文本数据还原为原始类型的非结构化数据。上述方法在脱敏之前可保证文本数据的准确性，进而节约了数据处理时间和使得后续敏感数据识别更准确，保证了数据的安全性。保证了数据的安全性。保证了数据的安全性。

全部详细技术资料下载

【技术实现步骤摘要】
一种非文本数据的脱敏方法、装置及存储介质

[0001]本专利技术实施例涉及数据安全
，具体涉及一种非文本数据的脱敏方法、装置及存储介质。

技术介绍

[0002]目前，数据脱敏技术与产品在数据保护市场的份额飞速增长，应用领域不断扩大，在处理对象、应用场景、脱敏算法、脱敏能力及脱敏性能等多个方面有了长足进步，逐步满足市场需求。然而，现阶段的数据脱敏技术及产品大多针对结构化数据，而面对非结构化数据时，脱敏性能大多难以令人满意。
[0003]另外，在数据脱敏实践方面，目前国内重点行业企业已意识到数据安全的重要性，但在数据采集、传输、存储、处理、交换共享等环节，存在未进行有效的数据脱敏、直接使用原始敏感数据等现象。
[0004]在脱敏技术方面，企业使用的数据脱敏工具虽然具备一定的数据脱敏功能，但在技术细节方面仍有不足。一方面，内置的数据脱敏算法较为单一，大多仅支持结构化数据的脱敏，难以解决非结构化数据脱敏的问题，无法满足多种场景下多类型工业数据脱敏后的开发和测试使用；另一方面，非结构化数据脱敏的常见解决思路之一是...

【技术保护点】

【技术特征摘要】
1.一种非文本数据的脱敏方法，其特征在于，包括：S1、对非文本类型的非结构化数据进行转换，得到非结构化的文本数据；S2、基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和/或词级校验，根据每一校验结果的预警信息，对预警信息所属区域的文本进行修正，获取修正后的正确的文本数据；S3、采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息，并对捕获的敏感信息进行脱敏处理，得到脱敏后的文本数据；S4、将脱敏后的文本数据还原为原始类型的非结构化数据。2.根据权利要求1所述的非文本数据的脱敏方法，其特征在于，所述非文本类型的非结构化数据包括下述的一项或多项：音频格式的数据、图片类型的数据、视频格式的数据；所述S1包括：针对音频格式的数据，采用CTCloss将音频格式的数据转化为非结构化的文本数据；针对图片类型的数据，采用OCR将图片格式的数据转化为非结构化的文本数据；针对视频格式的数据，将视频格式的数据逐帧转化为图片数据，并利用矩阵相似性，筛选出不重复的图片数据；采用OCR将图片数据转化为非结构化的文本数据。3.根据权利要求2所述的非文本数据的脱敏方法，其特征在于，所述将视频格式的数据逐帧转化为图片数据，并利用矩阵相似性，筛选出不重复的图片数据，包括：对于连续的两帧图片P1和P2，计算该每一帧图片中每个像素点的RGB均值，得到对应图片P1的m*n维的三原色均值矩阵M1和对应图片P2的m*n维的三原色均值矩阵M2；获取M1和M2的行特征相似度，计算M1和M2每一行的均值及方差，得到2m*1维度的行特征R1和R2，计算R1和R2的余弦值，若余弦值大于第一预设数值，则认为P1和P2的行相似；获取M1和M2的列特征相似度，计算M1和M2每一列的均值及方差，得到1*2n维度的列特征C1和C2，计算C1和C2的余弦值，若余弦值大于第二预设数值，则认为两帧图片列相似；若P1和P2的行相似且列相似，则确定P1和P2为重复图片。4.根据权利要求1所述的非文本数据的脱敏方法，其特征在于，所述S2之前，还包括：构建文本准确度评估模型；具体地，构建文本准确度评估模型包括：获取非文本类型的非结构化数据所属的行业属性；获取基础语料库，同时根据所述行业属性，获取与行业属性对应的行业语料库、行业知识库组成建模语料库的正例，将历史时间段内转化识别错误的文本数据作为建模语料库的反例；以及反例中对应的错误词语，构建对应行业属性的常见错词库；基于BERT构建所述行业属性对应的语句校验模型；将所述建模语料库、常见错词库和语句校验模型组成所述文本准确度评估模型。5.根据权利要求4所述的非文本数据的脱敏方法，其特征在于，所述S2包括：根据所述建模语料库，采用语句校验模型对所述非结构化的文本数据进行句级校验，若句级校验通过，则直接得到正确的文本数据；若句级校验未通过，得到句级校验的至少一个预警信息，则对预警信息所属的错误语
句进行分词处理，并基于常见错词库，对分词处理的各词语进行词级校验，定...

【专利技术属性】
技术研发人员：支晓繁，薛利，支文纲，赵博，赵慧婷，申震，
申请(专利权)人：上海期货信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人