用于数据标注过程中的信息脱敏方法、装置及设备制造方法及图纸

技术编号:38210478 阅读:8 留言:0更新日期:2023-07-21 17:01
本申请公开了用于数据标注过程中的信息脱敏方法、装置及设备,方法包括:获取待标注的图像数据;基于预置脱敏规则,采用预设识别算法识别图像数据中的敏感信息,得到待脱敏信息,预设识别算法基于深度学习算法配置得到;对待脱敏信息进行加密马赛克处理,得到加密脱敏图像,加密脱敏图像包括脱敏信息。不论述标注人员还是信息被截取,只有拿到加密密钥才能够看到原始图像数据中的敏感信息,通过双重处理提高了数据的安全性。因此,本申请能够解决现有技术无法避免数据标注过程存在敏感信息泄露的风险的技术问题。泄露的风险的技术问题。泄露的风险的技术问题。

【技术实现步骤摘要】
用于数据标注过程中的信息脱敏方法、装置及设备


[0001]本申请涉及图像处理
,尤其涉及用于数据标注过程中的信息脱敏方法、装置及设备。

技术介绍

[0002]在人工智能领域,大量的训练数据是进行深度学习的前提,数据的质量也决定了算法模型的上限。而训练数据的产生离不开数据标注,数据标注作为机器学习工程中重要的一环,是构建人工智能应用的重要底座。在实际的数据标注业务过程中,通常会遇到某些细分领域不能使用开放数据集的问题。这就要求自己构建训练数据集,或内部人员自己标注构建,或雇佣外包团队进行标注构建。如果采用外包的形式,就需要将原始图像数据呈现给外部人员进行标注,这样则会存在敏感数据泄漏的风险。例如:在特定业务应用的场景中,视频流中的一帧图像会包含图像内容、拍摄地点、设备信息、人员等信息,对于图像内容中的拍摄地点、设备信息需要执行严格保密。
[0003]所以现有的数据标注过程中,通常会采用访问控制、STS临时权限、Referer防盗链、Fawkes加扰等方式解决数据安全问题。但是这些方法均是针对原始数据的重保机制,标注人员在客户端仍然可以看到原始图像数据的敏感信息,无法可靠的避免敏感信息的外泄,更不能规避信息被截取造成的信息外漏的风险。

技术实现思路

[0004]本申请提供了用于数据标注过程中的信息脱敏方法、装置及设备,用于解决现有技术无法避免数据标注过程存在敏感信息泄露的风险的技术问题。
[0005]有鉴于此,本申请第一方面提供了用于数据标注过程中的信息脱敏方法,包括:
[0006]获取待标注的图像数据;
[0007]基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,得到待脱敏信息,所述预设识别算法基于深度学习算法配置得到;
[0008]对所述待脱敏信息进行加密马赛克处理,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息。
[0009]优选地,所述基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,得到待脱敏信息,包括:
[0010]基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,并在所述图像数据中提取所述敏感信息对应的ROI,得到待脱敏信息;
[0011]所述所述预设识别算法基于深度学习算法配置得到,所述待脱敏信息包括ROI边框。
[0012]优选地,所述基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,得到待脱敏信息,所述预设识别算法基于深度学习算法配置得到,之前还包括:
[0013]基于图像数据的业务场景和数据特性配置多种脱敏规则,得到预置脱敏规则。
[0014]优选地,所述对所述待脱敏信息进行加密马赛克处理,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息,包括:
[0015]通过预设密钥对所述待脱敏信息进行加密处理,得到加密信息;
[0016]将所述加密信息区域的像素值进行位移处理后,嵌入马赛克块,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息。
[0017]优选地,所述对所述待脱敏信息进行加密马赛克处理,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息,之后还包括:
[0018]基于所述预设密钥对所述加密脱敏图像进行解密处理,得到脱敏图像;
[0019]根据马赛克处理原理将所述脱敏图像复原,得到原始图像数据。
[0020]本申请第二方面提供了用于数据标注过程中的信息脱敏装置,包括:
[0021]获取单元,用于获取待标注的图像数据;
[0022]识别单元,用于基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,得到待脱敏信息,所述预设识别算法基于深度学习算法配置得到;
[0023]脱敏单元,用于对所述待脱敏信息进行加密马赛克处理,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息。
[0024]优选地,还包括:
[0025]规则配置单元,用于基于图像数据的业务场景和数据特性配置多种脱敏规则,得到预置脱敏规则。
[0026]优选地,所述脱敏单元,包括:
[0027]加密子单元,用于通过预设密钥对所述待脱敏信息进行加密处理,得到加密信息;
[0028]脱敏子单元,用于将所述加密信息区域的像素值进行位移处理后,嵌入马赛克块,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息。
[0029]优选地,还包括:
[0030]解密单元,用于基于所述预设密钥对所述加密脱敏图像进行解密处理,得到脱敏图像;
[0031]复原单元,用于根据马赛克处理原理将所述脱敏图像复原,得到原始图像数据。
[0032]本申请第三方面提供了用于数据标注过程中的信息脱敏设备,所述设备包括处理器以及存储器;
[0033]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0034]所述处理器用于根据所述程序代码中的指令执行第一方面所述的用于数据标注过程中的信息脱敏方法。
[0035]从以上技术方案可以看出,本申请实施例具有以下优点:
[0036]本申请中,提供了用于数据标注过程中的信息脱敏方法,包括:获取待标注的图像数据;基于预置脱敏规则,采用预设识别算法识别图像数据中的敏感信息,得到待脱敏信息,预设识别算法基于深度学习算法配置得到;对待脱敏信息进行加密马赛克处理,得到加密脱敏图像,加密脱敏图像包括脱敏信息。
[0037]本申请提供的用于数据标注过程中的信息脱敏方法,采用预置脱敏规则和特定识别算法对图像数据中的敏感信息进行提取,然后对特定的敏感信息区域进行加密马赛克处理;得到的加密脱敏图像不仅完成了信息脱敏,还进行了加密处理;这样不论述标注人员还
是信息被截取,只有拿到加密密钥才能够看到原始图像数据中的敏感信息,通过双重处理提高了数据的安全性。因此,本申请能够解决现有技术无法避免数据标注过程存在敏感信息泄露的风险的技术问题。
附图说明
[0038]图1为本申请实施例提供的用于数据标注过程中的信息脱敏方法的流程示意图;
[0039]图2为本申请实施例提供的用于数据标注过程中的信息脱敏装置的结构示意图。
具体实施方式
[0040]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041]为了便于理解,请参阅图1,本申请提供的用于数据标注过程中的信息脱敏方法的实施例,包括:
[0042]步骤101、获取待标注的图像数据。
[0043]待标注的图像数据可能来自多种不同的业务场景,图像数据中可以包括且不仅限于文本信息、数字字符、人脸、车牌、建筑物等,不同的信息在不同的业务场景中有可能是敏感信息,也可能不是,具体可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于数据标注过程中的信息脱敏方法,其特征在于,包括:获取待标注的图像数据;基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,得到待脱敏信息,所述预设识别算法基于深度学习算法配置得到;对所述待脱敏信息进行加密马赛克处理,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息。2.根据权利要求1所述的用于数据标注过程中的信息脱敏方法,其特征在于,所述基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,得到待脱敏信息,包括:基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,并在所述图像数据中提取所述敏感信息对应的ROI,得到待脱敏信息;所述所述预设识别算法基于深度学习算法配置得到,所述待脱敏信息包括ROI边框。3.根据权利要求1所述的用于数据标注过程中的信息脱敏方法,其特征在于,所述基于预置脱敏规则,采用预设识别算法识别所述图像数据中的敏感信息,得到待脱敏信息,所述预设识别算法基于深度学习算法配置得到,之前还包括:基于图像数据的业务场景和数据特性配置多种脱敏规则,得到预置脱敏规则。4.根据权利要求1所述的用于数据标注过程中的信息脱敏方法,其特征在于,所述对所述待脱敏信息进行加密马赛克处理,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息,包括:通过预设密钥对所述待脱敏信息进行加密处理,得到加密信息;将所述加密信息区域的像素值进行位移处理后,嵌入马赛克块,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息。5.根据权利要求4所述的用于数据标注过程中的信息脱敏方法,其特征在于,所述对所述待脱敏信息进行加密马赛克处理,得到加密脱敏图像,所述加密脱敏图像包括脱敏信息,之后还包括...

【专利技术属性】
技术研发人员:臧出强
申请(专利权)人:天翼数字生活科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1