【技术实现步骤摘要】
基于隐写技术的数据处理方法及装置
本说明书涉及数据处理
,尤其涉及一种基于隐写技术的数据处理方法及装置。
技术介绍
随着互联网技术的迅猛发展,AI(ArtificialIntelligence,人工智能)模型的安全性越来越受到重视。在一些场景中,如隐私数据保护、AI模型保护等场景,需要对AI模型的训练样本进行预处理,以实现保护隐私数据、保护AI模型、攻击AI模型等目的。对AI模型的训练样本进行预处理时,通常采用以下两种方式:一种是通过修改样本数据的标签以达到攻击AI模型的目的,这种方式简单易操作,但由于样本数据的错误标签很容易被识别到,因此对AI模型的攻击效果不佳。另一种是直接修改样本数据,从而将特定数据(如后门、敏感数据等)埋入模型中。这种方式虽然不修改样本数据标签,但由于是直接加在样本数据上的,因此效果很难控制,且加入的特定数据较多时也容易被发现。为此,需要提供一种对AI模型的训练样本的处理效果更佳、处理机制更不易被发现的技术方案。
技术实现思路
一方面,本说明书一个或多个实施例提供一种 ...
【技术保护点】
1.一种基于隐写技术的数据处理方法,包括:/n获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;/n从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;/n确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据;/n对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。/n
【技术特征摘要】
1.一种基于隐写技术的数据处理方法,包括:
获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;
从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;
确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据;
对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
2.根据权利要求1所述的方法,所述对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据之后,还包括:
利用所述第二样本数据替换所述第一样本数据集中的所述第一样本数据,得到携带有所述目标隐写对象的第二样本数据集;
利用所述第二样本数据集训练所述指定模型。
3.根据权利要求1所述的方法,所述指定模型包括:用于将各所述样本数据划分为至少一种数据类别的分类模型;
所述确定所述第一样本数据对应的目标隐写对象,包括:
确定所述第一样本数据对应的第一期望数据类别;
根据预设的各隐写对象与期望数据类别之间的对应关系,确定所述第一期望数据类别对应的所述目标隐写对象。
4.根据权利要求1所述的方法,所述将所述目标隐写对象写入所述第一中间数据对应的指定域空间内之前,还包括:
判断所述目标隐写对象是否位于所述指定域上;
若是,则执行将所述目标隐写对象写入所述第一中间数据对应的指定域空间内的步骤;
若否,则对所述目标隐写对象进行所述指定域上的所述第一域变换,得到所述指定域上的所述目标隐写对象。
5.根据权利要求1所述的方法,所述目标隐写对象包括:对用户隐私数据进行所述第一域变换后得到的指定域隐私数据;
所述对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据之后,还包括:
对所述第二样本数据进行所述指定域上的所述第一域变换,得到所述第二中间数据;
确定所述指定域隐私数据在所述第二中间数据中的写入位置,基于所述写入位置提取所述指定域隐私数据;
对所述指定域隐私数据进行所述指定域上的所述第二域变换,得到所述用户隐私数据。
6.根据权利要求1所述的方法,所述将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,包括:
根据所述第一中间数据在所述指定域上的域频率,确定所述第一中间数据中的高频数据;所述高频数据为所述域频率高于预设阈值的数据;
将所述目标隐写对象写入所述高频数据对应的所述指定域空间内。
7.根据权利要求1所述的方法,所述从所述第一样本数据集中确定待处理的第一样本数据,包括:
按照预设的采样规则,从所述第一样本数据集中筛选出至少一个所述第一样本数据;所述采样规则包括按照预设的采样频率和/或采样数量对相同类别的样本数据进行采样;所述采样频率和/或采样数量与所述第一样本数据集对应的隐写程度之间正相关。
8.根据权利要求1所述的方法,所述指定域为频域;所述第一域变换包括小波变换、快速傅里叶变换、离散余弦变换中的至少一项。
9.根据权利要求1所述的方法,所述样本数据包括图像数据、文本数据、多媒体数据中的至少一项。
10.一种基于隐写技术的数据处理装置,包括:
获取模块,获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;
第一变换模块,从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;
确定...
【专利技术属性】
技术研发人员:宗志远,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。