用于图像去标识的系统和方法技术方案

技术编号:24693953 阅读:93 留言:0更新日期:2020-06-27 12:46
用于训练人类感知预测器以确定数据样本之间的被感知的相似性程度的系统和方法,该方法包括:接收至少一个媒体文件,为每个媒体文件确定至少一个识别区域,对每个媒体文件的每个识别区域应用至少一种变换,直到创建了至少一个修改的媒体文件,接收关于每个修改的媒体文件和相应的所接收的媒体文件之间的相似性的输入,以及用目标函数训练机器学习模型,该目标函数被配置成根据接收的输入来预测被人类观察者感知的媒体文件之间的相似性。

System and method for image de identification

【技术实现步骤摘要】
【国外来华专利技术】用于图像去标识的系统和方法专利
本专利技术大体上涉及计算机视觉和图像处理的领域。更具体地,本专利技术涉及用于合成和/或修改图像中特征以限制分类器算法识别的系统和方法。专利技术背景近年来,互联网通信和社交媒体的使用有所增长。许多图片和视频被上传到公共服务器并允许公众访问,无论是否被有意发布。同时,图像处理和分析技术提供简单的面部识别和标识,从而使得能够使用这种公共媒体(例如,图片和视频)来识别并通常有可能跟踪任何期望的个体。此外,个人属性(诸如年龄、健康状况和性偏好)被广泛认为是应该受到保护的私人信息,然而随着机器学习算法的最近进展,已经证明通过机器从肖像图像估计这种个人信息是可能的。随着面部图像在社交网络和互联网通信中的扩散,这些个人细节已经变得在人们没有分享意图的情况下可获得。已知有各种技术用于实现图像的发布,同时限制在发布的图像中识别个人的能力。这些技术使公司能够在保护偶然出现在画面中的人的隐私的同时发布图像,或者允许个人隐私地发布他们的图片。US2011/0123118描述了用于在图像中交换面部的方法、系统和介本文档来自技高网...

【技术保护点】
1.一种训练人类感知预测器以确定数据样本之间的被感知的相似性程度的方法,所述方法包括:/n接收至少一个媒体文件;/n为每个媒体文件确定至少一个识别区域;/n对每个媒体文件的每个识别区域应用至少一种变换,直到创建了至少一个修改的媒体文件;/n接收关于每个修改的媒体文件与相应的所接收的媒体文件之间的相似性的输入;以及/n用目标函数来训练机器学习模型,所述目标函数被配置成根据所接收的输入来预测被人类观察者感知的媒体文件之间的相似性。/n

【技术特征摘要】
【国外来华专利技术】20170604 IL 252657;20180125 US 62/621,7231.一种训练人类感知预测器以确定数据样本之间的被感知的相似性程度的方法,所述方法包括:
接收至少一个媒体文件;
为每个媒体文件确定至少一个识别区域;
对每个媒体文件的每个识别区域应用至少一种变换,直到创建了至少一个修改的媒体文件;
接收关于每个修改的媒体文件与相应的所接收的媒体文件之间的相似性的输入;以及
用目标函数来训练机器学习模型,所述目标函数被配置成根据所接收的输入来预测被人类观察者感知的媒体文件之间的相似性。


2.根据权利要求1所述的方法,其中,所应用的变换导致至少一个分类器针对相应的所接收的媒体文件的置信度值的降低。


3.根据权利要求1所述的方法,其中,所述媒体文件包括图像。


4.根据权利要求1所述的方法,还包括:
接收新的媒体文件;
为所述新的媒体文件确定至少一个新的识别区域;
将所述新的识别区域转换成特征向量;
根据训练的机器学习模型来在所述特征向量上应用至少一种变换;以及
通过重建变换的特征向量来生成合成媒体文件。


5.根据权利要求4所述的方法,还包括:
在识别区域的数据集上训练参数模型,以在给定一组参数的情况下合成媒体文件;
获得表示所接收的至少一个媒体文件中描绘的选定的识别区域的参数;以及
修改所述参数以表示所述识别区域的修改版本,从而保持与所接收的至少一个媒体文件的识别区域的相似度,同时将所述至少一个分类器的识别分数降低至预定义的阈值以下。


6.根据权利要求1所述的方法,其中,所述媒体文件包括具有多个像素的图像,并且其中在平衡所述媒体文件中每个像素的修改与相邻像素的相应修改的同时保持识别区域的有效性。


7.根据权利要求1所述的方法,其中,根据几何结构相似性、纹理相似性和身份相似性中的至少一个来确定媒体文件的相似性。


8.根据权利要求1所述的方法,还包括向一组用户显示每个合成的媒体文件,其中所接收的输入是从该组用户接收的。


9.一种合成媒体文件的方法,所述方法包括:
接收媒体文件;
为接收的媒体文件确定至少一个识别区域;
修改所述至少一个识别区域;
在修改的识别区域上应用至少一种变换;以及
通过重建变换的识别区域来生成合成媒体文件,
其中所应用的变换导致至少一个分类器针对相应的接收的媒体文件的置信度值的降低,并且其中所生成的合成媒体文件被人类感知的模拟器确定为与接收的图像文件相似。


10.根据权利要求9所述的方法,还包括将所述至少一个识别区域转换成特征向量。


11.根据权利要求9所述的方法,其中,修改所述至少一个识别区域包括将所述至少一个识别区域转换成特征向量,其中从所述特征向量重建所述合成媒体文件。


12.根据权利要求9所述的方法,其中,所述合成媒体文件是根据置信度值降低的至少一个参数和与相应的接收的媒体文件的相似性的至少一个参数生成的。


13.根据权利要求9所述的方法,还包括:
在识别区域的数据集上训练参数模型,以在给定一组参数的情况下合成媒体文件;
获得表示所接收的至少一个媒体文件中描绘的选定的识别区域的参数;以及
修改所述参数以表示识别区域的修改版本,从而保持与所接收的至少一个媒体文件的识别区域的相似度,同时将所述至少一个分类器的识别分数降低至预定义的阈值以下。


14.根据权利要求9所述的方法,还包括:
在识别区域的数据集上优化参数模型,以在给定一组参数的情况下合成媒体文件;
获得表示所接收的至少一个媒体文件中描绘的选定的识别区域的参数;以及
修改所述参数以表示识别区域的修改版本,从而保持与所接收的至少一个媒体文件的识别区域的相似度,同时将所述至少一个分类器的识别分数降低至预定义的阈值以下。


15.根据权利要求9所述的方法,其中,所述人类感知的模拟器包括通过以下方式训练的机器学习模型:
接收至少一个媒体文件;
为每个媒体文件确定至少一个识别区域;
对每个媒体文件的每个识别区域应用至少一种变换,直到创建了至少一个修改的媒体文件;
接收关于每个修改的媒体文件与相应的接收的媒体文件之间的相似性的输入;以及
用目标函数来训练机器学习模型,所述目标函数被配置成根据接收的输入来预测被人类观察者感知的媒体文件之间的相似性。


16.一种用于训练人类感知预测器以确定数据样本之间相似性的程度的系统,所述系统包括:
识别区域的数据集;
至少一个处理器,其耦合到所述识别区域的数据集,其中所述处理器被配置成:
接收至少一个媒体文件;
为每个媒体文件确定至少一个识别区域;
对每个媒体文件的每个识别区域应用至少一种变换,直到创建了至少一个修改的媒体文件;
接收关于每个修改的媒体文件与相应的所接收的媒体文件之间的相似性的输入;以及
用目标函数来训练机器学习模型,所述目标函数被配置成根据接收的输入来预测被人类观察者感知的媒体文件之间的相似性,
其中所应用的变换导致至少一个分类器针对相应的所接收的媒体文件的置信度值的降低,并且其中所训练的机器学习模型被配置成预测被人类观察者感知的媒体文件之间的相似性。


17.根据权利要求16所述的系统,其中,所述处理器还被配置成:
接收新的媒体文件;
为所述新的媒体文件确定至少一个新的识别区域;
修改所述新的识别区域;
根据训练的机器学习模型来在修改的识别区域上应用变换;以及
通过重建变换的特征向量来生成合成媒体文件。


18.根据权利要求16所述的系统,其中,在平衡图像文件中每个像素的修改与所述图像中相邻像素的相应修改的同时保持所述识别区域的有效性。

【专利技术属性】
技术研发人员:吉尔·佩里萨拉·布朗德海姆伊利安·库塔
申请(专利权)人:去识别化有限公司
类型:发明
国别省市:以色列;IL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1