一种隐私图片识别方法技术

技术编号:34522060 阅读:19 留言:0更新日期:2022-08-13 21:11
本发明专利技术公开了一种隐私图片识别方法,通过将待测图片经过特征提取模块转换后的描述符与隐私特征库中的描述符进行匹配,当两者的距离小于阈值,则判断为命中,当命中的数量大于设定值,将待测图片识别为与相应类别的隐私图片。片。片。

【技术实现步骤摘要】
一种隐私图片识别方法


[0001]本专利技术属于图像识别领域,特别是一种隐私图片识别方法。

技术介绍

[0002]数据安全和隐私保护都要求企业清楚的了解自身拥有的隐私/敏感图片,并保证这些图片的采集、存储和流转满足合规要求,符合安全原则。然而实际上,大量图片可能散布在各个业务系统中,相关责任人和企业安全负责人很难获悉数据全貌。因此对业务系统中的图片进行扫描并识别出隐私图片是必要的。隐私图片种类庞杂,如身份证扫描件、合同、增值税发票、人脸图片、病例报告等不同类型的图;并且,随着业务的发展,企业可能拥有的隐私图片种类会改变或者增加。因此,目前缺乏针对隐私图片的识别算法。

技术实现思路

[0003]本专利技术是为了解决如何识别隐私图片的问题。
[0004]为了解决上述问题,本专利技术提出一种隐私图片识别方法,是基于图片检索进行隐私图片分类分级。
[0005]本专利技术所采用的技术方案是:
[0006]一种隐私图片识别方法,包括
[0007]特征提取模块,所述特征提取模块用于提取标准化后的图片中的特征,特征经过L2变换后得到描述符,每张标准化后的图片可得到为N个描述符,N为正整数;
[0008]隐私特征库,所述隐私特征库包括标准化后的图片的描述符,该标准化后的图片带有类别;
[0009]通过将待测图片经过特征提取模块转换后的描述符与隐私特征库中的描述符进行匹配,当两者的距离小于阈值,则判断为命中,当命中的数量大于设定值,将待测图片识别为与相应类别的隐私图片。r/>[0010]作为优选,还包括打分模块,打分模块用于筛选进行匹配的描述符。
[0011]作为优选,所述隐私特征库中的描述符,包括预设图片的描述符和自定义图片的描述符。
[0012]作为优选,对隐私特征库内同一类图片的描述符进行聚类,聚类时去除聚类异常的描述符。
[0013]作为优选,将待测图片识别为隐私图片后,对隐私图片进行验证,如隐私图片和与其相匹配的图片在几何学上符合透视原理,则验证通过,维持识别为隐私图片;如不符合透视原理,则验证不通过,取消识别为隐私图片。
[0014]作为优选,所述筛选方法为:将待测图片的描述符输入经过图片分类任务训练过的打分模块,每个描述符输出一个分数,按分数从高到低排序,选取前K 个分数对应的描述符作为匹配的对象,K为正整数。
[0015]作为优选,所述特征提取模块为预训练的卷积神经网络,所述打分模块为全连接
神经网络。
[0016]作为优选,所述训练方法为:输入带有类别标签的多个图片作为训练图片,从训练图片中任取一个图片通过特征提取模块得到N个描述符,将该图片的所有描述符输入打分模块,输出N个分数,将分数作为权重,对该图片的所有描述符进行加权平均,得到该图片的整体特征,通过图片的整体特征执行图片分类任务,当任务内的损失函数收敛时,训练结束。
[0017]作为优选,从卷积神经网络中任取一层的输出作为描述符;所述特征为 (H//S,W//S,C)的张量,其中H、W分别为标准化图片的长和宽,S和C为正整数。
[0018]本专利技术同现有技术相比具有以下优点及效果:
[0019]1、通过本专利技术的算法,企业可以上传其关注的隐私图片的样例,然后从拥有的图片进行扫描和检索,并识别出其关注的隐私图片类别。
[0020]2、本专利技术用户需要添加新的隐私图片类别时,只需要更新隐私特征库即可,操作简单。
附图说明
[0021]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0022]图1是本专利技术的示意图。
具体实施方式
[0023]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0024]实施例1:
[0025]如图1所示,一种隐私图片识别方法,包括特征提取模块和隐私特征库,所述特征提取模块用于提取标准化后的图片中的特征,优选为卷积神经网络 (CNN),特征经过L2变换后得到描述符,每张标准化后的图片可得到为N 个描述符,N为正整数,例如,图片经过标准化和缩放后,通过CNN提取的特征F为(H//S,W//S,C)的张量,可以将F理解为(H//S)x(W//S)个长度为C的矢量,其中H、W是图片缩放后的长和宽,S和C为预设的常数,例如S=16,C=2048,通过L2标准之后,即得到描述符,每个描述符对应缩放后的图片上SxS大小的块,进一步的,CNN可以使用预训练的神经网络,例如在Imagenet

21k上预训练的Resnet50,然后取出其stage4的输出作为我们需要的抽取特征。所述隐私特征库由标准化后的图片通过特征提取模块得来,该标准化后的图片经过分类而带有隐私类别,例如身份证、银行卡、护照、营业执照、指纹、心电图等,标准化后的图片包括预设图片和自定义图片,预设图片可以由用户预先提供的示例图片或者系统默认的示例图片,自定义图片为用户新添加的隐私图片,因此,隐私特征库包括预设图片的描述符和自定义图片的描述符,进一步的,将描述符以及其与示例图片的位置对应关系存储在隐私特征库中。优选的,还包括经过训练的打分模块,打分模块优选为一个浅的全连接神经网络(1~2个隐藏层),以单个的局部特征描述符作为输入,输出为一个分数。
[0026]采取的方式为:用户把经过标准化处理后的示例图片输入,标准化可采用缩放、截取等操作,用于使图片的像素统一,通过特征提取模块提取特征并得到示例图片的描述符,作为隐私特征库;然后把要扫描的图片作为待测图片,通过特征提取模块提取特征并得到待测图片的描述符,进行检索和匹配,匹配算法优选为近似最近邻算法,例如HNSW算法,由于向量描述的是一些图片上的特征,比如眼角、塔尖等等,同样形状的特征对应的向量会在距离上比较接近,例如cosine距离。当两者的距离小于阈值,则判断为命中,该阈值可以选用现有图像检索算法中的匹配阈值,当命中的数量大于设定值,将待测图片识别为与相应类别的隐私图片,该设定值可以选用现有图像识别算法中的匹配设定值。由于隐私特征库中的图片是带有分类的,当用户添加新的隐私图片类别时,只需要更新隐私特征库即可。进一步的,当将待测图片识别为隐私图片后,对隐私图片进行验证,如隐私图片和与其相匹配的图片在几何学上符合透视原理,即两张图片几何学上的对应符合透视原理,则验证通过,维持识别为隐私图片;如不符合透视原理,则验证不通过,取消识别为隐私图片。进一步的,提取待测图片的描述符时,将待测图片的所有描述符输入经过图片分类任务训练过的打分模块,即根据每张图片的描述符,看哪些描述符对分类有帮助,并以此为依据根据贡献打分,每个描述符输出一个分数,按分数从高到低排序,选取前K个分数对应的描述符作为匹配的对象,K为正整数,例如K为8、10、12。进一步的,因为同一类的示例图片可能本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种隐私图片识别方法,其特征在于,包括特征提取模块,所述特征提取模块用于提取标准化后的图片中的特征,特征经过L2变换后得到描述符,每张标准化后的图片可得到为N个描述符,N为正整数;隐私特征库,所述隐私特征库包括标准化后的图片的描述符,该标准化后的图片带有类别;通过将待测图片经过特征提取模块转换后的描述符与隐私特征库中的描述符进行匹配,当两者的距离小于阈值,则判断为命中,当命中的数量大于设定值,将待测图片识别为与相应类别的隐私图片。2.根据权利要求1所述的隐私图片识别方法,其特征在于,还包括打分模块,打分模块用于筛选进行匹配的描述符。3.根据权利要求1所述的隐私图片识别方法,其特征在于,所述隐私特征库中的描述符,包括预设图片的描述符和自定义图片的描述符。4.根据权利要求1所述的隐私图片识别方法,其特征在于,对隐私特征库内同一类图片的描述符进行聚类,聚类时去除聚类异常的描述符。5.根据权利要求1所述的隐私图片识别方法,其特征在于,将待测图片识别为隐私图片后,对隐私图片进行验证,如隐私图片和与其相匹配的图片在几何学上符合透视原理,则验证通过,维持识别为隐私...

【专利技术属性】
技术研发人员:邱伟峰陆玉江薛峰
申请(专利权)人:杭州用九智汇科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1