图片查重方法、装置和计算机可读存储介质制造方法及图纸

技术编号:30945232 阅读:42 留言:0更新日期:2021-11-25 19:55
本申请提出了一种图片查重方法、装置和计算机可读存储介质,其中,该方法包括:基于待查重图片的属性信息,为所述待查重图片生成对应的字符串;通过布隆过滤器对所述字符串进行图片查重计算;通过所述布隆过滤器输出查重结果。通过本申请的技术方案,简化了图片查重过程,提升了查重效率。提升了查重效率。提升了查重效率。

【技术实现步骤摘要】
图片查重方法、装置和计算机可读存储介质


[0001]本申请涉及人工智能
,尤其涉及一种图片查重方法、装置和计算机可读存储介质。

技术介绍

[0002]机器学习的训练需要大量标注有结构化信息的样本数据,该结构化信息表明了样本数据的类型或内容等属性。为保证机器学习的训练结果的精确性,需要对数据进行去重处理。对此,相关技术中建立了数据管理系统,对样本数据的结构化信息进行记录,由于每个样本数据具有独特的结构化信息,故对于一新增数据,可检测数据管理系统中是否具有与其结构化信息相同的结构化信息。
[0003]然而,样本数据数量巨大,相应地,数据管理系统的结构化信息也数量巨大,并且,结构化信息具有多种类型,如标注框类型、实体标签等,如需查询一新增数据是否已被数据管理系统记录,则需要对该新增数据的每项结构化信息都在数据管理系统中进行一次海量数据的对比。这一过程计算量巨大,消耗的时间和系统资源很多,从而造成查重效率低下。
[0004]因此,如何提升机器学习训练过程中的样本数据查重效率,成为目前亟待解决的技术问题。
【专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图片查重方法,其特征在于,包括:基于待查重图片的属性信息,为所述待查重图片生成对应的字符串;通过布隆过滤器对所述字符串进行图片查重计算;通过所述布隆过滤器输出查重结果。2.根据权利要求1所述的图片查重方法,其特征在于,所述通过布隆过滤器对所述字符串进行图片查重计算的步骤,包括:为所述字符串生成指定数量的哈希值;检测所述指定数量的哈希值在所述字符串中对应的数组位置是否均为1;所述通过所述布隆过滤器输出查重结果的步骤,包括:在所述指定数量的哈希值在所述字符串中对应的数组位置均为1的情况下,输出所述查重结果为所述待查重图片已被记录;在所述指定数量的哈希值在所述字符串中对应的数组位置未均为1的情况下,将所述字符串中所述指定数量的哈希值对应的所述数组位置均设置为1,并输出所述查重结果为所述待查重图片未被记录。3.根据权利要求1或2所述的图片查重方法,其特征在于,所述待查重图片为未标注结构化信息的原始图片,则所述属性信息包括原始图片信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容。4.根据权利要求1或2所述的图片查重方法,其特征在于,所述待查重图片为已标注结构化信息的标注后图片,则所述属性信息包括原始图片信息和/或结构化信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容;所述结构化信息包括图片标识、图形标注信息和标签标注信息。5.根据权利要求4所述的图片查重方法,其特征在于,还包括:在所述查重结果为所述待查重图片未被记录的情况下,将所述待查重图片对应的所述字符串存储至结构化信息数据库中;在所述查重结果为所述待查重图片已被记录的情况下,将所述待查重图片对应的所述字符串存储至与所述结构化信息数据库相关联的误判列表中;以及基于接收到的结构化信息获取指令,向所述结构化信息获取...

【专利技术属性】
技术研发人员:金彬陈杰
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1