一种用于训练图片提纯模型的方法和装置制造方法及图纸

技术编号:17196686 阅读:99 留言:0更新日期:2018-02-03 23:12
本发明专利技术的目的是提供一种用于训练图片提纯模型的方法和装置。与现有技术相比,本发明专利技术对现有图片进行图片扩容,获得扩容后的图片,对扩容后的图片进行聚类,获得对应的聚类结果,在至少一个聚类结果中选择预定数量的图片作为样例图片呈现给用户,获取用户基于对聚类结果的相关操作所得到的正、负样本,根据用户所选择的正负样本,训练对应的图片提纯模型,进而可以利用该图片提纯模型进行图片质量提纯,实现了低成本获取高质量数据;区别于以往几万、几十万张的人工标注量,用户只需要花几分钟便完成小样本的标注任务,启动模型训练,得到用于海量图片质量提纯的图片提纯模型,进而用该图片提纯模型从海量的图片数据中挖掘出更多高质量的图片。

【技术实现步骤摘要】
一种用于训练图片提纯模型的方法和装置
本专利技术涉及图像处理
,尤其涉及一种用于训练图片提纯模型的技术。
技术介绍
图片数据的质量提纯是获取训练数据十分关键的一步。尤其深度学习领域,绝大多数的方法都是数据驱动的,导致了图片数据的质量直接关系到了算法模型性能。因此,获取高质量的训练数据是算法研究中极为重要的一步。目前,图片数据的提纯方法主要包括基于算法的自动挖掘的方法和利用人工标注的方法。基于算法挖掘的方法是低成本的,但效果不能保证。而人工标注的方法,虽然质量高,但成本高,周期长,尤其是海量的数据,往往有数千万级别甚至数亿张级别,人工标注的方法是不能很好满足大数据的业务需求的。因此,如何提供一种高效、准确的训练图片提纯模型的方法,从而利用该模型来进行图片质量提纯,成为本领域技术人员亟需解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于训练图片提纯模型的方法和装置。根据本专利技术的一个方面,提供了一种用于训练图片提纯模型的方法,其中,该方法包括:a对现有图片进行图片扩容,获得扩容后的图片;b对所述扩容后的图片进行聚类,获得对应的聚类结果;c在至少一个聚类结果中选择预定数量的本文档来自技高网...
一种用于训练图片提纯模型的方法和装置

【技术保护点】
一种用于训练图片提纯模型的方法,其中,该方法包括:a对现有图片进行图片扩容,获得扩容后的图片;b对所述扩容后的图片进行聚类,获得对应的聚类结果;c在至少一个聚类结果中选择预定数量的图片作为样例图片呈现给用户;d获取所述用户基于对所述聚类结果的相关操作所得到的正、负样本;e根据所述用户所选择的正负样本,训练对应的图片提纯模型。

【技术特征摘要】
1.一种用于训练图片提纯模型的方法,其中,该方法包括:a对现有图片进行图片扩容,获得扩容后的图片;b对所述扩容后的图片进行聚类,获得对应的聚类结果;c在至少一个聚类结果中选择预定数量的图片作为样例图片呈现给用户;d获取所述用户基于对所述聚类结果的相关操作所得到的正、负样本;e根据所述用户所选择的正负样本,训练对应的图片提纯模型。2.根据权利要求1所述的方法,其中,步骤a包括:根据所述用户输入的关键词,利用图片搜索引擎获得与所述关键词匹配的图片,作为所述现有图片。3.根据权利要求1所述的方法,其中,步骤a包括:获取所述用户上传的图片,作为所述现有图片。4.根据权利要求1至3中任一项所述的方法,其中,步骤a包括:根据所述用户输入的关键词和自所述现有图片中选择的图片,采用关键词及以图搜图的方式进行图片扩容,获得扩容后的图片。5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:获取所述用户设置的图片扩容的目标数量;其中,步骤a包括:根据所述目标数量,对所述现有图片进行图片扩容,获得扩容后的图片。6.根据权利要求1至5中任一项所述的方法,其中,步骤d还包括:对至少一个聚类结果进行再次聚类,并对再次聚类后获得的聚类结果选择得到正、负样本。7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括:根据所述图片提纯模型,对大规模图片集合进行图片质量提纯。8.一种用于训练图片提纯模型的装置,其中,该装置包括:扩容装置,用于对现有图片进行图片扩容,获得扩容后的图片;聚类装置,用于对所述扩容后的图片进行聚类,获得对应的聚类结果;呈现装置,用于在至少一个聚类结果中选择预定数量的图片作为样例图片呈现给用户;第一获取装置,用于获取所述用户基于对所述聚类结果的相关操作...

【专利技术属性】
技术研发人员:李广
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1