一种半监督的图像分类器训练方法技术

技术编号:17796956 阅读:97 留言:0更新日期:2018-04-25 20:27
一种半监督的图像分类器训练方法,包括以下步骤:S1初始化分类器,包括分类器结构初始化、分类器权重初始化等;S2获取图像数据,以网络爬虫为主要方法大量获取包含所需数据的图像数据;S3对数据分类和标记;S4迭代更新分类器;S5判断是否结束程序或继续迭代;本发明专利技术对基础的图像分类器有较好的优化效果,训练得到的分类器的分类精度和鲁棒性都较高。

A semi supervised training method for image classifier

A semi supervised training method of image classifier, which includes the following steps: S1 initialization classifier, including classifier structure initialization, classifier weight initialization, and so on; S2 obtains image data, uses the network crawler as the main method to obtain the image data containing the required data; S3 is used to classify and mark data; S4 iterative update Classifier; S5 determines whether to end the program or continue to iterate; the invention has better optimization effect on the base image classifier, and the classification accuracy and robustness of the trained classifier are all high.

【技术实现步骤摘要】
一种半监督的图像分类器训练方法
本专利技术涉及半监督学习和网络爬虫技术,借鉴了课程学习(CurriculumLearning)的思想,以深度卷积神经网络(ConvolutionalNeuralNetworks,CNN)为例验证此方法在机器学习上的效果,在OXfordPets和CIFAR-10图像数据集上测试,提出并验证了一种半监督的机器学习方法,其在图像分类器的训练中效果明显。
技术介绍
图像精细分类(FGVC)旨在区分入门级别的分类,如狗,鸟,食品,鲜花,汽车和衣服。由于这些分类类别的类内差异较大并且类间差异小,因此近年来受到计算机视觉界的普遍关注。传统上,FGVC总是通过两个基本步骤实现:特征提取和分类。然而,与深度卷积神经网络CNN相比,这种系统不太方便,性能较低。虽然CNN在许多FGVC问题中达到了最好的效果,由于以下两个原因,似乎有较大的潜力被进一步改善:首先,收集更多相同子类别的图像会大大降低类内差异,从而可能会增加许多机器学习算法的性能;其次,目前的CNN架构总是包含相当多的参数,需要更大量的训练数据来实现相当好的性能。随着机器学习技术的应用越来越广泛,尤其是深度学习技术的发展,依赖于深度学习的机器学习方法的设计变得越来越简单,而训练数据集的获取成为了限制机器学习最大的门槛。传统的机器学习所用的数据集都为人工采集,即便是用互联网爬取的数据,也需要人为的进行标注和筛选。传统的机器学习方法难以有效应对随机选择图像的子类分类,而卷积神经网络则可以在大数据的基础上较好的解决此问题。卷积神经网络(CNN)是深度学习算法的一种,近年来成为图像识别领域重要的处理分析工具。卷积神经网络算法的优点在于训练模型时不需要使用任何人工标注的特征,算法可以自动探索输入变量所隐含的特征,同时网络的权值共享特性,降低了模型的复杂度,减少了权值的数量。这些优点使原始图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。此外,卷积神经网络的池化层对平移、倾斜具有不变性,提高了算法处理图像的鲁棒性。图像识别是深度学习的一大受益者,如果有足够数量的准确标注的图像数据集,就能用深度学习的方法得到分类效果较好的图像分类器。而互联网上存在大量的图像数据,大部分是无标签的,但是我们可以通过搜索引擎和图像分享网站搜索到一些带有标签但是同时带有大量噪声的图像数据。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。本专利技术即采用网络爬虫的方法从图像搜索引擎和图像分享网站爬取大量指定的图像,从而搭建一个包含大量噪声数据和标签的图像数据库。在图像搜索引擎爬取的图像质量随显示的顺序大体呈现下降的趋势,使用图像分享网站爬取的图像质量尽管与图像搜索引擎相比与显示的顺序相关性较小,但随爬取的数量增加,噪声和无关的图像数据数量也很庞大。如果直接使用爬取的数据训练网络,就会出现网络分类器正确率先增后减的情况,最终得到的分类器难以满足需求。
技术实现思路
为了克服现有机器学习技术中部分方法(如深度学习)对训练数据集的样本数量、样本标签的精度、样本数量的均衡性等要求都较高,而训练效果受训练数据集影响大的不足,本专利技术提出了一种在包含噪声和错误标签的数据集中自动标记数据并优化分类器的图像分类器训练方法,本专利技术具体用到当前图像分类效果最好的深度卷积神经网络,直接使用图像作为输入,避免了复杂的特征提取和数据重建过程,训练得到的分类器的分类精度和鲁棒性都较高。同时本专利技术有效提高了深度卷积神经网络的分类精度。本专利技术为解决上述技术问题所采用的技术方案如下:一种半监督的图像分类器训练方法,包括以下步骤:S1:初始化分类器,包括分类器结构初始化和分类器权重初始化;S2:获取图像数据,以网络爬虫为方法大量获取包含所需数据的图像数据;S3:对数据分类和标记;S4:迭代更新分类器;S5:判断是否结束程序或继续迭代:即判断分类器精度是否达到要求,是则至步骤S3,否则结束程序。进一步,所述步骤S1包含以下步骤:S1.1:初始化分类器结构,如以深度卷积神经网络为分类器结构。S1.2:用初始化函数初始化分类器权重,或者使用ImageNet数据集预训练图像分类器。S1.3:保存分类器参数作为最新的分类器。所述步骤S2包括以下步骤:S2.1:用人工采集补充图像数据;S2.2:用网络爬虫的方法从互联网爬取对应需求的图像数据;S2.3:将获取的有标签的图像数据保存至有标签图像数据库,将无标签的图像数据保存至无标签图像数据库。所述步骤S3包括以下步骤:S3.1:用当前的分类器,分别对无标签图像数据库和有标签图像数据库进行分类和标记;S3.2:将数据按可信度分别存放至无标签图像数据库和有标签图像数据库。所述步骤S4包含以下步骤:S4.1:使用有标签图像数据库的图像数据调整当前分类器的参数;S4.2:计算分类器是否得到了优化,若是,则保留分类器参数;若否,则到步骤S4.3;S4.3:判断分类器是否还能优化,若是,则到步骤S5,若否,则不更新当前保存的分类器参数。本专利技术所述的方法具有如下的有益效果:(1)本专利技术所述的方法通过分类器对噪声数据进行判断,适时终止学习,提高了机器学习的效率,降低了在数据筛选上消耗的时间。(2)本专利技术所述的方法利用爬虫等方法获取到的数据训练分类器,能够不断增强图像分类器的鲁棒性,使最终的分类器有一个较优的性能。(3)本专利技术所述的方法将机器学习与数据获取结合,实现双向互惠,形成一个不断优化的可持续系统,减少了整个项目投入的人力成本。附图说明图1为一种自主学习的图像精细分类方法的流程图;图2为更新分类器步骤详细流程图;具体实施方式下面结合附图对本专利技术作进一步描述。参照图1和图2,一种半监督的图像分类器训练方法,包括以下步骤:S1:初始化分类器结构,如以深度卷积神经网络为分类器结构;用初始化函数初始化分类器权重,也可以使用ImageNet数据集或其它现有的图像数据预训练图像分类器;保存分类器参数作为最新的分类器。到S3。S2:用人工采集或其它方法补充图像数据;用网络爬虫的方法从互联网爬取对应需求的图像数据;将获取的有标签的图像数据保存至有标签图像数据库,将无标签的图像数据保存至无标签图像数据库。到S3。S3:用当前的分类器,分别对无标签图像数据库和有标签图像数据库进行分类和标记;将数据按可信度分别存放至无标签图像数据库和有标签图像数据库。S4:使用有标签图像数据库的图像数据调整当前分类器的参数;计算分类器是否得到了优化,若是,则保留分类器参数;若否,则判断分类器是否本文档来自技高网
...
一种半监督的图像分类器训练方法

【技术保护点】
一种半监督的图像分类器训练方法,其特征在于:包括以下步骤:S1:初始化分类器,包括分类器结构初始化和分类器权重初始化;S2:获取图像数据,以网络爬虫为方法大量获取包含所需数据的图像数据;S3:对数据分类和标记;S4:迭代更新分类器;S5:判断是否结束程序或继续迭代:即判断分类器精度是否达到要求,是则至步骤S3,否则结束程序。

【技术特征摘要】
1.一种半监督的图像分类器训练方法,其特征在于:包括以下步骤:S1:初始化分类器,包括分类器结构初始化和分类器权重初始化;S2:获取图像数据,以网络爬虫为方法大量获取包含所需数据的图像数据;S3:对数据分类和标记;S4:迭代更新分类器;S5:判断是否结束程序或继续迭代:即判断分类器精度是否达到要求,是则至步骤S3,否则结束程序。2.根据权利要求1所述的一种半监督的图像分类器训练方法,其特征在于:所述步骤S1包含以下步骤:S1.1:初始化分类器结构,如采用深度卷积神经网络为分类器结构;S1.2:用初始化函数初始化分类器权重,或者使用ImageNet数据集预训练图像分类器;S1.3:保存分类器参数作为最新的分类器。3.根据权利要求1或2所述的一种半监督的图像分类器训练方法,其特征在于:所述步骤S2包括以下步骤:S2.1:用人工采集补充图像...

【专利技术属性】
技术研发人员:宣琦肖浩泉刘毅陈晋音
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1