一种图像分类模型训练的方法、图像处理的方法及装置制造方法及图纸

技术编号:21157990 阅读:41 留言:0更新日期:2019-05-22 07:46
本申请公开了一种图像分类模型训练的方法,包括:获取待训练图像;当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取待训练图像的第一预测类别标注信息;根据图像内容类别信息以及第一预测类别标注信息,采用分类损失函数确定第二模型参数;当固定待训练图像分类网络的第二模型参数时,通过待训练偏移量网络获取待训练图像的第二预测类别标注信息;根据图像内容类别信息以及第二预测类别标注信息,采用分类损失函数确定第三模型参数;根据第二模型参数与第三模型参数得到图像语义分割网络模型。本申请还公开一种图像处理的方法及装置。本申请无需人工进行像素级别标注,从而减少人工标注成本,进而提升了模型训练的效率。

An Image Classification Model Training Method, Image Processing Method and Device

This application discloses a method for training image classification model, which includes: acquiring the image to be trained; acquiring the annotation information of the first prediction category of the image to be trained through the image classification network when the first model parameters of the offset network to be trained are fixed; and determining the second one by using the classification loss function based on the image content category information and the annotation information of the first prediction category. Model parameters; when the second model parameters of the image classification network to be trained are fixed, the second prediction category labeling information of the image to be trained is obtained through the offset network to be trained; the third model parameters are determined by the classification loss function based on the content category information of the image and the second prediction category labeling information; and the image semantics is obtained by the second model parameters and the third model parameters. Partition network model. The application also discloses a method and device for image processing. This application does not require manual pixel level labeling, thus reducing the cost of manual labeling, thereby improving the efficiency of model training.

【技术实现步骤摘要】
一种图像分类模型训练的方法、图像处理的方法及装置
本申请涉及人工智能领域,尤其涉及一种图像分类模型训练的方法、图像处理的方法及装置。
技术介绍
图像语义分割是图像理解的基石性技术,在自动驾驶系统(比如街景识别与理解)、无人机应用(比如对着陆点判断)以及穿戴式设备应用中都起着举足轻重的左右。图像是由许多像素组成的,而语义分割就是将像素按照图像中表达语义含义的不同进行分割,使得机器自动分割并识别出图像中的内容。目前,通常训练一个深度卷积神经网络来实现全图分类,再根据该深度卷积神经网络定位待训练图像中所对应图像内容区域,然后利用这些经过全图分类标注的图像内容区域作为分割的监督信息,最后训练得到图像语义分割网络模型。然而,在训练图像语义分割网络模型时,所使用的待训练图像往往需要经过像素级标注。以分辨率为1024×2048的待训练图像为例,人工进行像素级别标注一张该分辨率大小的图像通常需要1.5小时,由此导致人工标注成本过高,且导致模型训练效率较低。
技术实现思路
本申请实施例提供了一种图像分类模型训练的方法、图像处理的方法及装置,可以对标注为图像级别的待训练图像进行训练,在保证图像语义分割网络模型性能的情况下,无需人工进行像素级别标注,从而减少了人工标注成本,进而提升了模型训练的效率。有鉴于此,本申请第一方面提供一种图像分类模型训练的方法,包括:获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。本申请第二方面提供一种图像处理的方法,包括:获取待处理图像;通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;根据所述语义分割结果对所述待处理图像进行处理。本申请第三方面提供一种模型训练装置,包括:获取模块,用于获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;所述获取模块,还用于当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;确定模块,用于根据所述图像内容类别信息以及所述获取模块获取的所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;所述获取模块,还用于当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;所述确定模块,还用于根据所述图像内容类别信息以及所述获取模块获取的所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;训练模块,用于根据所述确定模块确定的所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,所述确定模块,具体用于根据所述图像内容类别信息以及所述第一预测类别标注信息,确定在各个类别所对应的预测概率值;根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;当所述分类损失函数的分类损失为最小值时,确定所述待训练图像分类网络所对应的所述第二模型参数。在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,所述确定模块,具体用于根据所述图像内容类别信息以及所述第二预测类别标注信息,确定在各个类别所对应的预测概率值;根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;当所述分类损失函数的分类损失为最大值时,确定所述待训练偏移量网络所对应的所述第三模型参数。在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,所述分类损失函数表示为:其中,所述L表示所述分类损失函数,所述I()表示狄拉克函数,所述N表示类别总数,所述c表示第c类别,所述k为大于或等于1,且小于或等于所述N,所述Pc表示所述第c类别所对应的预测概率值。在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,所述获取模块,还用于通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息之前,通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像,其中,所述可变形卷积神经网络用于所述待训练图像的偏移变量;所述获取模块,具体用于通过所述待训练偏移量网络所述待训练特征图像所对应的所述第二预测类别标注信息。在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,所述获取模块,具体用于采用如下方式生成所述待训练特征图像;其中,所述y(p0)表示所述待训练特征图像所述p0表示所述待训练特征图像中的像素值,所述pn表示采样点在卷积核中的位置,所述Δpn表示所述偏移变量,所述w(pn)表示所述卷积核在所述待训练图像对应位置进行卷积运算的权重值,所述x(p0+pn+Δpn)表示所述待训练图像对应位置的像素值。在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,所述获取模块,还用于所述确定模块根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第三模型参数之后,当固定所述待训练偏移量网络所对应的所述第三模型参数时,通过所述待训练图像分类网络获取所述待训练图像的第三预测类别标注信息;所述确定模块,还用于根据所述图像内容类别信息以及所述获取模块获取的所述第三预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第四模型参数;所述获取模块,还用于当固定所述待训练图像分类网络的所述第四模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第四预测类别标注信息;所述确定模块,还用于根据所述图像内容类别信息以及所述获取模块获取的所述第四预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第五模型参数;所述训练模块,具体用于根据所述确定模块302确定的所述第二模型本文档来自技高网...

【技术保护点】
1.一种图像分类模型训练的方法,其特征在于,包括:获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。

【技术特征摘要】
1.一种图像分类模型训练的方法,其特征在于,包括:获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数,包括:根据所述图像内容类别信息以及所述第一预测类别标注信息,确定在各个类别所对应的预测概率值;根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;当所述分类损失函数的分类损失为最小值时,确定所述待训练图像分类网络所对应的所述第二模型参数。3.根据权利要求1所述的方法,其特征在于,所述根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数,包括:根据所述图像内容类别信息以及所述第二预测类别标注信息,确定在各个类别所对应的预测概率值;根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;当所述分类损失函数的分类损失为最大值时,确定所述待训练偏移量网络所对应的所述第三模型参数。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述分类损失函数表示为:其中,所述L表示所述分类损失函数,所述I()表示狄拉克函数,所述N表示类别总数,所述c表示第c类别,所述k为大于或等于1,且小于或等于所述N,所述Pc表示所述第c类别所对应的预测概率值。5.根据权利要求1所述的方法,其特征在于,所述通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息之前,所述方法还包括:通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像,其中,所述可变形卷积神经网络用于所述待训练图像的偏移变量;所述通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息,包括:通过所述待训练偏移量网络所述待训练特征图像所对应的所述第二预测类别标注信息。6.根据权利要求5所述的方法,其特征在于,所述通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像,包括:采用如下方式生成所述待训练特征图像;其中,所述y(p0)表示所述待训练特征图像所述p0表示所述待训练特征图像中的像素值,所述pn表示采样点在卷积核中的位置,所述Δpn表示所述偏移变量,所述w(pn)表示所述卷积核在所述待训练图像对应位置进行卷积运算的权重值,所述x(p0+pn+Δpn)表示所述待训练图像对应位置的像素值。7.根据权利要求1所述的方法,其特征在于,所述根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第三模型参数之后,所述方法还包括:当固定所述待训练偏移量网络所对应的所述第三模型参数时,通过所述待训练图像分类网络获取所述待训练图像的第三预测类别标注信息;根据所述图像内容类别信息以及所述第三预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第四模型参数;当固定所述待训练图像分类网络的所述第四模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第四预测类别标注信息;根据所述图像内容类别信息以及所述第四预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第五模型参数;所述根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,包括:根据所述第二模型参数、所述第三模型参数、所述第四模型参数以及所述第五模型参数,对所述待训练图像语义分割网络模型进行训练,得到所述图像语义分割网络模型。8.根据权利要求1所述的方法,其特征在于,所述根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,包括:当采用所述第二模型参数与所述第三模型参数对所述待训练偏移量网络经过N次训练时,根据每次训练所述待训练偏移量网络的偏移变量,确定所述待训练图像所对应的图像内容区域,其中,所述N为大于或等于1的整数;根据所述...

【专利技术属性】
技术研发人员:揭泽群
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1