当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于域转化和生成模型的图像识别方法技术

技术编号:21091072 阅读:20 留言:0更新日期:2019-05-11 10:30
本发明专利技术公开了一种基于域转化和生成模型的图像识别方法,包括以下步骤:步骤1:构造从源域到目标域的转换模型;步骤2:构造从目标域到源域的转换模型;步骤3:构造二分类判别模型;步骤4:构造生成器;步骤5:构造分类类别为K+1的分类模型,K为类别数目;步骤6:根据步骤1,2,3,4,5得到基于源域和目标域的分类模型;步骤7:根据步骤6中得到的模型就可以得到待分类图像的分类结果。

【技术实现步骤摘要】
一种基于域转化和生成模型的图像识别方法
本专利技术属于视觉识别领域,尤其涉及一种基于域转化和生成模型的图像识别方法。
技术介绍
随着计算机视觉与图像处理技术的成熟,这些技术应用在其他领域也越来越广泛,让计算机取代人力,用低成本高效率的技术取代昂贵的技术也成为必然的发展趋势。随着机器学习算法的发展,尤其是深度学习的发展,越来越多的深度学习模型被用来解决计算机视觉领域的问题。在图片分类识别领域,深度学习模型表现优异。然而模型的表现很大程度取决于所搜集的数据,如果所要识别的图片不属于训练集中类别,模型会将其分为训练集中的一类,而且有时候判断的分数非常的高。但是在实际应用中,很难保证测试集中的数据都在训练集中。而且生活中的类别众多,能获得标签是有限的。有些物体例如椅子,同属于椅子这个大类,但是只能收集有限的关于椅子这个大类的数据,因此需要通过源域中有类别标签的数据(易采集),来对目标域中(与源域分布不同)进行分类。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于域转化和生成模型的分类方法,从而解决测试图片不属于训练集或者与训练集中数据不属于同一个域的问题。技术方案:本专利技术公开了一种基于域转化和生成模型的分类方法,包括如下步骤:步骤1,构建从源域到目标域的转换的模型;步骤2,构建从目标域到源域的转换的模型;步骤3,构造二分类判别模型;步骤4:构造生成器模型;步骤5,构造分类类别为K+1的分类模型,K为类别数目;步骤6,根据步骤1~步骤5得到基于源域和目标域的分类模型;步骤7,根据步骤6中得到的分类模型对待分类图像进行分类,得到分类结果;本专利技术中,步骤1包括:构建从目标域到源域的转换模型:Gs→t,该模型包括第一编码器、第一转换器和第一解码器,s表示源域,t表示目标域,G代表转换模型;所述第一编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;所述第一转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;所述第一解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64;第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3。本专利技术中,步骤2包括如下步骤;构建从源域到目标域的转换模型:Gt→s,该模型包括第二编码器,第二转换器和第二解码器;所述第二编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;所述第二转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;所述第二解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64,第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3。本专利技术中,步骤3包括如下步骤:构造二分类判别模型,该模型包含5个卷积层,具体结构为:第一层为卷积层,卷积核大小是3*3,卷积核的数量为64;第二层为卷积层,卷积核大小是3*3,卷积核的数量为128;第三层为卷积层,卷积核大小是3*3,卷积核的数量为256;第四层为卷积层,卷积核大小是3*3,卷积核的数量为512;第五层为卷积层,卷积核大小是3*3,卷积核的数量为1。本专利技术中,步骤4包括:构造生成器模型,该模型包含6种构造块。+第一层为卷积层,卷积核的大小是5*5,卷积核的数量是64;第二层为卷积层,卷积核大小是5*5,卷积核的数量是64;第三层为卷积层,卷积核大小是3*3,卷积核的数量是128,第四层是卷积层,卷积核的大小是3*3,卷积核的数量是128;第五层为输入为3200维,输出为100维的全连接层;第六层为输入为100维输出为100维的全连接层。本专利技术中,步骤5包括:构造分类类别为K+1的分类模型,K为类别数目,该模型包含一个输入为100维输出为K+1维的全连接层和一个softmax层。本专利技术中,步骤6包括:根据步骤1~步骤5得到基于源域和目标域的分类模型。源域中的图片经过转换为目标域中的图片后,和原目标域中的图片一起作为步骤5生成器的输入,经过步骤4和步骤5,迭代优化Loss训练模型:Loss训练模型包括四部分:GANloss,Cycleloss,Clsloss,Advloss(XT);GANloss代表域转换模型(即步骤1和步骤2中的源域向目标域转化的转化模型和目标域向源域转化的转化模型)的损失;Cycleloss代表图片经过域转化后又转化为原来的域的损失;Clsloss代表对于源域中的图片的分类模型的损失;Advloss代表交叉熵损失函数。生成器GS→T是用来将来自源域的图片XS转化为目标域的图片XT,使源域中的图片和目标域中的图片相像;DT是判别器,用于分别出图片是来自于原图片XT,还是来自于图片GS→T(xt),;DT(XT)表示输入图片XT来自目标域,判别器DT计算出它来自于目标域的概率;DT(GS→T(Xs))表示输入图片GS→T(xs)是从源域图片向目标域转化而来的图片,判别器DT计算出它是由源域图片转换而来的概率;代表目标域中所有图片作为输入,判别器DT计算出它们来及于目标域的概率对数期望值;代表源域中所有图片转化后的图片作为输入,判别器DT计算出它们是由源域图片转换而来的概率对数期望值;步骤1中所述源域转目标域转换模型的优化目标公式如下:得到最优化的GS→T,DT,表示极大化GANloss(GS→T,DT,XS,XT),即更好的分别图片是来自于目标域还是源域转化的图片,表示极小化GANloss(GS→T,DT,XS,XT),使源域转化的图片与目标域的图片越来越相像,使DT难以分清图片是来自于目标域还是源域转化的图片。目标域转源域的优化目标为:DS代表步骤3中构造的分类器模型,用于判别输入图片是来自源域还是来自于目标域转化源域的图片。生成器GT→S是用来将来自目标域的图片XT转化为源域的图片XS,使目标域中的图片和源域中的图片相像;其优化目标为:min(Cycleloss(GS→T,GT→S,XS,XT)),其中,P(y=ys|xs)代表步骤3中构造的分类器模型将源域中的输入图片分为类别标签中对应类别的概率,代表步骤3中构造的分类器模型将所有源域中的输入图片分为对应类别标签中对应类别的概率对数期望值。C为步骤5中构造的分类模型,其优化目标为:min(Clsloss(G,GS→T,C,XS,XT)),目的是将来自于源域中的图片分到对应的类别中去;α代表输入被分为Unknown未知类的概率,本例中设为0.5。P(y=K+1|xt)代表步骤3中构造的分类器模型将目标域中的图片分为Uknown未知类的概率,K+1代表未知类Uknown,即没有在源域中出现的类别;本方法中t的值设为0.5。其优化目标为对于步骤5中的分类模型min(Advloss(XT)),即分类器尽可能的使输入被分为Unknown未知类的概率接近α;对于步骤4中的生成器模型max(Advloss(XT))即本文档来自技高网...

【技术保护点】
1.一种基于域转化和生成模型的图像识别方法,其特征在于,包括如下步骤:步骤1,构建从源域到目标域的转换的模型;步骤2,构建从目标域到源域的转换的模型;步骤3,构造二分类判别模型;步骤4:构造生成器模型;步骤5,构造分类类别为K+1的分类模型,K为类别数目;步骤6,根据步骤1~步骤5得到基于源域和目标域的分类模型;步骤7,根据步骤6中得到的分类模型对待分类图像进行分类,得到分类结果。

【技术特征摘要】
1.一种基于域转化和生成模型的图像识别方法,其特征在于,包括如下步骤:步骤1,构建从源域到目标域的转换的模型;步骤2,构建从目标域到源域的转换的模型;步骤3,构造二分类判别模型;步骤4:构造生成器模型;步骤5,构造分类类别为K+1的分类模型,K为类别数目;步骤6,根据步骤1~步骤5得到基于源域和目标域的分类模型;步骤7,根据步骤6中得到的分类模型对待分类图像进行分类,得到分类结果。2.根据权利要求1所述的方法,其特征在于,步骤1包括:构建从目标域到源域的转换模型:Gs→t,该模型包括第一编码器、第一转换器和第一解码器,s表示源域,t表示目标域,G代表转换模型;所述第一编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;所述第一转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;所述第一解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64;第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3。3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤;构建从源域到目标域的转换模型:Gt→s,该模型包括第二编码器,第二转换器和第二解码器;所述第二编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;所述第二转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;所述第二解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64,第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3。4.根据权利要求3所述的方法,其特征在于,步骤3包括如下步骤:构造二分类判别模型,该模型包含5个卷积层,具体结构为:第一层为卷积层,卷积核大小是3*3,卷积核的数量为64;第二层为卷积层,卷积核大小是3*3,卷积核的数量为128;第三层为卷积层,卷积核大小是3*3,卷积核的数量为256;第四层为卷积层,卷积核大小是3*3,卷积核的数量为512;第五层为卷积层,卷积核大小是3*3,卷积核的数量为1。5.根据权利要求4所述的方法,其特征在于,步骤4包括:构造生成器模型,该模型包含6种构造块,第一层为卷积层,卷积核的大小是5*5,卷积核的数量是64;第二层为卷积层,卷积核大小是5*5,卷积核的数量是64;第三层为卷积层,卷积核大小是3*3,卷积核的数量是128,第四层是卷积层,卷积核的大小是3*3,卷积核的数量是128;第五层为输入为3200维,输出为100维的全连接层;第六层为输入为100维输出为100维的全连接层。6.根据权利要求5所述的方法,其特征在于,步骤5包括:构造分类类别为K+1的分类模型,K为类别数目,该模型包含一个输入为100维输出为K+1维的全连接层和一个softmax层。7.根据权利要求6所述的方法,其特征在于,步骤6包括:源域中的图片经过转换为目标域中的图片后,和原目标域中的图片一起作为步骤5生成器的输入,经过步骤4和步骤5,迭代优化Loss训练模型:Loss训练模型包...

【专利技术属性】
技术研发人员:韩旭张鸿杰过洁郭延文
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1