一种基于多特征损失函数融合的目标标注方法及系统技术方案

技术编号:38714196 阅读:10 留言:0更新日期:2023-09-08 14:57
本发明专利技术公开了一种基于多特征损失函数融合的目标标注方法,多特征损失函数为基于熵权法的多维损失函数,分别用于约束目标转换模型训练过程中多个类别目标的颜色、形状及纹理的生成方向。包括:获取单一类别最佳源域无背景目标图像;将单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;将基于潜在空间的特征图输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;将单一类别最佳源域无背景目标图像与基于潜在空间的特征图融合形成多模态输入信号,将多模态输入信号输入到目标转换网络中,并基于目标转换网络进行目标标注。本发明专利技术还公开系统、电子设备及计算机可读存储介质。及计算机可读存储介质。及计算机可读存储介质。

【技术实现步骤摘要】
一种基于多特征损失函数融合的目标标注方法及系统


[0001]本专利技术涉及图像处理以及智能信息提取
,尤其涉及一种基于多特征损失函数融合的目标标注方法及系统。

技术介绍

[0002]随着传统农业与人工智能技术相结合,智慧果园的建设在果业发展中得到了更为广泛的关注,其中高精度果实检测技术是现代化智慧果园实际应用工作中的重要基础技术,在果实定位、果实分拣、果实产量预测、果实自动采摘等众多智慧果园智能化工作中有着广泛的应用价值。目标标注的通用方法以及在智慧果园上的应用越来越重要。
[0003]一方面,现阶段的目标检测技术大多采用深度学习的方法,需要依赖大量已标注数据集支撑深度学习模型的训练学习。因此需要人工对大量样本图像进行标注以便训练图像标注模型,耗费人力和时间,导致图像标注效率较低,进而导致图像检测模型的训练效率较低。因此,虽然现阶段基于深度学习的目标检测技术得到了广泛的应用,但是需要依赖大量已标注数据集才能支撑检测模型的训练学习,造成人工标注成本增高。
[0004]第二方面,真实场景中的果树分布密集,果实长势不规律,尺度小且遮挡严重,从而导致场景环境多样性很强。而由于现阶段深度学习模型泛化性能差的原因,研究人员需要针对不同场景环境和不同种类的果实制作新的果实数据集,导致数据集的标注工作的难度大大提升,更为费时费力。
[0005]第三方面,在选取最适合的源域数据时,由于有的聚类中只有一种目标,有时候可能无法选取到最适合的源域。由于原始CycleGAN网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实目标图像的形状纹理特征信息进行网络的拟合训练。
[0006]目前的技术方向包括:(1)引入实例级损失约束从而更好地规范图像中前景目标的生成方向,但此类做法引入了额外的人工标注过程,并不适用于基于无监督学习的果实自动标注任务;(2)采用一种跨循环比较路径的果实转换模型Across

CycleGAN,通过引入结构相似性损失函数从而实现了圆形果实到椭圆形果实的转换;然而目标自动标注方法的泛化性不高,无法实现特征差异大尤其是形状存在很大差异目标域目标的自动标注任务。
[0007]因此对于如何建立一种泛化性更高、域适应性更强的目标数据集的自动标注方法,同时能够对生成模型进行优化,从而在形状颜色纹理变化很大时,能够实现逼真地转换,实现域差异的减小具有迫切的需求。

技术实现思路

[0008]为了解决现有技术中存在的问题,本专利技术提供了一种基于多特征损失函数融合的目标标注方法及系统,进一步提高无监督果实转换模型性能,增强算法对于果实表型特征的描述能力,从而控制模型在表型特征差异大的跨越式果实图像转换任务中能够精准控制果实生成方向。
[0009]本专利技术第一方面提供了一种基于多特征损失函数融合的目标标注方法,其中所述方法用于多个类别的目标标注任务,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的所述目标的颜色、形状以及纹理的生成方向,包括:
[0010]S1,获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;
[0011]S2,将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;
[0012]S3,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;
[0013]S4,将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。
[0014]优选的,所述S2包括:
[0015]S21,利用预训练特征提取网络或预训练特征编码网络作为编码器挖掘目标图像的潜在空间;
[0016]S22,利用反向导向特征可视化映射作为解码器突出目标图像中的目标特征的解空间表示,从而利用无监督的方式发现目标图像中的潜在特征;
[0017]S23,基于所述潜在特征提取基于潜在空间的特征图。
[0018]优选的,所述编码器为序列化网络VGG16,所述S21包括:从VGG16最后一层的深层卷积层输出图像的矢量化表示提取其高级语义信息,所述矢量化表示为矢量值y;并将所述矢量值y利用潜在编码z进行特征解耦;
[0019]所述S22包括:通过解码器进行特征图映射,得到深层卷积层中各特征的梯度信息y',梯度信息y'表示为卷积层中每个通道对于y的贡献,贡献越大表示该通道越重要,针对特征层Conv中c个通道的权重占比记作weight
c
;weight
c
表示为:
[0020][0021]所述S23包括:进行反向传播,通过ReLU激活函数并加权求和计算图像的激活梯度,对y'在特征图的宽和高求均值进行归一化获得每个通道的重要程度,最大化激活目标中高级语义特征图像,获得空间解耦后各类目标图像的形状纹理特征图FeatureMap,计算过程为:
[0022][0023]其中weight
c
表示针对特征层Conv中c个通道的权重占比,y表示原始图像经过序列化网络VGG16编码器正向传播后得到的矢量值,w和h分别表示高级语义特征图像的宽和高,表示特征层在通道c中坐标位置为(i,j)处的数据。
[0024]优选的,所述S3包括:
[0025]S31,由多维损失函数监督目标转换模型的生成器,所述多维损失函数包含三类损失函数,分别为颜色特征损失函数L
Color
(),形状特征损失函数L
Shape
()以及纹理特征损失函数L
Texture
();
[0026]S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数;
[0027]S33,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由配平权重后的基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集。
[0028]优选的,所述S31中,所述颜色特征损失函数为CycleGAN网络中循环一致损失函数及自映射损失函数;所述颜色特征损失函数表示为:
[0029]L
Color
(G
ST
+G
TS
)=L
Cycle
(G
ST
+G
TS
)+L
Identity
(G
ST
+G
TS
)
ꢀꢀꢀꢀ
(4)
[0030]所述循环一致损失表示为:
[0031]I
Cycle
(G
ST
+G
TS
)=E
s~pdata(s)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多特征损失函数融合的目标标注方法,其特征在于,所述方法用于多个类别的目标标注任务,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的目标的颜色、形状以及纹理的生成方向,包括:S1,获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;S2,将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;S3,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;S4,将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。2.根据权利要求1所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述S2包括:S21,利用预训练特征提取网络或预训练特征编码网络作为编码器挖掘目标图像的潜在空间;S22,利用反向导向特征可视化映射作为解码器突出目标图像中的目标特征的解空间表示,从而利用无监督的方式发现目标图像中的潜在特征;S23,基于所述潜在特征提取基于潜在空间的特征图。3.根据权利要求2所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述编码器为序列化网络VGG16,所述S21包括:从VGG16最后一层的深层卷积层输出图像的矢量化表示提取高级语义信息,所述矢量化表示为矢量值y;并将所述矢量值y利用潜在编码z进行特征解耦;所述S22包括:通过解码器进行特征图映射,得到深层卷积层中各特征的梯度信息y',所述梯度信息y'表示为卷积层中每个通道对于y的贡献,贡献越大表示该通道越重要,针对特征层Conv中c个通道的权重占比记作weight
c
;weight
c
表示为:所述S23包括:进行反向传播,通过ReLU激活函数并加权求和计算图像的激活梯度,对y'在特征图的宽和高求均值进行归一化获得每个通道的重要程度,最大化激活目标中高级语义特征图像,获得空间解耦后各类目标图像的形状纹理特征图FeatureMap,计算过程为:其中weight
c
表示针对特征层Conv中c个通道的权重占比,y表示原始图像经过序列化网络VGG16编码器正向传播后得到的矢量值,w和h分别表示高级语义特征图像的宽和高,表示特征层在通道c中坐标位置为(i,j)处的数据。4.根据权利要求3所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述S3包括:
S31,由多维损失函数监督目标转换模型的生成器,所述多维损失函数包含三类损失函数,分别为颜色特征损失函数L
Color
(),形状特征损失函数L
Shape
()以及纹理特征损失函数L
Texture
();S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后,获得基于熵权法的多维损失函数;S33,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由配平权重后的基于熵权法的多维损失函数监督的目标转换模型中,获得多类别目标域无背景目标图像的子集。5.根据权利要求4所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述S31中,所述颜色特征损失函数为CycleGAN网络中循环一致损失函数及自映射损失函数;所述颜色特征损失函数表示为:L
Color
(G
ST
+G
TS
)=L
Cycle
(G
ST
+G
TS
)+L
Identity
(G
ST
+G
TS
)
ꢀꢀ
(4)所述循环一致损失表示为:L
Cycle
(G
ST
+G
TS
)=E
s~pdata(s)
||G
TS
(G
ST
(s))-s||1+E
t~pdata(t)
||G
ST
(G
TS
(t))-t||1ꢀꢀ
(5)所述自映射损失函数表示为:L
Identity
(G
ST
+G
TS
)=E
s~pdata(t)
||s-G
ST
(s)||1+E
s~pdata(t)
||t-G
TS
(t)||1ꢀꢀ
(6)其中,G
ST
表示源域特征,G
TS
表示目标域特征,E
s~pdata(s)
以及E
t~pdata(t)
分别表示源域以及目标域中的数据分布,t和s分别表示目标域以及源域的图像信息;所述形状特征损失函数为基于多尺度结构相似性指数MS

SSIM,所述形状特征损失函数表示为:L
Shape
(G
ST
+G
TS
)=(1

MS_SSIM(G...

【专利技术属性】
技术研发人员:张文利刘钰昕郑超
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1