可迁移的图像识别方法及装置制造方法及图纸

技术编号:32817930 阅读:22 留言:0更新日期:2022-03-26 20:14
本发明专利技术是关于一种可迁移的图像识别方法及装置,涉及图像识别技术领域,方法包括:确定输入图像识别模型的图像类型;当输入的图像为有标签的源域图像时,使有标签的源域图像通过特征提取器和类别预测器,并确定交叉熵损失;当输入的图像为无标签的目标域图像时,使目标域图像通过特征提取器和域判别器,同时通过特征提取器和类别预测器;根据域判别器的输出结果和目标域图像与每一个源域图像的中心点的相似度确定对抗损失;根据类别预测器的输出结果确定信息最大化损失;根据交叉熵损失、对抗损失和信息最大化损失优化图像识别模型。通过该技术方案,可以有效地提高目标图像识别的性能,并有效减少对于目标图像识别的标注,大量减少人力物力。减少人力物力。减少人力物力。

【技术实现步骤摘要】
可迁移的图像识别方法及装置


[0001]本专利技术涉及图像识别
,尤其涉及一种可迁移的图像识别方法及装置。

技术介绍

[0002]可迁移的图像识别是指在进行图像识别时,利用分布相似但不同的已标注图像来指导当前无标签的图像进行准确识别的技术。大数据时代下,分析数据中隐含的价值信息来指导人们的生活和生产已成为一个良性的发展趋势。但在现实场景下,收集到大量无标签的数据非常容易,而在某些任务上进行准确的人工标注是非常耗时耗力的,比如对大规模的传感器图像的准确标注。在这种限制下,可以借助已有标注图像,利用标注图像和欲识别图像分布之间的相似性,指导当前图像识别的任务。例如,传感器A和B采集的是相同任务的图像,且传感器A的图像(一般称为源域图像)已被标注,由于传感器A和B中采集的图像类别相同,传感器B可以借助传感器A已经标注数据进行有效的图像识别,而不用为传感器B得到的数据进行大规模的标注。但是由于传感器A和B设备内部构造等的不同,两者收集到的图像数据存在着分布差异,那么如何在图像分布差异存在的情况下,实现对传感器B收集到的图像(一般称为目标域图像)进行准确识别是当前可迁移图像识别问题中的一个难点。
[0003]传统方法:在传感器收集的数据上进行准确的标注,重新训练一个模型,将模型用以图像识别任务,但是此过程产生昂贵人力浪费,且在大数据背景下,对所有收集到的数据进行准确的人工标注极其不现实。

技术实现思路

[0004]为克服相关技术中存在的问题,本专利技术提供一种可迁移的图像识别方法及装置。
[0005]根据本专利技术实施例的第一方面,提供一种可迁移的图像识别方法,方法包括:确定输入图像识别模型的图像类型,其中,所述图像类型包括有标签的源域图像和无标签的目标域图像,所述图像识别模型包括特征提取器、类别预测器和域判别器;当输入的图像为有标签的源域图像时,使所述有标签的源域图像通过所述特征提取器和类别预测器,并确定交叉熵损失;当输入的图像为无标签的目标域图像时,使所述目标域图像通过所述特征提取器和域判别器,同时通过所述特征提取器和类别预测器;根据所述域判别器的输出结果和所述目标域图像与每一个源域图像的中心点的相似度确定对抗损失;根据所述类别预测器的输出结果确定信息最大化损失;根据所述交叉熵损失、所述对抗损失和所述信息最大化损失优化所述图像识别模型。
[0006]在一个实施例中,优选地,所述方法还包括:获取欲识别的目标图像;根据所述图像识别模型对所述目标图像进行识别,以确定所述目标图像的所属类
别。
[0007]在一个实施例中,优选地,采用以下第一公式计算所述交叉熵损失:其中,D
s
表示所有源域图像,L
CE
(D
s
)表示所有源域图像的交叉熵损失,E表示期望,x
s
表示源域图像的特征,y
s
表示源域图像的标签类别,表示指示函数,σ表示softmax函数,log表示log函数,表示源域图像的特征通过所述特征提取器和类别预测器后的输出结果,K表示图像总类别数。
[0008]在一个实施例中,优选地,根据所述域判别器的输出结果和所述目标域图像与每一个源域图像的中心点的相似度确定对抗损失,包括:根据所述域判别器的输出结果确定最初的对抗损失,其中,采用以下第二计算公式计算所述最初的对抗损失:其中,L
d_initial
(D
i
)表示第i个目标域图像的最初的对抗损失,D
i
表示第i个目标域图像,x
t
表示第i个目标域图像的特征,D(G(x
t
))表示第i个目标域图像经过特征提取器再经过域判别器的输出结果,该域判别器输出结果相当于是一个二元分类问题,d
i
表示第i个目标域图像的二元标签,用来表示这个目标域图像属于源域还是目标域,最大化L
d_initial
(D
i
),使得域判别器进行特征级别的对齐;通过特征提取器输出的所有源域图像的特征确定每个类别的图像的聚类中心,其中,采用以下第三计算公式计算所述聚类中心;其中,c
k
表示第k个类别的图像的聚类中心,x
s
表示源域图像S的特征,y
s
表示源域图像S的标签类别,D
s
表示所有源域图像,表示指示函数,G(x
s
)表示源域图像S的特征经过特征提取器之后输出的特征;计算每个目标域图像和与其距离最近的聚类中心之间的相似度,将所述相似度作为所述目标域图像的最初的对抗损失的权重,其中,采用以下第四计算公式计算所述权重;其中,w
t
表示第i个目标域图像的最初的对抗损失对应的权重,D
f 表示cosine相似
度,c
k
表示第k个类别的图像的聚类中心,x
t
表示第i个目标域图像的特征;根据所述最初的对抗损失和与其对应的权重,计算所述目标域图像对应的对抗损失,其中,采用以下第五计算公式计算所述对抗损失:其中,L
d
(D
i
)表示第i个目标域图像的对抗损失,w
t
表示第i个目标域图像的最初的对抗损失对应的权重,x
t
表示第i个目标域图像的特征,D(G(x
t
))表示第i个目标域图像经过特征提取器再经过域判别器的输出结果,d
i
表示第i个目标域图像的二元标签。
[0009]在一个实施例中,优选地,根据所述类别预测器的输出结果确定信息最大化损失,包括:根据所述类别预测器的输出结果计算目标域图像的熵最小化损失和类平均熵最大化损失;根据所述熵最小化损失和类平均熵最大化损失计算所述信息最大化损失;其中,采用以下第六计算公式计算所述熵最小化损失:其中,L
ent (D
t
)表示所述熵最小化损失,D
t
表示所有目标域图像,σ表示softmax函数,H(G(x
t
))表示目标域图像经过特征提取器,再经过标签预测器之后的输出结果,K表示图像总类别数,E表示期望,x
t
表示目标域图像;采用以下第七计算公式计算所述类平均熵最大化损失:其中,L
div
(D
t
)表示所述类平均熵最大化损失,表示所有类别为k的样本经softmax之后的平均概率向量;其中,采用以下第八计算公式计算所述信息最大化损失:L
IM = L
ent + L
div
L
IM
表示所述信息最大化损失,L
ent (D
t
)表示所述熵最小化损失,L
div
(D
t
)表示所述类平均熵最大化损失。
[0010]在一个实施例中,优选地,根据所述交叉熵损失、所述对抗损失和所述信息最大化损失优化所述图像识别模型,包括:根据所述交叉熵损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可迁移的图像识别方法,其特征在于,所述方法包括:确定输入图像识别模型的图像类型,其中,所述图像类型包括有标签的源域图像和无标签的目标域图像,所述图像识别模型包括特征提取器、类别预测器和域判别器;当输入的图像为有标签的源域图像时,使所述有标签的源域图像通过所述特征提取器和类别预测器,并确定交叉熵损失;当输入的图像为无标签的目标域图像时,使所述目标域图像通过所述特征提取器和域判别器,同时通过所述特征提取器和类别预测器;根据所述域判别器的输出结果和所述目标域图像与每一个源域图像的中心点的相似度确定对抗损失;根据所述类别预测器的输出结果确定信息最大化损失;根据所述交叉熵损失、所述对抗损失和所述信息最大化损失优化所述图像识别模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取欲识别的目标图像;根据所述图像识别模型对所述目标图像进行识别,以确定所述目标图像的所属类别。3.根据权利要求1所述的方法,其特征在于, 采用以下第一公式计算所述交叉熵损失:其中,D
s
表示所有源域图像,L
CE
(D
s
)表示所有源域图像的交叉熵损失,E表示期望,x
s
表示源域图像的特征,y
s
表示源域图像的标签类别,表示指示函数,σ表示softmax函数,log表示log函数,表示源域图像的特征通过所述特征提取器和类别预测器后的输出结果,K表示图像总类别数。4.根据权利要求1所述的方法,其特征在于,根据所述域判别器的输出结果和所述目标域图像与每一个源域图像的中心点的相似度确定对抗损失,包括:根据所述域判别器的输出结果确定最初的对抗损失,其中,采用以下第二计算公式计算所述最初的对抗损失:其中,L
d_initial
(D
i
)表示第i个目标域图像的最初的对抗损失,D
i
表示第i个目标域图像,x
t
表示第i个目标域图像的特征,D(G(x
t
))表示第i个目标域图像经过特征提取器再经过域判别器的输出结果,该域判别器输出结果相当于是一个二元分类问题,d
i
表示第i个目标域图像的二元标签,用来表示这个目标域图像属于源域还是目标域,最大化L
d_initial
(D
i
),使得域判别器进行特征级别的对齐;通过特征提取器输出的所有源域图像的特征确定每个类别的图像的聚类中心,其中,采用以下第三计算公式计算所述聚类中心;
其中,c
k
表示第k个类别的图像的聚类中心,x
s
表示源域图像S的特征,y
s
表示源域图像S的标签类别,D
s
表示所有源域图像,表示指示函数,G(x
s
)表示源域图像S的特征经过特征提取器之后输出的特征;计算每个目标域图像和与其距离最近的聚类中心之间的相似度,将所述相似度作为所述目标域图像的最初的对抗损失的权重,其中,采用以下第四计算公式计算所述权重;其中,w
t
表示第i个目标域图像的最初的对抗损失对应的权重,D
f 表示cosine相似度,c
k
表示第k个类别的图像的聚类中心,x
t
表示第i个目标域图像的特征;根据所述最初的对抗损失和与其对应的权重,计算所述目标域图像对应的对抗损失,其中,采用以下第五计算公式计算所述对抗损失:其中,L
d
(D
i
)表示第i个目标域图像的对抗损失,w
t
表示第i个目标域图像的最初的对抗损失对应的权重,x
t
表示第i个目标域图像的特征,D(G(x
t
))表示第i个目标域图像经过特征提取器再经过域判别器的输出结果,d
i
表示第i个目标域图像的二元标签。5.根据权利要求1所述的方法,其特征在于,根据所述类别预测器的输出结果确定信息最大化损失,包括:根据所述类别预测器的输出结果计算目标域图像的熵最小化损失和类平均熵最大化损失;根据所述熵最小化损失和类平均熵最大化损失计算所述信息最大化损失;其中,采用以下第六计算公式计算所述熵最小化损失:其中,L
ent (D
t
)表示所述熵最小化损失,D
t
表示所有目标域图像,σ表示softmax函数,H(G(x
t
))表示目标域图像经过特征提取器,再经过标签预测器之后的输出结果,K表示图像总类别数,E表示期望,x
t
表示目标域图像;采用以下第七计算公式计算所述类平均熵最大化损失:
其中,L
div
(D
t
)表示所述类平均熵最大化损失,表示所有类别为k的样本经softmax之后的平均概率向量;其中,采用以下第八计算公式计算所述信息最大化损失:L
IM = L
ent + L
div
L
IM
表示所述信息最大化损失,L
ent (D
t
)表示所述熵最小化损失,L
div
(D
t
)表示所述类平均熵最大化损失。6.根据权利要求1所述的方法,其特征在于,根据所述交叉熵损失、所述对抗损失和所述信息最大化损失优化所述图像识别模型,包括:根据所述交叉熵损失、所述对抗损失和所述信息最大化损失确定模型最终损失,其中,采用以下第九计算公式计算所述模型最终损失:L = L
CE (D
s
)
ꢀ‑ꢀ
L
d
(D
t
) + βL
IM
L表示所述模型最终损失,L
CE (D
s
)表示所述交叉熵损失,L
d
(D
t
)表示所述对抗损失,L
IM

【专利技术属性】
技术研发人员:张凯王帆韩忠义房体品
申请(专利权)人:山东力聚机器人科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1