一种基于图像的目标检测方法、模型训练的方法及装置制造方法及图纸

技术编号:21433518 阅读:29 留言:0更新日期:2019-06-22 12:19
本申请公开了一种基于图像的目标检测方法。包括:获取第一待检测图像;获取第一待检测图像所对应的第二待检测图像,第二待检测图像属于第二领域,通过跨领域图像检测模型获取第二待检测图像所对应的检测结果,检测结果包括目标对象的目标定位信息和目标类别信息,跨领域图像检测模型包括第一网络模型以及第二网络模型,第一网络模型用于将图像从第一领域转换为第二领域,第二网络模型用于对第二领域的图像进行区域定位。本申请还公开了一种模型训练的方法及装置。本申请通过跨领域图像检测模型,将待检测图像的风格转换为测试集图像的风格,进而对转换后的图像进行目标定位,从而提升图像定位的准确性,增强模型预测效果。

【技术实现步骤摘要】
一种基于图像的目标检测方法、模型训练的方法及装置
本申请涉及人工智能领域,尤其涉及一种基于图像的目标检测方法、模型训练的方法及装置。
技术介绍
在机器学习领域中,通常需要将样本分成独立的两个部分,分别为训练集和测试集,训练集用于监督学习,监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练。测试集则用于检验最终选择的模型性能如何。在图像处理领域中,容易出现训练图像与测试图像之间领域差异较大的情况。目前,当训练集图像和测试集图像来自不同领域的时候,通常依靠一个对抗性损失函数来约束网络模型提取的特征,使得网络模型无法被分辨训练集图像来自哪个领域,从而达到对特征分布领域不敏感的目的。然而,由于训练集图像与测试集图像具有天然的领域分布差异,因此,强行让网络模型对训练集图像与测试集图像的特征模糊化是非常困难的,这样的话,通过采用领域A的训练集图像所训练得到的网络模型预测领域B上的测试集图像,导致预测效果较差。
技术实现思路
本申请实施例提供了一种基于图像的目标检测方法、模型训练的方法及装置,无需特意采用与测试集图像风格相同的待检测图像进行目标定位,而是采用跨领域图像检测模型,将待检测图像的风格转换为测试集图像的风格,进而对转换后的图像进行目标定位,从而提升图像定位的准确性,增强模型预测效果。有鉴于此,本申请第一方面提供一种基于图像的目标检测方法,包括:获取第一待检测图像,其中,所述第一待检测图像属于第一领域;获取第一待检测图像所对应的第二待检测图像,其中,所述第二待检测图像属于第二领域,所述第一领域与所述第二领域为不同的领域;通过跨领域图像检测模型获取所述第二待检测图像所对应的检测结果,其中,所述检测结果包括目标对象的目标定位信息和目标类别信息,所述目标对象属于所述第一待检测图像中的被检测对象,所述跨领域图像检测模型包括第一网络模型以及第二网络模型,所述第一网络模型用于将图像从所述第一领域转换为所述第二领域,所述第二网络模型用于对所述第二领域的图像进行区域定位。本申请第二方面提供一种模型训练的方法,包括:获取待训练图像以及待测试图像,其中,所述待训练图像属于第一领域,所述待测试图像属于第二领域,所述第一领域与所述第二领域为不同的领域;通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像,通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像,其中,所述测试风格图像属于所述第二领域,所述训练风格图像属于所述第一领域;通过第二待训练网络模型获取候选区域所对应的预测概率值,其中,所述候选区域是从所述待测试图像或所述测试风格图像中提取的候选框;通过所述第二待训练网络模型获取所述测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值;根据所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值,采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练,得到跨领域图像检测模型。本申请第三方面提供一种目标检测装置,包括:获取模块,用于获取第一待检测图像,其中,所述第一待检测图像属于第一领域;所述获取模块,还用于获取第一待检测图像所对应的第二待检测图像,其中,所述第二待检测图像属于第二领域,所述第一领域与所述第二领域为不同的领域;检测模块,用于通过跨领域图像检测模型获取所述获取模块获取到的所述第二待检测图像所对应的检测结果,其中,所述检测结果包括目标对象的目标定位信息和目标类别信息,所述目标对象属于所述第一待检测图像中的被检测对象,所述跨领域图像检测模型包括第一网络模型以及第二网络模型,所述第一网络模型用于将图像从所述第一领域转换为所述第二领域,所述第二网络模型用于对所述第二领域的图像进行区域定位。本申请第四方面提供一种模型训练装置,包括:获取模块,用于获取待训练图像以及待测试图像,其中,所述待训练图像属于第一领域,所述待测试图像属于第二领域,所述第一领域与所述第二领域为不同的领域;所述获取模块,还用于通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像,通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像,其中,所述测试风格图像属于所述第二领域,所述训练风格图像属于所述第一领域;所述获取模块,还用于通过第二待训练网络模型获取候选区域所对应的预测概率值,其中,所述候选区域是从所述待测试图像或所述测试风格图像中提取的候选框;所述获取模块,还用于通过所述第二待训练网络模型获取所述测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值;训练模块,用于根据所述获取模块获取的所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值,采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练,得到跨领域图像检测模型。在一种可能的设计中,在本申请实施例的第四方面的第一种实现方式中,所述训练模块,具体用于根据所述测试风格图像以及所述训练风格图像确定第一损失函数;根据所述预测概率值确定第二损失函数;根据所述所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值,确定第三损失函数;根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,生成所述目标损失函数;采用所述目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练。在一种可能的设计中,在本申请实施例的第四方面的第二种实现方式中,所述训练模块,具体用于采用如下方式确定所述第一损失函数;Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(xt))-xt||]+Es~X(s)[||Gt-s(Gs-t(xs))-xs||];其中,所述Lcyc(Gt-s,Gs-t)表示所述第一损失函数,所述xt表示所述待测试图像,所述xs表示所述待训练图像,所述Gs-t表示将所述待训练图像变换为所述测试风格图像的生成器,所述Gt-s表示将所述待测试图像变换为所述训练风格图像的生成器,所述Gt-s(xt)表示所述训练风格图像,所述Gs-t(xs)表示所述测试风格图像,所述Es~X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算,所述Et~X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算。在一种可能的设计中,在本申请实施例的第四方面的第三种实现方式中,所述模型训练装置还包括检测模块;所述检测模块,用于在所述获取模块通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像,通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像之后,通过第一判别器对所述测试风格图像进行真实性检测,其中,所述第一判别器为采用第一对抗损失函数进行训练后得到的;所述检测模块,还用于在所述获取模块通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像,通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像之后,通过第二判别器对所述训练风格图像进行真实性检测,其中,所本文档来自技高网...

【技术保护点】
1.一种模型训练的方法,其特征在于,包括:获取待训练图像以及待测试图像,其中,所述待训练图像属于第一领域,所述待测试图像属于第二领域,所述第一领域与所述第二领域为不同的领域;通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像,通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像,其中,所述测试风格图像属于所述第二领域,所述训练风格图像属于所述第一领域;通过第二待训练网络模型获取候选区域所对应的预测概率值,其中,所述候选区域是从所述待测试图像或所述测试风格图像中提取的候选框;通过所述第二待训练网络模型获取所述测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值;根据所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值,采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练,得到所述跨领域图像检测模型。

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:获取待训练图像以及待测试图像,其中,所述待训练图像属于第一领域,所述待测试图像属于第二领域,所述第一领域与所述第二领域为不同的领域;通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像,通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像,其中,所述测试风格图像属于所述第二领域,所述训练风格图像属于所述第一领域;通过第二待训练网络模型获取候选区域所对应的预测概率值,其中,所述候选区域是从所述待测试图像或所述测试风格图像中提取的候选框;通过所述第二待训练网络模型获取所述测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值;根据所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值,采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练,得到所述跨领域图像检测模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值,采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练,包括:根据所述测试风格图像以及所述训练风格图像确定第一损失函数;根据所述预测概率值确定第二损失函数;根据所述所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值,确定第三损失函数;根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,生成所述目标损失函数;采用所述目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练。3.根据权利要求2所述的方法,其特征在于,所述根据所述测试风格图像以及所述训练风格图像确定第一损失函数,包括:采用如下方式确定所述第一损失函数;Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(xt))-xt||]+Es~X(s)[||Gt-s(Gs-t(xs))-xs||];其中,所述Lcyc(Gt-s,Gs-t)表示所述第一损失函数,所述xt表示所述待测试图像,所述xs表示所述待训练图像,所述Gs-t表示将所述待训练图像变换为所述测试风格图像的生成器,所述Gt-s表示将所述待测试图像变换为所述训练风格图像的生成器,所述Gt-s(xt)表示所述训练风格图像,所述Gs-t(xs)表示所述测试风格图像,所述Es~X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算,所述Et~X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像,通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像之后,所述方法还包括:通过第一判别器对所述测试风格图像进行真实性检测,其中,所述第一判别器为采用第一对抗损失函数进行训练后得到的;通过第二判别器对所述训练风格图像进行真实性检测,其中,所述第二判别器为采用第二对抗损失函数进行训练后得到的。5.根据权利要求4所述的方法,其特征在于,所述通过第一判别器对所述测试风格图像进行真实性检测之前,所述方法还包括:采用如下方式获取所述第一对抗损失函数:LGAN(Dt,Gs-t)=Et~X(t)[logDt(x)]+Es~X(s)[log(1-Dt(Gs-t(s)))];其中,所述LGAN(Dt,Gs-t)表示所述第一对抗损失函数,所述Es~X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算,所述Et~X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算,所述Dt()表示所述第一判别器,所述s表示所述第一领域的图像,所述Gs-t()表示将所述第一领域的图像变换为所述二领域的图像的网络,所述x表示输入的图像。6.根据权利要求4所述的方法,其特征在于,所述通过第二判别器对所述训练风格图像进行真实性检测之前,所述方法还包括:采用如下方式获取所述第二对抗损失函数:LGAN(Ds,Gt-s)=Es~X(s)[logDs(x)]+Et~X(t)[log(1-Ds(Gt-s(t)))];其中,所述LGAN(Ds,Gt-s)表示所述第二对抗损失函数,所述Es~X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算,所述Et~X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算,所述Ds()表示所述第二判别器,所述t表示所述第二领域的图像,所述Gt-s()表示将所述第二领域的图像变换为所述一领域的图像的网络,所述x表示输入的图像。7.根据权利要求2所述的方法,其特征在于,所述根据所述预测概率值确定第二损失函数,包括:采用如下方式确定所述第二损失函数;其中,所述Ldomain表示所述第二损失函数,所述pi,j表示第i个候选区域在第j类上的预测概率值,所述d表示图像来源值。8.根据权利要求2所述的方法,其特征在于,所述根据所述所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值,确定第三损失函数,包括:采用如下方式确定所述第三损失函数;其中,所述Ldet(p,u,tm,v)表示所述第三损失函数,所述Lrpn-cls表示所述第二待训练网络模型中区域生成网络RPN的分类损失函数,所述prpn表示所述RPN的所述第一预测类别概率值,所述urpn表示所述RPN的第一真实类别概率值,所述Lrpn-loc表示所述第二待训练网络模型中所述RPN的定位损失函数,所述表示所述RPN的所述第一预测定位值,所述vrpn表示所述RPN的第一真实定位值,所述Lobj-cls表示所述第二待训练网络...

【专利技术属性】
技术研发人员:揭泽群
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1