本发明专利技术公开了计算机视觉领域的一种真实场景图像合成方法及系统,根据检测对象建立3D模型及搭建虚拟场景,为3D模型添加随机参数,使用计算机图形技术进行图像渲染,输出训练图像及对应的标注信息,构建训练数据集;通过训练数据集对真实场景图像合成网络模型进行训练,得到训练好的真实场景图像合成网络模型;将所述待合成的语义图输入到所述训练好的真实场景图像合成网络模型中,得到与所述待合成的语义图对应的真实场景合成图;本发明专利技术的方法或系统,能够快速有效可靠的合成真实感更强的图像,提高合成图像的真实感和视觉质量,扩大应用范围与应用场景。应用范围与应用场景。应用范围与应用场景。
【技术实现步骤摘要】
一种真实场景图像合成方法及系统
[0001]本专利技术属于计算机视觉领域,具体涉及一种真实场景图像合成方法及系统。
技术介绍
[0002]目前,基于深度学习的目标检测技术已经发展得较为成熟,并且已经诞生了很多基于目标检测的应用,如人脸识别、车辆检测、自动驾驶等。但距离目标检测方法走向各行各业还有很长的距离,而数据正是不可避免的难题。基于深度学习的目标检测方法是数据驱动的,它需要大量的图像数据和人工标注。当遇到复杂的视觉任务时,如检测对象涉及多个种类、检测环境复杂不利于采集数据、检测对象涉及专家知识等,都会为数据集构建带来重重困难。
[0003]合成数据作为一种新的数据集构建方法近年来广泛用于评估和训练深度神经网络模型,如MPI
‑
Sintel、SceneNet、GTA
‑
V、Flying Chairs等。这些合成数据集证明了合成数据有着不输真实数据的实力,但是它们构建数据集的方法不具有通用性。
技术实现思路
[0004]本专利技术的目的在于提供一种真实场景图像合成方法及系统,使构建合成图像具有一定的通用性和易用性。
[0005]为达到上述目的,本专利技术所采用的技术方案是:
[0006]本专利技术一方面提供了一种真实场景图像合成方法,包括:
[0007]获取多幅待合成的语义图;
[0008]将所述待合成的语义图输入到所述训练好的真实场景图像合成网络模型中,得到与所述待合成的语义图对应的真实场景合成图;
[0009]所述真实场景图像合成网络模型的训练过程,包括:
[0010]根据检测对象建立3D模型及搭建虚拟场景,添加随机参数,使用计算机图形技术进行图像渲染,输出训练图像及对应的标注信息,构建训练数据集;
[0011]通过训练数据集对真实场景图像合成网络模型进行训练,计算真实场景图像合成网络模型得到损失函数,通过梯度下降算法求得损失取近似最小值时损失函数的网络权重,得到训练好的真实场景图像合成网络模型。
[0012]优选的,所述随机参数的种类,包括:点光源的数量和位置,环境光的光照强度;虚拟相机相对于检测目标的位置;3D模型的纹理和背景;以及添加到虚拟场景中的干扰物的数量、形状、纹理和大小。
[0013]优选的,使用计算机图形技术进行图像渲染,计算过程包括:
[0014](I,L)=Render(M,R,W,H)#(1)
[0015]其中,Render为图像渲染函数,(I,L)是输出训练图像及对应的标注信息,M为三维虚拟场景中3D模型的集合,R为虚拟场景中3D模型的随机化组件集合,W和H分别代表输出图像的宽和高。
[0016]优选的,通过训练数据集对真实场景图像合成网络模型进行训练,过程包括:
[0017]从标注信息中获取训练图像边界框的左上角顶点P1(X1,Y1)、右下角顶点P2(X2,Y2)组成和类别C;
[0018]计算得到训练图像边界框的宽、高和中心点坐标,作为COCO格式的训练数据集,公式为:
[0019][0020][0021]W
c
=X2‑
X1[0022]H
c
=Y2‑
Y1[0023]公式中,X
c
表示为训练图像边界框的中心点的横向坐标;Y
c
表示为训练图像边界框的中心点的纵向坐标;W
c
表示为训练图像边界框的宽;H
c
表示为训练图像边界框的高;
[0024]通过COCO格式的训练数据集对真实场景图像合成网络模型进行训练。
[0025]优选的,计算真实场景图像合成网络模型得到损失函数,过程包括:
[0026]真实场景图像合成网络模型的的预测函数为:
[0027][0028]公式中,为真实场景图像合成网络模型的预测函数,w为神经网络权重,x为输入真实场景图像合成网络模型的训练图像,l为真实场景图像合成网络模型的预测结果;
[0029]则真实场景图像合成网络模型的总误差函数为:
[0030][0031]公式中,Loss(
·
)表示预测结果与标注信息的标注值的误差函数,Li表示为标注信息的标注值;D表示训练数据集的标注信息。
[0032]优选的,通过梯度下降算法求得损失取近似最小值时,损失函数的网络权重,过程包括:
[0033]将训练数据集随机打乱,然后将其划分成n个容量为m的批数据;
[0034]计算第i批的平均误差函数梯度,计算公式为:
[0035][0036]公式中,grad
i
是第i批数据的平均误差函数梯度,x
ij
为第i批数据中的第j张训练图像,L
ij
为与训练图像x
ij
对应标注信息的标注值;
[0037]使用grad
i
更新损失函数的网络权重w。
[0038]优选的,使用grad
i
更新损失函数的网络权重w,过程包括:
[0039]所述网络权重w的迭代公式为:
[0040]w
i+1
=w
i
‑
lr
·
grad
i
[0041]公式中,lr为学习率大小,w
i
为第i批数据对应的网络权重w;
[0042]当i>n,网络权重w的收敛时,获取损失函数的网络权重w;
[0043]当i>n,网络权重w的发散时,则重新划分训练数据集对损失函数的网络权重w进行计算。
[0044]本专利技术另一方面提供了一种真实场景图像合成系统,包括:
[0045]虚拟模型搭建模块,用于根据检测对象建立3D模型及搭建虚拟场景,添加随机参数,使用计算机图形技术进行图像渲染,输出训练图像及对应的标注信息;
[0046]第一获取模块,用于获取虚拟模型搭建模块输出的训练图像及对应的标注信息,构建训练数据集;
[0047]训练模块,通过训练数据集对真实场景图像合成网络模型进行训练,计算真实场景图像合成网络模型得到损失函数,通过梯度下降算法求得损失取近似最小值时损失函数的网络权重,得到训练好的真实场景图像合成网络模型;
[0048]第二获取模块,用于获取多幅待合成的语义图;
[0049]合成模块,用于将所述待合成的语义图输入到所述训练好的真实场景图像合成网络模型中,得到与所述待合成的语义图对应的真实场景合成图。
[0050]优选的,所述虚拟模型搭建模块包括:
[0051]3D模型搭建模块,用于制作检测对象的3D模型以及纹理;
[0052]虚拟场景搭建模块,通过虚幻游戏引擎为检测对象搭建虚拟场景;
[0053]随机组件,用于为3D模型添加随机参数。
[0054]与现有技术相比,本专利技术所达到的有益效果:
[0055]本专利技术中根据检测对象建立3D模型及搭建虚本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种真实场景图像合成方法,其特征在于,包括:获取多幅待合成的语义图;将所述待合成的语义图输入到所述训练好的真实场景图像合成网络模型中,得到与所述待合成的语义图对应的真实场景合成图;所述真实场景图像合成网络模型的训练过程,包括:根据检测对象建立3D模型及搭建虚拟场景,添加随机参数,使用计算机图形技术进行图像渲染,输出训练图像及对应的标注信息,构建训练数据集;通过训练数据集对真实场景图像合成网络模型进行训练,计算真实场景图像合成网络模型得到损失函数,通过梯度下降算法求得损失取近似最小值时损失函数的网络权重,得到训练好的真实场景图像合成网络模型。2.根据权利要求1所述的一种真实场景图像合成方法及系统,其特征在于,所述随机参数的种类,包括:点光源的数量和位置,环境光的光照强度;虚拟相机相对于检测目标的位置;3D模型的纹理和背景;以及添加到虚拟场景中的干扰物的数量、形状、纹理和大小。3.根据权利要求1所述的一种真实场景图像合成方法及系统,其特征在于,使用计算机图形技术进行图像渲染,计算过程包括:(I,L)=Render(M,R,W,H)#(1)其中,Render为图像渲染函数,(I,L)是输出训练图像及对应的标注信息,M为三维虚拟场景中3D模型的集合,R为虚拟场景中3D模型的随机化组件集合,W和H分别代表输出图像的宽和高。4.根据权利要求1所述的一种真实场景图像合成方法及系统,其特征在于,通过训练数据集对真实场景图像合成网络模型进行训练,过程包括:从标注信息中获取训练图像边界框的左上角顶点P1(X1,Y1)、右下角顶点P2(X2,Y2)组成和类别C;计算得到训练图像边界框的宽、高和中心点坐标,作为COCO格式的训练数据集,公式为:为:W
c
=X2‑
X1H
c
=Y2‑
Y1公式中,X
c
表示为训练图像边界框的中心点的横向坐标;Y
c
表示为训练图像边界框的中心点的纵向坐标;W
c
表示为训练图像边界框的宽;H
c
表示为训练图像边界框的高;通过COCO格式的训练数据集对真实场景图像合成网络模型进行训练。5.根据权利要求4所述的一种真实场景图像合成方法及系统,其特征在于,计算真实场景图像合成网络模型得到损失函数,过程包括:真实场景图像合成网络模型的的预测函数为:
公式中,为真实场景图像合成网络模型的预测函数,w为神经网络权重,x为输入真实场景图像合成网络模型的训练图像,l为真实场景图像合成网络模型的预测结果;则真...
【专利技术属性】
技术研发人员:周宁宁,李侗,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。