The invention discloses a method of training Yolo neural network based on 3D model. First, construct the 3D model of the object to be tested and the background model of the scene, combine them to form the scene map, randomize the coordinates of the center point of the 3D model of the object, Euler angle, texture parameters and the background model of the scene, render the scene map for many times to get the original data set; second, mark the five tuples in the original data set The top left vertex coordinate, the bottom right vertex coordinate and the image width and height of the border are calculated to get the relative proportion of the center point coordinate, the width and height of the border to the image width and height, and then the standard data set of the Yolo neural network is transformed; finally, the loss function of the data set combined with the Yolo neural network is established, and the approximate minimum value of the loss function is obtained by using the random gradient descent algorithm The invention can reduce the acquisition cost of the data set of the Yo neural network.
【技术实现步骤摘要】
一种基于3D模型训练YOLO神经网络的方法
本专利技术属于计算机视觉
,具体涉及了一种基于3D模型训练YOLO神经网络的方法。
技术介绍
近年来,随着卷积神经网络和深度学习的不断发展,目标检测技术迅猛兴起,目标检测是指能够正确识别图像中的指定物体并能够对其进行定位,由于目标检测技术的实用性和通用性,其应用领域十分广泛。当今目标检测技术主要基于深度卷积神经网络,目前较流行的一种网络结构是YOLO(YouOnlyLookOnce)网络,其特点是检测速度快,检测精度高,训练YOLO神经网络一般需要大量带物体位置标注的图片,所以在应用YOLO神经网络时第一步就是采集和标注大量的包含待检测目标图片,为了保证最后取得的深度学习模型的泛化性,收集数据时需要结合具体应用场景,需要考虑到数据的多样性,导致数据的采集难度增加,此外在标记数据时,则要通过人工一一辨识图片中的物体,效率低下,成本高昂,这也成为了将目标检测技术应用于具体业务时的一大障碍。
技术实现思路
专利技术目的:为了克服训练数据采集和标注成本高的 ...
【技术保护点】
1.一种基于3D模型训练YOLO神经网络的方法,其特征在于,包括以下步骤:/n步骤1、收集待测物体信息及场景信息,构建待测物体3D模型及场景背景模型,将两者结合形成完整的场景图,对场景图进行渲染,渲染模型如下:/nI=R(M
【技术特征摘要】
1.一种基于3D模型训练YOLO神经网络的方法,其特征在于,包括以下步骤:
步骤1、收集待测物体信息及场景信息,构建待测物体3D模型及场景背景模型,将两者结合形成完整的场景图,对场景图进行渲染,渲染模型如下:
I=R(Mo,Mb,po,eo,to,pw,ew,hi,wi,L)
式中,I是输出图像,R为场景渲染函数,Mo为待测物体3D模型,Mb为场景背景模型,Mo和Mb共同构成场景图M,po,eo,to分别为Mo在M中的中心点坐标、Euler角、纹理参数,pw,ew分别为图像窗口在M中的中心点坐标和Euler角;hi,wi为输出图像I的高度与宽度,L为场景图M的光照条件;
对参数pw,ew,hi,wi取定值,对参数Mo,Mb,po,eo,to,L分别取其预定义值域中的随机值,则对于特定的Mo,Mb,po,eo,to,L,由渲染模型得一张唯一的输出图像I,输出图像I中包含Mo所对应的物体,进行N次随机取值,得到N张不同的含有对应待检测物体的输出图像;
对于任意一张输出图像,以图像左上顶点为原点O,竖直方向为X轴,向下为X轴正方向,水平方向为Y轴,向右为Y轴正方向,建立坐标系;以X轴为图像的高度方向,以Y轴为图像的宽度方向,则图像的高度为hi,宽度为wi,图像右上顶点的坐标为(0,wi),左下顶点的坐标为(hi,0),图像中待检测物体的外接边界框高度为hb,宽度为wb,边界框的左上顶点,右下顶点,中点坐标分别为p1=(x1,y1),p2=(x2,y2),pc=(xc,yc);待检测物体一共有n个类别,将其编号为0~n-1;在渲染过程中,对于任意一张输出图片I,同时可得到图片I对应的标注信息,标注信息由一个五元组构成,形式为(c,x1,y1,x2,y2),其中c为对应物体的类别编号,x1,y1为物体的边界框左上坐标,x2,y2为物体的边界框右下顶点坐标,由N张输出图片和对应的N个标注五元组构成原始数据集Sraw;
步骤2、由原始数据集中标记五元组中边框界的左上顶点、右下顶点坐标与图像宽高计算得到边界框的中点坐标、宽、高与图像宽高的相对比例,形成新的标注五元组,然后对新的新的标注五元组形成的标注集中的每个标记五元组都进行转换,得到YOLO神经网络标准数据集S,转换关系如下:
其中,(c,x1,y1,x2,y2)表示原始数据集Sraw中元素,表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。