一种基于YOLOv3的视觉投影交互方法技术

技术编号:20991941 阅读:66 留言:0更新日期:2019-04-29 22:06
本发明专利技术公开了一种基于YOLOv3的视觉投影交互方法,系统硬件包括PC、摄像头、近红外激光、近红外滤光片和投影仪,本发明专利技术的交互场景是弓箭射击虚拟交互场景,核心目标是获取弓箭的离弦速度和弓箭的击中位置,包括步骤,首先系统利用近红外激光构建一个近红外光面,当弓箭触及该光面时将产生高亮光斑,之后通过二值化、膨胀、腐蚀等图像处理算法来实现对射击位置的检测;其次,利用YOLOv3神经网络算法实现对双手位置的检测,进而确定双手距离;最后通过双手距离与弓箭离弦速度的线性关系获得弓箭的离弦速度。本发明专利技术使用YOLOv3神经网络模型进行双手位置的检测,相对于传统的手势追踪,本发明专利技术在准确度和速度方面拥有明显的优势。

An Interactive Method of Visual Projection Based on YOLOv3

The invention discloses a visual projection interactive method based on YOLOv3. The hardware of the system includes PC, camera, near infrared laser, near infrared filter and projector. The interactive scene of the invention is a virtual interactive scene of bow and arrow shooting. The core objective of the interactive scene is to obtain the bow and arrow off-line velocity and the bow and arrow hitting position, including steps. Firstly, the system uses near infrared laser to construct a near-red image. When the bow and arrow touch the outer light surface, it will produce high light spot. Then, the shooting position is detected by image processing algorithms such as binarization, expansion and corrosion. Secondly, the position of both hands is detected by using YOLOv3 neural network algorithm, and the distance of both hands is determined. Finally, the bow and arrow off-chord velocity is obtained by the linear relationship between the distance of both hands and the speed of bow and arrow off-chord. The invention uses YOLOv3 neural network model to detect the position of both hands. Compared with traditional gesture tracking, the invention has obvious advantages in accuracy and speed.

【技术实现步骤摘要】
一种基于YOLOv3的视觉投影交互方法
本专利技术涉及计算机视觉和图像识别领域,具体涉及一种基于YOLOv3的视觉投影交互方法。
技术介绍
由于计算机硬件和软件的快速发展,基于视觉投影的虚拟交互系统能够营造一种使用户具有真实感官体验的交互模式。该系统利用投影仪,在特定的区域中投影一组计算机影像信息,该信息表达了此刻计算机的输出。当用户进入影像区域并与系统进行互动时,系统使用所设计的算法检测和识别用户的有效动作,作出与该动作模式相对应的反应,并在投射的影像信息中向用户反馈,从而形成由投影系统、视觉系统及图像识别算法组成的一整套视觉投影交互系统。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供了一种基于YOLOv3的视觉投影交互方法。为实现以上目的,本专利技术采取如下技术方案:一种基于YOLOv3的视觉投影交互方法,采用视觉投影交互系统,所述的包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑,所述近红外激光沿投影面安装,上下各两个,用以形成近红外激面;所述普通摄像头与电脑相连,用于捕捉用户做出双手动作时刻的画面;所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连,用于捕捉用户双手动作的作用物触及近红外激光面时的画面,所述投影仪安装于相对所述投影面的支架上,用以向投影面投影交互画面,包括步骤:S1、收集预定数量的拉弓时刻的画面训练集,并对所述拉弓时刻的画面训练集进行标注;S2、使用迁移学习的方式对预训练的YOLOv3模型进行训练,最终得到一个基于YOLOv3的双手检测模型;S3、打开近红外激光,构建近红外激光面,投影仪将交互界面投向激光面;S4、利用安装有滤光片的摄像头采集箭击中时刻的画面;S5、将所述箭击中时刻的画面转换为灰度图像,根据灰度阈值对画面进行二值化转换;S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理,获取位置信息;S7、摄像头采集拉弓时刻的画面;S8、载入训练好的双手检测模型,将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息。进一步地,所述拉弓时刻的画面训练集采用的训练数据格式为voc格式,使用labelImg软件进行标注,标记数据格式为xml格式。进一步地,标记后的所述拉弓时刻的画面训练集还采用图像旋转、亮度改变和增加的数据增强方法增加数据集。进一步地,所述使用迁移学习的方式对预训练的YOLOv3模型进行训练时采用的预训练模型为yolov3-voc.cfg和darknet53.conv.74。进一步地,在转换灰度图像时,利用OPENCV库的cvCvtColor函数,在进行二值化时按如下公式进行:其中y为灰度值,ε为阈值。进一步地,采用腐蚀、膨胀图像处理算法对图像进行降噪处理,获取位置信息时,所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数。进一步地,在降噪处理后,利用OPENCV库中cvFindContours函数寻找光斑位置,最终得出作用物触及点位置信息。进一步地,所述将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息的步骤中,所述双手检测模型模型预测过程包括:featuremap中的每个cell预测3个边界框,每个边界框会预测3类参数包括:坐标信息的预测,具体为中心坐标、预测框的高度bh和宽度bw,以及置信度预测和每个类别的概率预测,最终模型将结合上述信息和置信度阈值给出最终位置信息。进一步地,所述的近红外激光为一字线型激光管;所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符。相比现有技术,本专利技术的有益效果包括:1、本专利技术使用YOLOv3神经网络模型进行双手位置的检测,相对于传统的手势追踪,本专利技术在准确度和速度方面拥有明显的优势。2、使用近红外激光构建探测面的方式来检测弓箭击中位置。当弓箭接触到近红外激光面时,将产生高亮光斑。装有滤光片的摄像头所获取的画面中物体几乎为高亮光斑,其他的复杂投影画面背景将会被过滤掉,这样可以大大提高定位的准确性。3、本专利技术由于采用数据驱动型的神经网络,其在使用过程中可以不断收集数据,不断进行训练以改善模型的性能。附图说明图1是本专利技术的实施流程图;图2是本专利技术的结构示意图;图3是YOLOv3的网络结构图;图4是YOLOv3的训练参数图;图5是检测双手效果图;图中:1-投影仪;2-带近红外滤光片的摄像头;3-普通摄像头;4-近红外激光;5-投影面;6-箭;7-弓。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例本专利技术的基于YOLOv3的视觉投影交互方法,采用视觉投影交互系统,如图2所示,包括一投影仪1、近红外激光4、带近红外滤光片的摄像头2、普通摄像头3和电脑,所述近红外激光沿投影面安装,上下各两个共四个,用以形成近红外激面;所述普通摄像头与电脑相连,用于捕捉用户做出双手动作时刻的画面;所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连,用于捕捉用户双手动作的作用物触及近红外激光面时的画面,所述投影仪安装于相对所述投影面的支架上,用以向投影面投影交互画面,所述的近红外激光为一字线型激光管;所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符,如图1所示,所述基于YOLOv3的视觉投影交互方法包括步骤:S1、如图5所示,收集预定数量的拉弓时刻的画面训练集,并对所述拉弓时刻的画面训练集进行标注,述拉弓7时刻的画面训练集采用的训练数据格式为voc格式,使用labelImg软件进行标注,标记数据格式为xml格式,最终获得数据集3700张并且采用图像旋转、亮度改变和增加的数据增强方法增加数据集。S2、如图3所示,使用迁移学习的方式对预训练的YOLOv3模型进行训练,最终得到一个高准确率、高性能的基于YOLOv3的双手检测模型,本实施例采用的预训练模型为yolov3-voc.cfg和darknet53.conv.74,在此模型的基础上进行训练。在训练之前,需要对模型的网络结构进行调整,包括对分类类别数量进行调整,以及卷积核数量的调整。之后设定训练参数,具体包括batch、learning_rate、decay和steps等参数,相应参数如图4所示。S3、打开近红外激光,构建近红外激光面,投影仪将交互界面投向激光面;S4、利用安装有滤光片的摄像头采集箭6击中时刻的画面;S5、将所述箭击中时刻的画面转换为灰度图像,根据灰度阈值对画面进行二值化转换,具体地,在转换灰度图像时,利用OPENCV库的cvCvtColor函数,在进行二值化时按如下公式进行:其中y为灰度值,ε为阈值。S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理,获取位置信息;具体地,采用腐蚀、膨胀图像处理算法对图像进行降噪处理,获取位置信息时,所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数。在降噪处理后,利用OPENCV库中cvFindContou本文档来自技高网...

【技术保护点】
1.一种基于YOLOv3的视觉投影交互方法,采用视觉投影交互系统,所述的包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑,所述近红外激光沿投影面安装,上下各两个,用以形成近红外激面;所述普通摄像头与电脑相连,用于捕捉用户做出双手动作时刻的画面;所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连,用于捕捉用户双手动作的作用物触及近红外激光面时的画面,所述投影仪安装于相对所述投影面的支架上,用以向投影面投影交互画面,其特征在于,包括步骤:S1、收集预定数量的拉弓时刻的画面训练集,并对所述拉弓时刻的画面训练集进行标注;S2、使用迁移学习的方式对预训练的YOLOv3模型进行训练,最终得到一个基于YOLOv3的双手检测模型;S3、打开近红外激光,构建近红外激光面,投影仪将交互界面投向激光面;S4、利用安装有滤光片的摄像头采集箭击中时刻的画面;S5、将所述箭击中时刻的画面转换为灰度图像,根据灰度阈值对画面进行二值化转换;S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理,获取位置信息;S7、摄像头采集拉弓时刻的画面;S8、载入训练好的双手检测模型,将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息。...

【技术特征摘要】
1.一种基于YOLOv3的视觉投影交互方法,采用视觉投影交互系统,所述的包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑,所述近红外激光沿投影面安装,上下各两个,用以形成近红外激面;所述普通摄像头与电脑相连,用于捕捉用户做出双手动作时刻的画面;所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连,用于捕捉用户双手动作的作用物触及近红外激光面时的画面,所述投影仪安装于相对所述投影面的支架上,用以向投影面投影交互画面,其特征在于,包括步骤:S1、收集预定数量的拉弓时刻的画面训练集,并对所述拉弓时刻的画面训练集进行标注;S2、使用迁移学习的方式对预训练的YOLOv3模型进行训练,最终得到一个基于YOLOv3的双手检测模型;S3、打开近红外激光,构建近红外激光面,投影仪将交互界面投向激光面;S4、利用安装有滤光片的摄像头采集箭击中时刻的画面;S5、将所述箭击中时刻的画面转换为灰度图像,根据灰度阈值对画面进行二值化转换;S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理,获取位置信息;S7、摄像头采集拉弓时刻的画面;S8、载入训练好的双手检测模型,将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息。2.根据权利要求1所述的基于YOLOv3的视觉投影交互方法,其特征在于,所述拉弓时刻的画面训练集采用的训练数据格式为voc格式,使用labelImg软件进行标注,标记数据格式为xml格式。3.根据权利要求1所述的基于YOLOv3的视觉投影交互方法,其特征在于,标记后的所述拉弓时刻的画面训练集还采用图像旋转、亮度改变和增加的数据增强方法增加数据集...

【专利技术属性】
技术研发人员:谢巍张伟东刘亚文李鸿斌
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1