一种基于深度学习的智能眼动轮椅制造技术

技术编号：35352009 阅读：12 留言：0更新日期：2022-10-26 12:21

本发明专利技术公开了一种基于深度学习的智能眼动轮椅，涉及机器视觉技术领域；包括眼动数据采集、数据预处理、眼动方向估计模型搭建、实验结果与可视化、眼动轮椅控制系统；其中数据预处理采用OpenCV图像处理和Dlib人脸检测技术；实验结果可视化利用Grad

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的智能眼动轮椅

[0001]本专利技术属于机器视觉
，具体涉及一种基于深度学习的智能眼动轮椅。

技术介绍

[0002]随着机器视觉技术的飞速发展，眼动追踪技术被应用在很多领域，例如：非言语交流、人机交互和意图预测等。根据世界卫生组织发布的世界残疾报告中指出，全球大约15％的人有某种形式的残疾，有1.32亿残疾人需要轮椅，占世界人口的1.86％。其中有数百万患有运动障碍有关疾病的人不能控制肢体甚至头部的运动。对于这些患者，眼睛是他们表达思想的重要途径。
[0003]传统的眼动方向预测多是使用眼动仪，眼动仪价格昂贵，长期佩戴眼动仪，其利用的红外技术会对人眼造成严重伤害；而且在检测时准确度低。

技术实现思路

[0004]为解决
技术介绍
中的问题；本专利技术的目的在于提供一种基于深度学习的智能眼动轮椅。
[0005]本专利技术的一种基于深度学习的智能眼动轮椅，包括眼动数据采集、数据预处理、眼动方向估计模型搭建、实验结果与可视化、眼动轮椅控制系统；其中数据预处理采用OpenCV图像处理和Dlib人脸检测技术；实验结果可视化利用Grad
‑
CAM对输入图像生成类激活的热力图，对卷积神经网络在视觉上进行可视化理解；眼动轮椅控制系统包括AI计算模块、微控制器和舵机机械结构。
[0006]作为优选，所述数据预处理为数据预处理模块，数据预处理模块包括视频提取图片、提取人脸人眼信息、对图片进行标注；
[0007](1)、利用OpenCV
‑/>Python对视频进行帧提取工作，并对提取后的图片尺寸统一裁剪为200*200；
[0008](2)、利用Dlib人脸检测算法，Dlib提取关键点，使用Python语言，对每张图片提取人眼信息，根据人眼的关键点坐标截取双眼图片；
[0009](3)、根据视频记录时间和激光笔照射位置，对每一帧图片中的人眼信息进行标注。
[0010]作为优选，所述眼动方向估计模型搭建为提出一个能准确、实时通过人眼图片估计眼动方向的神经网络模型；选择使用卷积神经网络结合注意力机制使用的数据集；使用信息融合技术，将人眼和人脸融合后作为输入进入神经网络，通过这些混合信息，模型能够准确的估计眼动方向。
[0011]作为优选，所述实验结果与可视化：采用Grad
‑
CAM对图像学习特征位置进行判别。
[0012]作为优选，所述眼动轮椅控制系统：首先读取前级摄像头视频图像数据后，运行人脸检测算法，提取人眼图像，将人眼图像送入MEANet网络，将网络输出通过UART接口发送给Arduino Uno微控制器，Arduino微控制器通过GPIO引脚连接两台MG995舵机，X轴与Y轴舵机
通过机械结构协同控制轮椅摇杆，完成眼动轮椅控制系统。
[0013]与现有技术相比，本专利技术的有益效果为：
[0014]一、使用深度学习算法估计眼动方向，不仅消缺人眼和屏幕的过度交互，同时实现低成本的眼动方向估计；在传统图片提取特征方法的基础上，将卷积神经网络和注意力机制结合，准确提出人眼瞳孔特征信息。
[0015]二、设计舵机控制电动轮椅操作杆机械结构，将眼动方向估计信号转化为Arduino控制电信号，进而通过机械结构控制轮椅追踪人眼实时运动。
附图说明
[0016]为了易于说明，本专利技术由下述的具体实施及附图作以详细描述。
[0017]图1为本专利技术的结构框图；
[0018]图2为本专利技术中MEANet整体结构图；
[0019]图3为本专利技术中残差网络层的示意图；
[0020]图4为本专利技术中CBAM注意力模块结构图；
[0021]图5为本专利技术中九分类任务验证混淆矩阵结果图；
[0022]图6为本专利技术中轮椅控制系统图；
[0023]图7为本专利技术中硬件控制系统集成图；
[0024]图8为本专利技术中软件总体流程图；
[0025]图9为本专利技术中人脸检测与信息提取流程图。
具体实施方式
[0026]为使本专利技术的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本专利技术。但是应该理解，这些描述只是示例性的，而并非要限制本专利技术的范围。本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本专利技术可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本专利技术所能产生的功效及所能达成的目的下，均应仍落在本专利技术所揭示的
技术实现思路
能涵盖的范围内。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本专利技术的概念。
[0027]在此，还需要说明的是，为了避免因不必要的细节而模糊了本专利技术，在附图中仅仅示出了与根据本专利技术的方案密切相关的结构和/或处理步骤，而省略了与本专利技术关系不大的其他细节。
[0028]本具体实施方式采用以下技术方案：包括眼动数据采集、数据预处理、眼动方向估计模型搭建、实验结果与可视化、眼动轮椅控制系统；其中数据预处理采用OpenCV图像处理和Dlib人脸检测技术；实验结果可视化利用Grad
‑
CAM(Gradient
‑
weighted Class Activation Mapping)对输入图像生成类激活的热力图，对卷积神经网络在视觉上进行可视化理解；眼动轮椅控制系统包括AI计算模块、微控制器和舵机机械结构；如图1所示。
[0029]眼动数据采集：数据采集类型决定了数据库的应用范围和功能，通过考虑眼动轮椅功能和控制要求，本具体实施方式在现实、虚拟两大场景下采集眼动数据。虚拟场景下，采用Linux操作系统，基于ROS，Gazebo平台进行轮椅驾驶仿真，采集虚拟环境眼动数据。在
现实场景下，本具体实施方式采用九宫格方案采集眼动数据。眼动数据采集实验参数如表2
‑
1所示。
[0030]表2
‑
1眼动数据采集实验参数
[0031][0032]本实验采用九宫格总体大小为99cm*99cm，九宫格到人眼距离为3m，背景为墙体。在考虑数据质量和对比现有视觉摄像头后，视觉摄像头模块决定采用谷客HD98摄像头，该摄像头分辨率为1920*1080，帧数为30帧/s，像素为1200万，具有自动对焦和自动补光功能。摄像头到人眼距离为48cm，摄像头与地面高度为110cm。
[0033]数据采集流程为将一个墙体人为划分九宫格，通过激光笔按照逆时针指向九宫格的每个小格，同时使用秒表记录每个小格停留时间，停留时间为每个小格5秒。将轮椅放置在离墙面3米距离处，实验者坐在轮椅上观察激光笔的位置，在此期间通过摄像头采集人脸区域视频。
[0034]眼动数据库共包含100个对象，每个对象包含1350张数据。其中带眼睛3人，男女比例3：1，平均年龄34岁。
[0035]数据预处理模块：
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的智能眼动轮椅，其特征在于：包括眼动数据采集、数据预处理、眼动方向估计模型搭建、实验结果与可视化、眼动轮椅控制系统；其中数据预处理采用OpenCV图像处理和Dlib人脸检测技术；实验结果可视化利用Grad
‑
CAM对输入图像生成类激活的热力图，对卷积神经网络在视觉上进行可视化理解；眼动轮椅控制系统包括AI计算模块、微控制器和舵机机械结构。2.根据权利要求1所述的一种基于深度学习的智能眼动轮椅，其特征在于：所述数据预处理为数据预处理模块，数据预处理模块包括视频提取图片、提取人脸人眼信息、对图片进行标注；（1）、利用OpenCV
‑
Python对视频进行帧提取工作，并对提取后的图片尺寸统一裁剪为200*200；（2）、利用Dlib人脸检测算法，Dlib提取关键点，使用Python语言，对每张图片提取人眼信息，根据人眼的关键点坐标截取双眼图片；（3）、根据视频记录时间和激光笔照射位置，对每一帧图片中的人眼...

【专利技术属性】
技术研发人员：徐军，周浩，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人