【技术实现步骤摘要】
一种融合多模态数据的3D卷积神经网络手语识别方法
本专利技术属于教育信息化
,更具体的涉及一种基于3D卷积神经网络的动态手语识别方法及系统,可应用于科技馆环境下面向聋哑人特殊群体的体感互动。
技术介绍
手语是聋哑人互相交流以及聋哑人与正常人交流最有利的工具,也是聋哑人群获取信息服务从而平等地参与社会生活、共享社会物质文化成果最重要最自然的途径。同时,动态手语因具有很强的视觉效果以及形象、直观的特点,在人机交互领域具有相当高的应用价值。现有的手势识别方法都是遵循以下两个步骤:(1)从原始的输入数据中提取出复杂的特征;(2)基于提取到的特征训练出分类器。然而,人工的特征提取和选择是一件非常耗时耗力的工作,必须要有非常深厚的专业知识和经验才能确保分类特征的正确性。同时,人工选取的特征也很难适应动态手势的多变性。中国专利申请号为201410795071.5的专利技术专利申请公开了一种基于主元分析和K均值聚类的手势识别方法,其主要技术方案为:人工标记视频流中的手势区域为感兴趣区域;利用肤色分割对感兴趣的区域进行边缘处理提取手部轮廓;最后利用PCA分析得到一个新的向量, ...
【技术保护点】
一种基于多模态数据的3D卷积神经网络动态手语识别方法,其特征在于,包括以下步骤:(1)提取待识别的手势红外图像和轮廓图像;(2)将待识别的手势红外图像和轮廓图像分别输入两个3D卷积神经网络分类器,两个3D卷积神经网络分类器输出手势分类结果;(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果;所述步骤(2)中的两个3D卷积神经网络结构相同,均按照以下方式训练得到:所述3D卷积神经网络结构包括输入层、至少两次交互堆叠的卷积层和池化层、softmax分类层;输入层将样本手势红外图像或样本轮廓图像输入交互堆叠的卷积层和池化层,得到用于手势分类的图像特征;sof ...
【技术特征摘要】
1.一种基于多模态数据的3D卷积神经网络动态手语识别方法,其特征在于,包括以下步骤:(1)提取待识别的手势红外图像和轮廓图像;(2)将待识别的手势红外图像和轮廓图像分别输入两个3D卷积神经网络分类器,两个3D卷积神经网络分类器输出手势分类结果;(3)对两个3D卷积神经网络输出手势分类结果进行加权计算得到融合分类结果;所述步骤(2)中的两个3D卷积神经网络结构相同,均按照以下方式训练得到:所述3D卷积神经网络结构包括输入层、至少两次交互堆叠的卷积层和池化层、softmax分类层;输入层将样本手势红外图像或样本轮廓图像输入交互堆叠的卷积层和池化层,得到用于手势分类的图像特征;softmax分类层依据图像特征进行分类输出手势类别结果;计算softmax分类层输出的手势分类结果与实际手势类别之间的误差,依据计算得到的误差反向传播计算每一层参数的梯度,进而依据梯度对连接每一层参数进行调整,该过程循环进行,直到使每一层参数达到分类输出的误差极小点而停止迭代;所述卷积层表示为:式中,表示卷积层输出结果,表示输入的样本图像数据,下标中(l-1)m表示第l-1层中的第m个特征图,上标中x和y代表输入样本的空间维度,z代表输入样本的时间维度,p,q,r分别是卷积操作中三个维度的大小;是卷积核连接到前面第m个特征图中坐标为(i,j,m)的参数;Pi,Qi,Ri代表卷积核的大小;表示l层中的第j个特征图的偏置参数;σ(·)是神经网络的激活函数;所述池化层表示为:式中,为三维输入向量即卷积层输出结果,poolmax为池化后得到的输出,n和l分别代表池化操作在空间维度和时间维度上的大小。2.根据权利要求1所述的基于多模态数据的3D卷积神经网络动态手语识别方法,其特征在于,所述依据计算得到的误差反向传播计算每一层参数的梯度的具体实现方式为:
【专利技术属性】
技术研发人员:廖盛斌,梁智杰,杨宗凯,刘三女牙,左明章,刘攀,吴琼,郭丰,
申请(专利权)人:华中师范大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。