基于强化学习的连续手语识别方法、电子设备和存储介质技术

技术编号:33708906 阅读:122 留言:0更新日期:2022-06-06 08:37
本发明专利技术公开了一种基于强化学习的连续手语识别方法、电子设备和存储介质,所述方法包括:构建强化学习网络模块,对连续视频帧进行裁剪处理,获得全身视频帧、手部视频帧和脸部视频帧,分别使用强化学习网络模块挑选其中的核心视频帧,提取各核心视频帧中的特征,拼接各特征获取视频片段,对视频片段进行识别得到连续手语识别句子;本发明专利技术降低了视频帧的处理量,提高了手语识别效率,并使手语识别的准确性得到大幅度提升。性得到大幅度提升。性得到大幅度提升。

【技术实现步骤摘要】
基于强化学习的连续手语识别方法、电子设备和存储介质


[0001]本专利技术属于数据处理
,特别是涉及一种基于强化学习的连续手语识别方法、电子设备和存储介质。

技术介绍

[0002]近年来,随着深度相机等的广泛应用以及人道主义关爱的推广,聋哑人的生活备受大家关心,聋哑人与正常人的交流逐渐成为人们关注的焦点,基于机器学习的连续手语识别问题引起了很多关注;聋哑人通过手语进行交流,听懂或说明白手语会帮助正常人更好地理解聋哑人需要,更好地给予聋哑人必要的帮助;连续快速的手语识别存在如何抽象出手语视频中的特征、如何跨膜态地对手语视频特征进行融合处理、如何提高手语识别的准确度及如何提高识别速度、网络效率等问题。
[0003]目前基于深度学习的连续手语识别方法只提取手语演示人的全局特征,忽略了手语视频中人的表情及双手之间的动作联系,即使考虑了聋哑人的面部表情,也会忽略手语视频中双手之间的姿态对识别结果的影响,且没有在时间维度上进行核心帧的挑选,不能标明哪些帧对识别结果起重要作用,哪些帧对识别来说可有可无,导致手语识别的准确性较差,识别效率较低,限本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于强化学习的连续手语识别方法,其特征在于,具体包括以下步骤:步骤1,构建强化学习网络模块;步骤2,对连续视频帧进行裁剪处理,获得全身视频帧、手部视频帧和脸部视频帧,分别使用强化学习网络模块选取全身视频帧、手部视频帧、脸部视频帧中的核心视频帧;步骤3,使用二维卷积神经网络分别提取全身核心视频帧、手部核心视频帧、脸部核心视频帧中的特征,并将脸部特征、手部特征和全身特征拼接后输入一维卷积神经网络,提取时间维度上的视频片段;步骤4,使用联结主义时间分类器处理视频片段得到连续手语识别句子。2.根据权利要求1所述的基于强化学习的连续手语识别方法,其特征在于,所述强化学习网络模块包括三维卷积神经网络模块、双向循环神经网络模块和损失函数计算模块;所述三维卷积神经网络模块,用于提取连续手语视频中的视觉特征,并将其转换为为一维特征;所述双向循环神经网络模块,用于获取一维特征的隐藏状态,并基于隐藏状态获得每个视频帧的概率分布;所述损失函数计算模块,用于计算强化学习网络的损失函数,并将计算结果反馈至三维卷积神经网络模块和双向训练神经网络模块,对其参数进行优化更新。3.根据权利要求1或2所述的基于强化学习的连续手语识别方法,其特征在于,所述强化学习网络模块的损失函数Loss如下:Loss=

J(θ)+β1Loss
percentage
+β2Loss
weight
其中J(θ)表示目标函数,T表示连续手语视频的长度,a
t
表示视频帧挑选动作,p
θ
(a
t
,T)表示在网络参数θ下每一个视频帧被选择的概率分布,表示期望,R(S)表示奖励函数,Loss
percentage
表示挑选的帧数范围,β1表示Loss
percentage
的正则化加权系数,Loss
weight
表示网络参数θ的l2正则,β2表示Loss
weight
的正则化加权系数。4.根据权利要求3所述的基于强化学习的连续手语识别方法,其特征在于,所述奖励函数R(S)=R
div
+R
rep
,R
div
、R
rep
的计算如下:的计算如下:其中R
div
表示挑选的所有核心视频帧之间的差异性,R
rep
表示挑选的所有核心视频帧的代表性,y、y

均表示核心视频帧的数目变量,Y表示挑选的核心视频帧的总张数,y≠y

...

【专利技术属性】
技术研发人员:张亮朱光明魏彬梅林冯明涛沈沛意徐旭宋娟
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1