【技术实现步骤摘要】
本专利技术涉及图像信息处理,特别是涉及一种基于时空多注意力机制融合的连续手语识别方法。
技术介绍
1、手语视频是连续手语的一种媒介呈现形式,使得残障人士和健康人群可以无障碍沟通。在连续手语识别中,如何进行有效的特征提取是非常关键的。为了提取出更有效的空间,通道以及时间特征,以往的方法通常会采取额外输入的辅助特征线索进行监督。虽然可以在一定程度上加强特征提取器的提取有效性,降低连续手语识别中的词错误率,但是也相应的会付出巨大的算力开销,除了会增加gpu的显存消耗,也会导致模型训练时间变长。采取过单一空间注意力机制进行空间特征增强,没有同时融合通道注意力和时间注意力机制进行更为全面的特征关联,没有完全挖掘出输入手语视频的时空特征信息。因此,亟需一种基于时空多注意力机制融合的连续手语识别方法。
技术实现思路
1、本专利技术的目的是提供一种基于时空多注意力机制融合的连续手语识别方法,通过融合时空注意力机制构建的手语识别模型,整合并增强时空以及各通道的特征,在几乎不增加算力开销的情况下通过卷积注意力
...【技术保护点】
1.一种基于时空多注意力机制融合的连续手语识别方法,其特征在于,包括:
2.根据权利要求1所述的基于时空多注意力机制融合的连续手语识别方法,其特征在于,通过所述训练集训练所述手语识别模型之前,还包括对所述训练集中的手语视频进行预处理,其中,进行所述预处理包括:
3.根据权利要求1所述的基于时空多注意力机制融合的连续手语识别方法,其特征在于,所述手语识别模型包括:特征提取模块、时序模块、分类预测模块,其中,所述特征提取模块用于提取所述待识别手语视频的视觉特征,并分别发送给所述时序模块和分类预测模块;所述时序模块用于基于所述视觉特征提取上下文特征,
...【技术特征摘要】
1.一种基于时空多注意力机制融合的连续手语识别方法,其特征在于,包括:
2.根据权利要求1所述的基于时空多注意力机制融合的连续手语识别方法,其特征在于,通过所述训练集训练所述手语识别模型之前,还包括对所述训练集中的手语视频进行预处理,其中,进行所述预处理包括:
3.根据权利要求1所述的基于时空多注意力机制融合的连续手语识别方法,其特征在于,所述手语识别模型包括:特征提取模块、时序模块、分类预测模块,其中,所述特征提取模块用于提取所述待识别手语视频的视觉特征,并分别发送给所述时序模块和分类预测模块;所述时序模块用于基于所述视觉特征提取上下文特征,发送给所述分类预测模块;所述分类预测模块用于分别基于所述视觉特征和所述上下文特征进行手语类别概率预测,输出连续手语识别结果。
4.根据权利要求3所述的基于时空多注意力机制融合的连续手语识别方法,其特征在于,所述特征提取模块包括:第一卷积单元、通道注意力单元、空间注意力单元、时间注意力单元、第二卷积单元,所述待识别手语视频先经过所述第一卷积单元,再分别经过由所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。