基于手语单词先验引导的连续手语识别方法及装置制造方法及图纸

技术编号:40067929 阅读:26 留言:0更新日期:2024-01-16 23:43
本发明专利技术实施例提供了一种基于手语单词先验引导的连续手语识别方法及装置,涉及连续手语识别的技术领域,方法具体包括如下步骤:获取连续手语识别数据集,利用预训练的BERT模型对连续手语识别数据集进行微调以对具备动作不变性手语单词特征进行提取,构建视觉特征提取模型以对手语视觉特征进行提取;构建跨模态特征对齐目标函数以及CTC目标函数构建目标函数,对视觉特征提取模型进行训练以形成跨模态特征对齐模型。通过本发明专利技术提供的方法及装置可以缓解现有技术中连续手语识别视觉特征泛化能力弱的技术问题,以具备动作不变性的手语单词特征为先验,约束其对应的多个视频帧视觉特征,最终减少视觉特征间的差异性。

【技术实现步骤摘要】

本专利技术涉及连续手语识别的,尤其是涉及一种基于手语单词先验引导的连续手语识别方法及装置


技术介绍

1、作为听障人群的在日常生活中的交流方式,手语主要通过包括手势变化、口部变化、表情变化、头部及身体动作变化等在内的多方面信息联合,进行信息传递。连续手语识别(continuous sign language recognition,cslr)作为促进听障人士与健听人士无障碍交流的研究,利用计算机视觉及自然语言处理技术,将一段手语视频中所对应的每个手语单词识别出来,且保留其顺序。

2、现有技术采用如下手段:1)基于高斯混合模型(gaussian mixture model,gmm)-隐马尔科夫模型(hidden markov model,hmm)对视觉特征进行手工设计。与基于深度学习的视觉特征相比,手工视觉特征在大体量数据集上缺乏泛化性且不能进行端到端的优化;

3、2)将深度学习模型与hmm相结合,建立了一个用于预测视频中的帧级标签的判别模型,但是基于hmm的方法需要利用上一阶段的先验知识来优化当前阶段的模型;p>

4、3)采本文档来自技高网...

【技术保护点】

1.一种基于手语单词先验引导的连续手语识别方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述视觉特征提取模型包括ResNet18、基于并行-密集连接的时序特征提取网络、BGRU模型以及全连接层;

3.根据权利要求2所述的方法,其特征在于,所述模态特征对齐目标函数包括:

4.根据权利要求3所述的方法,其特征在于,所述CTC目标函数为:

5.根据权利要求4所述的方法,其特征在于,构架跨模态特征对齐目标函数以及CTC目标函数组建目标函数的步骤包括:

6.根据权利要求1所述的方法,其特征在于,所述获取连...

【技术特征摘要】

1.一种基于手语单词先验引导的连续手语识别方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述视觉特征提取模型包括resnet18、基于并行-密集连接的时序特征提取网络、bgru模型以及全连接层;

3.根据权利要求2所述的方法,其特征在于,所述模态特征对齐目标函数包括:

4.根据权利要求3所述的方法,其特征在于,所述ctc目标函数为:

5.根据权利要求4所述的方法,其特征在于,构架跨模态特征对齐目标函数以及ctc目标函数组建目标函数的步骤包括:

6.根据权利要求1所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:薛万利郭乐铭康泽袁甜甜陈胜勇
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1