The invention discloses a semi-supervised continuous sign language translation method and device based on attention mechanism, wherein the method comprises: generating a hand region image sequence through a hand region detection network according to an input sign language video; encoding a hand region image sequence and an output language vocabulary to input a sign language translation model; The corresponding word alignment sequence is used as decoding input, and the full supervised training of the sign language translation model is carried out, and the continuous sign language translation sentences are generated. This method can eliminate the influence of the information outside the hand on the language model in video, and has a better resolution of redundancy and transition gestures in the process of sign language expression, and can translate the continuous sign language accurately and quickly.
【技术实现步骤摘要】
基于注意力机制的半监督连续手语翻译方法及装置
本专利技术涉及计算机视觉
,特别涉及一种基于注意力机制的半监督连续手语翻译方法及装置。
技术介绍
手语是一种使用肢体语言的最具语法结构的交流方式,因此,对手语的识别与翻译将是一种理想的解决诸如情感分析、残障人士交流和智能人机交互的途径。然而,连续手语翻译不同于单独的手势识别或标志识别,单独的手势识别或标志识别任务仅需要找出某时刻单独的动作或标志对应哪一个训练集中的标签。连续手语翻译则不仅要做到动作分类,还要做到动态时间分析、过渡与空白动作分析等,甚至手势和相应的语句词汇在顺序上都不一致,对翻译技术具有一定要求。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于注意力机制的半监督连续手语翻译方法,该方法能够准确迅速地对连续手语进行翻译。本专利技术的另一个目的在于提出一种基于注意力机制的半监督连续手语翻译装置。为达到上述目的,本专利技术一方面实施例提出了一种基于注意力机制的半监督连续手语翻译方法,包括以下步骤:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。本专利技术实施例的基于注意力机制的半监督连续手语翻译方法,通过建立手部区域图像序列,根据手语翻译模型训练相应的词对齐序列,并进行全监督训练以生成连续手语翻译语句,能够消除视频中手部以外信息对语言模型 ...
【技术保护点】
1.一种基于注意力机制的半监督连续手语翻译方法,其特征在于,包括以下步骤:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。
【技术特征摘要】
1.一种基于注意力机制的半监督连续手语翻译方法,其特征在于,包括以下步骤:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。2.根据权利要求1所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述根据手语视频,通过手部区域检测网络,生成手部区域图像序列,进一步包括:根据视频时间采样获取所述图像序列;根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。3.根据权利要求2所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述对所述手部区域图像序列和输出语言词汇编码,输入手语翻译模型,训练相应的词对齐序列,进一步包括:对所述手部图像序列进行编码,并提取卷积神经网络特征;通过词向量模型对翻译语句单词进行编码获取所述词特征序列;将所述图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。4.根据权利要求3所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,将所述词对齐序列作为解码输入,对所述手语翻译模型进行全监督的训练,生成连续手语翻译语句,进一步包括:将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。5.根据权利要求4所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述全监督的训练还包括:将所述语言模型作用为L:其中,为解码器线性输出,则第j个输出片段属于类别i的概率为:CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:π∈B-1(y)={π|B(π}=y},在输入下,输出词对齐序列为π的概率为:对应样本文本输出y的概率为词对齐模型的损失函数为:LossCTC=-...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。