当前位置: 首页 > 专利查询>清华大学专利>正文

基于注意力机制的半监督连续手语翻译方法及装置制造方法及图纸

技术编号:19141495 阅读:22 留言:0更新日期:2018-10-13 08:52
本发明专利技术公开了一种基于注意力机制的半监督连续手语翻译方法及装置,其中,方法包括:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将相应的词对齐序列作为解码输入,以对手语翻译模型进行全监督训练,并生成连续手语翻译语句。该方法能够消除视频中手部以外信息对语言模型的影响,对手语表达过程中的冗余和过渡姿势有更强的分辨能力,能够准确迅速地对连续手语进行翻译。

Semi supervised continuous sign language translation method and device based on attention mechanism

The invention discloses a semi-supervised continuous sign language translation method and device based on attention mechanism, wherein the method comprises: generating a hand region image sequence through a hand region detection network according to an input sign language video; encoding a hand region image sequence and an output language vocabulary to input a sign language translation model; The corresponding word alignment sequence is used as decoding input, and the full supervised training of the sign language translation model is carried out, and the continuous sign language translation sentences are generated. This method can eliminate the influence of the information outside the hand on the language model in video, and has a better resolution of redundancy and transition gestures in the process of sign language expression, and can translate the continuous sign language accurately and quickly.

【技术实现步骤摘要】
基于注意力机制的半监督连续手语翻译方法及装置
本专利技术涉及计算机视觉
,特别涉及一种基于注意力机制的半监督连续手语翻译方法及装置。
技术介绍
手语是一种使用肢体语言的最具语法结构的交流方式,因此,对手语的识别与翻译将是一种理想的解决诸如情感分析、残障人士交流和智能人机交互的途径。然而,连续手语翻译不同于单独的手势识别或标志识别,单独的手势识别或标志识别任务仅需要找出某时刻单独的动作或标志对应哪一个训练集中的标签。连续手语翻译则不仅要做到动作分类,还要做到动态时间分析、过渡与空白动作分析等,甚至手势和相应的语句词汇在顺序上都不一致,对翻译技术具有一定要求。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于注意力机制的半监督连续手语翻译方法,该方法能够准确迅速地对连续手语进行翻译。本专利技术的另一个目的在于提出一种基于注意力机制的半监督连续手语翻译装置。为达到上述目的,本专利技术一方面实施例提出了一种基于注意力机制的半监督连续手语翻译方法,包括以下步骤:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。本专利技术实施例的基于注意力机制的半监督连续手语翻译方法,通过建立手部区域图像序列,根据手语翻译模型训练相应的词对齐序列,并进行全监督训练以生成连续手语翻译语句,能够消除视频中手部以外信息对语言模型的影响,对手语表达过程中的冗余和过渡姿势有更强的分辨能力,能够准确迅速地对连续手语进行翻译。另外,根据本专利技术上述实施例的基于注意力机制的半监督连续手语翻译方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述根据手语视频,通过手部区域检测网络,生成手部区域图像序列,进一步包括:根据视频时间采样获取所述图像序列;根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。进一步地,在本专利技术的一个实施例中,所述对所述手部区域图像序列和输出语言词汇编码,输入手语翻译模型,训练相应的词对齐序列,进一步包括:对所述手部图像序列进行编码,并提取卷积神经网络特征;通过词向量模型对翻译语句单词进行编码获取所述词特征序列;将所述图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。进一步地,在本专利技术的一个实施例中,将所述词对齐序列作为解码输入,对所述手语翻译模型进行全监督的训练,生成连续手语翻译语句,进一步包括:将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。进一步地,在本专利技术的一个实施例中,所述全监督的训练还包括:将所述语言模型作用为L:其中,为解码器线性输出,则第j个输出片段属于类别i的概率为:CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:π∈B-1(y)={π|B(π}=y},在输入下,输出词对齐序列为π的概率为:对应样本文本输出y的概率为词对齐模型的损失函数为:LossCTC=-logPCTC(y|s)。为达到上述目的,本专利技术另一方面实施例提出了一种基于注意力机制的半监督连续手语翻译装置,包括:生成模块,用于根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;训练模块,用于对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;监督翻译模块,用于将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。本专利技术实施例的基于注意力机制的半监督连续手语翻译装置,通过建立手部区域图像序列,根据手语翻译模型训练相应的词对齐序列,并进行全监督训练以生成连续手语翻译语句,能够消除视频中手部以外信息对语言模型的影响,对手语表达过程中的冗余和过渡姿势有更强的分辨能力,能够准确迅速地对连续手语进行翻译。另外,根据本专利技术上述实施例的基于注意力机制的半监督连续手语翻译装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述生成模块还包括:采样单元,用于根据视频时间采样获取所述图像序列;提取单元,根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。进一步地,在本专利技术的一个实施例中,所述训练模块还包括:卷积神经网络特征提取单元,用于对所述手部图像序列进行编码,并提取卷积神经网络特征;编码单元,用于通过词向量模型对翻译语句单词进行编码获取所述词特征序列;最小化训练单元,用于将所述图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。进一步地,在本专利技术的一个实施例中,所述监督翻译模块还包括:训练单元,将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;预测单元,用于每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。进一步地,在本专利技术的一个实施例中,所述全监督的训练还包括:将所述语言模型作用为L:其中,为解码器线性输出,则第j个输出片段属于类别i的概率为:CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:π∈B-1(y)={π|B(π}=y},在输入下,输出词对齐序列为π的概率为:则对应样本文本输出y的概率为则词对齐模型的损失函数为:LossCTC=-logPCTC(y|s)。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的基于注意力机制的半监督连续手语翻译方法的流程图;图2为根据本专利技术一个实施例的基于注意力机制的半监督连续手语翻译方法的模型结构图示意图;图3为根据本专利技术一个实施例的基于注意力机制的半监督连续手语翻译方法的编码-解码语言模型的内部结构示意图;图4为根据本专利技术实施例的基于注意力机制的半监督连续手语翻译装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的基于注意力机制的半监督连续手语翻译方法及装置,首先将参照附图描述根据本专利技术实施例提出的基于注意力机制的半监督连续手语翻译方法。图1为根据本专利技术实施例的基于注意力机制的半监督连续手语翻译方法的流程图。如图1所示,该基于注意力机制的半监督连续手语翻译方法包括以下步骤:在步骤S101中,根据输入的手语视频通过手部区域检测网络生成手部区域图像序列。具体而言本文档来自技高网...

【技术保护点】
1.一种基于注意力机制的半监督连续手语翻译方法,其特征在于,包括以下步骤:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。

【技术特征摘要】
1.一种基于注意力机制的半监督连续手语翻译方法,其特征在于,包括以下步骤:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。2.根据权利要求1所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述根据手语视频,通过手部区域检测网络,生成手部区域图像序列,进一步包括:根据视频时间采样获取所述图像序列;根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。3.根据权利要求2所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述对所述手部区域图像序列和输出语言词汇编码,输入手语翻译模型,训练相应的词对齐序列,进一步包括:对所述手部图像序列进行编码,并提取卷积神经网络特征;通过词向量模型对翻译语句单词进行编码获取所述词特征序列;将所述图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。4.根据权利要求3所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,将所述词对齐序列作为解码输入,对所述手语翻译模型进行全监督的训练,生成连续手语翻译语句,进一步包括:将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。5.根据权利要求4所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述全监督的训练还包括:将所述语言模型作用为L:其中,为解码器线性输出,则第j个输出片段属于类别i的概率为:CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:π∈B-1(y)={π|B(π}=y},在输入下,输出词对齐序列为π的概率为:对应样本文本输出y的概率为词对齐模型的损失函数为:LossCTC=-...

【专利技术属性】
技术研发人员:徐枫薄子豪雍俊海
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1