当前位置: 首页 > 专利查询>清华大学专利>正文

基于深度学习的手语翻译视频生成方法及系统技术方案

技术编号:23191411 阅读:45 留言:0更新日期:2020-01-24 16:26
本发明专利技术公开了一种基于深度学习的手语翻译视频生成方法及系统,其中,该方法包括:通过数据集的手语视频循环训练变分自编码器模型和环状生成对抗网络模型,直至达到预设维度,输出图像低维特征序列;通过数据集的语言文本序列训练语言翻译模型,输出与图像低维特征序列对应的文本低维特征序列,以构建语言文本序列与手语视频的映射关系;基于映射关系,将待测语言文本序列输入语言翻译模型,映射出待测语言文本序列对应的图像低维特征序列,视频模型解码图像低维特征序列,生成对应的手语视频。本发明专利技术实施例的方法通过构建压缩隐空间来对图像进行降维处理,解决视频生成问题对计算机存储与计算能力的极高要求,可以使用通用语言模型进行翻译训练。

Video generation method and system of sign language translation based on deep learning

【技术实现步骤摘要】
基于深度学习的手语翻译视频生成方法及系统
本专利技术涉及计算机视觉、自然语言处理
,特别涉及一种基于深度学习的手语翻译视频生成方法及系统。
技术介绍
残障人士,特别是听力障碍人士在现在的社会中占有不小的比例,如何保障残障人士的社会生活,方便聋哑人同普通人之间的沟通成为一个重要的问题。社会保障健全的国家和地区都十分重视残疾人的教育及就业,但同聋哑人的沟通却需要对所有人进行相关的手语教育,耗资过于庞大。因此,如果能使用计算机自动完成手语和自然语言的翻译转化,将极大方便与改善聋哑人的日常生活。随着计算机科学技术、人工智能与深度学习的不断发展,建立一种基于深度学习的手语翻译与视频生成系统已成为可能。但受到现阶段计算资源与能力的限制,精细的视频生成仍是一项挑战。并且,手语视频生成需要融合有关翻译的语言模型与有关视频图像的生成模型,还未有相关工作能够实现这一挑战。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于深度学习的手语翻译视频生成方法,该方法通过构建压缩隐空间来对图像进行降维处理,解决视频生成问题对计算机存储与计算能力的极高要求。本专利技术的另一个目的在于提出一种基于深度学习的手语翻译视频生成系统。为达到上述目的,本专利技术一方面提出了基于深度学习的手语翻译视频生成方法,包括以下步骤:步骤S1,构建数据集,其中,所述数据集包括语言文本序列和手语视频;步骤S2,通过所述手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;步骤S3,通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征;步骤S4,迭代执行步骤S2-S3,直至所述多个图像低维空间特征达到预设维度,输出图像低维特征序列;步骤S5,通过所述语言文本序列训练语言翻译模型,输出与所述图像低维特征序列对应的文本低维特征序列;步骤S6,通过所述图像低维特征序列和所述文本低维特征序列,构建所述语言文本序列与所述手语视频的映射关系;步骤S7,获取待测语言文本序列;步骤S8,将所述待测语言文本序列输入所述语言翻译模型中,根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列;步骤S9,通过所述视觉模型解码所述图像低维特征序列,生成所述待测语言文本序列对应的手语视频。本专利技术实施例的基于深度学习的手语翻译视频生成方法,通过构建压缩隐空间来对图像进行降维处理,变分自编码器(VariationalAuto-Encoder,VAE)可以有效利用自监督数据,对手语图像进行降维;环状生成对抗网络(CycleGenerateAdversarialNetwork,CycleGAN)则利用变分自编码器VAE得到的数据,对抗学习精细化的编解码器,降维之后的图像数据便可以使用通用语言模型进行翻译训练。另外,根据本专利技术上述实施例的基于深度学习的手语翻译视频生成方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述变分自编码器模型包括编码器和解码器,利用所述编码器对所述手语视频进行降维,生成所述多个图像低维空间特征,利用所述解码器将所述多个图像低维空间特征生成手语图像,与输入所述手语视频进行比对。进一步地,在本专利技术的一个实施例中,所述环状生成对抗网络模型包括两个生成器和两个辨别器,利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重,以修正所述多个图像低维空间特征。进一步地,在本专利技术的一个实施例中,所述步骤S8包括:将所述待测语言文本序列拆分成多个词向量;将所述多个词向量输入所述语言翻译模型中,输出所述文本低维特征序列;根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。为达到上述目的,本专利技术另一方面提出了一种基于深度学习的手语翻译视频生成系统,包括:构建模块,用于构建数据集,其中,所述数据集包括语言文本序列和手语视频;第一训练模块,用于通过所述手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;修正模块,用于通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征;迭代模块,用于迭代执行所述第一训练模块和所述修正模块,直至所述多个图像低维空间特征达到预设维度,输出图像低维特征序列;第二训练模块,用于通过所述语言文本序列训练语言翻译模型,输出与所述图像低维特征序列对应的文本低维特征序列;映射模块,用于通过所述图像低维特征序列和所述文本低维特征序列,构建所述语言文本序列与所述手语视频的映射关系;获取模块,用于获取待测语言文本序列;生成模块,用于将所述待测语言文本序列输入所述语言翻译模型中,根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列;解码模块,用于通过所述视觉模型解码所述图像低维特征序列,生成所述待测语言文本序列对应的手语视频。本专利技术实施例的基于深度学习的手语翻译视频生成系统,通过构建压缩隐空间来对图像进行降维处理,变分自编码器可以有效利用自监督数据,对手语图像进行降维;环状生成对抗网络CycleGAN则利用变分自编码器VAE得到的数据,对抗学习精细化的编解码器,降维之后的图像数据便可以使用通用语言模型进行翻译训练。另外,根据本专利技术上述实施例的基于深度学习的手语翻译视频生成系统还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述变分自编码器模型包括编码器和解码器,利用所述编码器对所述手语视频进行降维,生成所述多个图像低维空间特征,利用所述解码器将所述多个图像低维空间特征生成手语图像。进一步地,在本专利技术的一个实施例中,所述环状生成对抗网络模型包括两个生成器和两个辨别器,利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重,以修正所述多个图像低维空间特征。进一步地,在本专利技术的一个实施例中,所述生成模块包括:拆分单元,用于将所述待测语言文本序列拆分成多个词向量;输出单元,用于将所述多个词向量输入所述语言翻译模型中,输出所述文本低维特征序列;映射单元,用于根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的基于深度学习的手语翻译视频生成方法流程图;图2为根据本专利技术实施例的视频模型和语言模型的训练流程图;图3为根据本专利技术实施例的视觉模型中变分自编码器的执行流程图;图4为根据本专利技术实施例的视觉模型中环状生成对抗网络的执行流程图;图5为根据本专利技术实施例的语言模型的执行流程图;图6为根据本专利技术实施例的测试流程图;图7为根据本专利技术实施例的基于深度学习的手语翻译视频生成系统结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似本文档来自技高网...

【技术保护点】
1.一种基于深度学习的手语翻译视频生成方法,其特征在于,包括以下步骤:/n步骤S1,构建数据集,其中,所述数据集包括语言文本序列和手语视频;/n步骤S2,通过所述手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;/n步骤S3,通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征;/n步骤S4,迭代执行步骤S2-S3,直至所述多个图像低维空间特征达到预设维度,输出图像低维特征序列;/n步骤S5,通过所述语言文本序列训练语言翻译模型,输出与所述图像低维特征序列对应的文本低维特征序列;/n步骤S6,通过所述图像低维特征序列和所述文本低维特征序列,构建所述语言文本序列与所述手语视频的映射关系;/n步骤S7,获取待测语言文本序列;/n步骤S8,将所述待测语言文本序列输入所述语言翻译模型中,根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列;以及/n步骤S9,通过所述视觉模型解码所述图像低维特征序列,生成所述待测语言文本序列对应的手语视频。/n

【技术特征摘要】
1.一种基于深度学习的手语翻译视频生成方法,其特征在于,包括以下步骤:
步骤S1,构建数据集,其中,所述数据集包括语言文本序列和手语视频;
步骤S2,通过所述手语视频训练视频模型的变分自编码器模型,生成多个图像低维空间特征;
步骤S3,通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征;
步骤S4,迭代执行步骤S2-S3,直至所述多个图像低维空间特征达到预设维度,输出图像低维特征序列;
步骤S5,通过所述语言文本序列训练语言翻译模型,输出与所述图像低维特征序列对应的文本低维特征序列;
步骤S6,通过所述图像低维特征序列和所述文本低维特征序列,构建所述语言文本序列与所述手语视频的映射关系;
步骤S7,获取待测语言文本序列;
步骤S8,将所述待测语言文本序列输入所述语言翻译模型中,根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列;以及
步骤S9,通过所述视觉模型解码所述图像低维特征序列,生成所述待测语言文本序列对应的手语视频。


2.根据权利要求1所述的基于深度学习的手语翻译视频生成方法,其特征在于,所述变分自编码器模型包括编码器和解码器,利用所述编码器对所述手语视频进行降维,生成所述多个图像低维空间特征,利用所述解码器将所述多个图像低维空间特征生成手语图像,以与输入所述手语视频进行比对。


3.根据权利要求1所述的基于深度学习的手语翻译视频生成方法,其特征在于,所述环状生成对抗网络模型包括两个生成器和两个辨别器,利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重,以修正所述多个图像低维空间特征。


4.根据权利要求1所述的基于深度学习的手语翻译视频生成方法,其特征在于,所述步骤S8包括:
将所述待测语言文本序列拆分成多个词向量;
将所述多个词向量输入所述语言翻译模型中,输出所述文本低维特征序列;
根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。


5.一种基于深度学习...

【专利技术属性】
技术研发人员:徐枫薄子豪娄昕杨东兰怡娜雍俊海戴琼海
申请(专利权)人:清华大学中国人民解放军总医院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1