基于深度学习的手语翻译视频生成方法及系统技术方案

技术编号：23191411 阅读：45 留言：0更新日期：2020-01-24 16:26

本发明专利技术公开了一种基于深度学习的手语翻译视频生成方法及系统，其中，该方法包括：通过数据集的手语视频循环训练变分自编码器模型和环状生成对抗网络模型，直至达到预设维度，输出图像低维特征序列；通过数据集的语言文本序列训练语言翻译模型，输出与图像低维特征序列对应的文本低维特征序列，以构建语言文本序列与手语视频的映射关系；基于映射关系，将待测语言文本序列输入语言翻译模型，映射出待测语言文本序列对应的图像低维特征序列，视频模型解码图像低维特征序列，生成对应的手语视频。本发明专利技术实施例的方法通过构建压缩隐空间来对图像进行降维处理，解决视频生成问题对计算机存储与计算能力的极高要求，可以使用通用语言模型进行翻译训练。

Video generation method and system of sign language translation based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的手语翻译视频生成方法及系统
本专利技术涉及计算机视觉、自然语言处理
，特别涉及一种基于深度学习的手语翻译视频生成方法及系统。
技术介绍
残障人士，特别是听力障碍人士在现在的社会中占有不小的比例，如何保障残障人士的社会生活，方便聋哑人同普通人之间的沟通成为一个重要的问题。社会保障健全的国家和地区都十分重视残疾人的教育及就业，但同聋哑人的沟通却需要对所有人进行相关的手语教育，耗资过于庞大。因此，如果能使用计算机自动完成手语和自然语言的翻译转化，将极大方便与改善聋哑人的日常生活。随着计算机科学技术、人工智能与深度学习的不断发展，建立一种基于深度学习的手语翻译与视频生成系统已成为可能。但受到现阶段计算资源与能力的限制，精细的视频生成仍是一项挑战。并且，手语视频生成需要融合有关翻译的语言模型与有关视频图像的生成模型，还未有相关工作能够实现这一挑战。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种基于深度学习的手语翻译视频生成方法，该方法通过构建压缩隐空间来对图像进行降维处理，解决视频生成问题对计算机存储与计算能力的极高要求。本专利技术的另一个目的在于提出一种基于深度学习的手语翻译视频生成系统。为达到上述目的，本专利技术一方面提出了基于深度学习的手语翻译视频生成方法，包括以下步骤：步骤S1，构建数据集，其中，所述数据集包括语言文本序列和手语视频；步骤S2，通过所述手语视频训练视频模型的变分自编...

【技术保护点】
1.一种基于深度学习的手语翻译视频生成方法，其特征在于，包括以下步骤：/n步骤S1，构建数据集，其中，所述数据集包括语言文本序列和手语视频；/n步骤S2，通过所述手语视频训练视频模型的变分自编码器模型，生成多个图像低维空间特征；/n步骤S3，通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征；/n步骤S4，迭代执行步骤S2-S3，直至所述多个图像低维空间特征达到预设维度，输出图像低维特征序列；/n步骤S5，通过所述语言文本序列训练语言翻译模型，输出与所述图像低维特征序列对应的文本低维特征序列；/n步骤S6，通过所述图像低维特征序列和所述文本低维特征序列，构建所述语言文本序列与所述手语视频的映射关系；/n步骤S7，获取待测语言文本序列；/n步骤S8，将所述待测语言文本序列输入所述语言翻译模型中，根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列；以及/n步骤S9，通过所述视觉模型解码所述图像低维特征序列，生成所述待测语言文本序列对应的手语视频。/n

【技术特征摘要】
1.一种基于深度学习的手语翻译视频生成方法，其特征在于，包括以下步骤：
步骤S1，构建数据集，其中，所述数据集包括语言文本序列和手语视频；
步骤S2，通过所述手语视频训练视频模型的变分自编码器模型，生成多个图像低维空间特征；
步骤S3，通过所述视觉模型的环状生成对抗网络模型修正所述多个图像低维空间特征；
步骤S4，迭代执行步骤S2-S3，直至所述多个图像低维空间特征达到预设维度，输出图像低维特征序列；
步骤S5，通过所述语言文本序列训练语言翻译模型，输出与所述图像低维特征序列对应的文本低维特征序列；
步骤S6，通过所述图像低维特征序列和所述文本低维特征序列，构建所述语言文本序列与所述手语视频的映射关系；
步骤S7，获取待测语言文本序列；
步骤S8，将所述待测语言文本序列输入所述语言翻译模型中，根据所述映射关系生成所述待测语言文本序列对应的图像低维特征序列；以及
步骤S9，通过所述视觉模型解码所述图像低维特征序列，生成所述待测语言文本序列对应的手语视频。

2.根据权利要求1所述的基于深度学习的手语翻译视频生成方法，其特征在于，所述变分自编码器模型包括编码器和解码器，利用所述编码器对所述手语视频进行降维，生成所述多个图像低维空间特征，利用所述解码器将所述多个图像低维空间特征生成手语图像，以与输入所述手语视频进行比对。

3.根据权利要求1所述的基于深度学习的手语翻译视频生成方法，其特征在于，所述环状生成对抗网络模型包括两个生成器和两个辨别器，利用所述两个生成器初始化所述变分自编码器模型的编码和解码器权重，以修正所述多个图像低维空间特征。

4.根据权利要求1所述的基于深度学习的手语翻译视频生成方法，其特征在于，所述步骤S8包括：
将所述待测语言文本序列拆分成多个词向量；
将所述多个词向量输入所述语言翻译模型中，输出所述文本低维特征序列；
根据所述映射关系映射出与所述文本低维特征序列对应的图像低维特征序列。

5.一种基于深度学习...

【专利技术属性】
技术研发人员：徐枫，薄子豪，娄昕，杨东，兰怡娜，雍俊海，戴琼海，
申请(专利权)人：清华大学，中国人民解放军总医院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人