【技术实现步骤摘要】
基于对偶学习的跨模态文字生成视频的方法及系统
本专利技术涉及多模态生成模型
,特别涉及一种基于对偶学习的跨模态文字生成视频的方法及系统。
技术介绍
当前,在用户与机器的语言、视觉交互场景方面,用户体验非常重要。用户输入文字或语言,机器能够根据用户输入生成相对应的视频,但其生成的视频是否逼真以及与用户输入是否一致上都还存在一些问题。如,现有的由文字生成视频的方法只考虑文字到视频的单向映射,将文字数据和视频数据映射到同一隐空间,再根据隐空间数据点重构视频,达到从文字生成视频的目的。在技术层面,具体的步骤是先将文字映射到隐空间,再从隐空间生成对应的视频。但这种方法没有考虑到文字和视频包含的信息是不对等、不平衡的:文字通常信息较少;视频通常信息较多,包含了物体、运动等多方面的信息。将文字和视频共同映射到同一个空间会损失信息,导致生成视频的效果不好、与输入文字不匹配等问题。虽然,已有解决该问题的技术,但这类的方法均是训练一个判别器判别视频是真或假、是否与输入文字相匹配。这样的学习过程不稳定,且生成的视频通常是类似的,不具 ...
【技术保护点】
1.一种基于对偶学习的跨模态文字生成视频的方法,其特征在于,包括以下步骤:/n构建文字到视频的生成模型;/n构建视频到文字的映射模型;/n利用对偶学习机制联合训练所述生成模型和所述映射模型,以获得训练模型;/n将预设文字输入所述训练模型中,以生成对应初始视频;/n利用所述映射模型将所述初始视频映射出新文字,并将所述新文字反馈给所述生成模型,以判断所述新文字与所述预设文字是否匹配,进而对所述初始视频进行修复,获得最终映射视频。/n
【技术特征摘要】
1.一种基于对偶学习的跨模态文字生成视频的方法,其特征在于,包括以下步骤:
构建文字到视频的生成模型;
构建视频到文字的映射模型;
利用对偶学习机制联合训练所述生成模型和所述映射模型,以获得训练模型;
将预设文字输入所述训练模型中,以生成对应初始视频;
利用所述映射模型将所述初始视频映射出新文字,并将所述新文字反馈给所述生成模型,以判断所述新文字与所述预设文字是否匹配,进而对所述初始视频进行修复,获得最终映射视频。
2.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法,其特征在于,采用长短时记忆神经网络,融合网络和三维反卷积神经网络构建所述生成模型。
3.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法,其特征在于,采用三维卷积神经网络和长短时记忆神经网络构建所述映射模型。
4.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法,其特征在于,所述将预设文字输入所述训练模型中,以生成对应初始视频,进一步包括:
利用长短时记忆网络提取所述预设文字中的文字信息;
利用三维反卷积神经网络将所述文字信息映射到多尺度视觉信息上,以生成所述初始视频。
5.根据权利要求1所述的基于对偶学习的跨模态文字生成视频的方法,其特征在于,所述利用所述映射模型将所述初始视频映射出新文字,并将所述新文字反馈给所述生成模型,判断所述新文字与所述预设文字是否匹配,进而对所述初始视频进行修复,获得最终映射视频,进一步包括:
利用三维卷积神经网络提取所述初始视频中的视频信息;
利用长短时记忆网络将所述视频信息映射出所述新文字;
将所述新文字反馈到所述生成模型,以判断所述新文字与所述预设文字是否匹配,若匹配,则将所述初始视频作为所述最终映射视频,若不匹配,则获取损失信息,并根据所述损失信息对所述初始视频进行修复,获得所述最终映射视频...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。