【技术实现步骤摘要】
本公开属于深度学习,具体而言涉及一种数字人视频生成方法、设备及存储介质。
技术介绍
1、现有2d数字人视频生成方法通常是姿势驱动的,即给定人物图片与姿势序列,生成相应人物的动作视频。但在实际应用中,尤其是交互场景,人们更期望数字人的相应动作可由语音驱动,即给定人物图片与语音片段,生成具有相应肢体动作的讲话视频。
2、基于语音驱动的2d数字人视频生成技术,旨在将给定人物的肖像图片或视频转化为与驱动语音同步的讲话视频。其是一种多模态生成技术,在电影制作、虚拟助手、在线教育、视频会议等领域展现出巨大的应用价值。恰当的肢体动作作为人类语言的补充,有助于提升虚拟数字人的可信度。但现有技术大多重点关注面部或头部区域的生成,对比这些区域尤其是口型部分,肢体动作与驱动音频呈现弱相关性,这使得生成与驱动音频具有一致性的、自然流畅的肢体动作更具挑战性。
3、一种直接的生成方案为先使用协同语音的姿势生成(co-speech gesturegeneration)方法将语音转为姿势序列,再使用基于姿势序列驱动的视频生成方法将姿势序列渲染为
...【技术保护点】
1.一种数字人视频生成方法,其特征在于,包括:
2.根据权利要求1所述的数字人视频生成方法,其特征在于,所述音频引导网络和所述姿势引导网络的网络结构相同;每个网络包含四层卷积层;其中,第一层卷积网络为:卷积核大小为3x3,步长大小为1x1,填充大小为1x1,输出通道数为16;第二层卷积网络为:卷积核大小为4x4,步长大小为2x2,填充大小为1x1,输出通道数为32;第三层卷积网络为:卷积核大小为4x4,步长大小为2x2,填充大小为1x1,输出通道数为64;第四层卷积网络为:卷积核大小为4x4,步长大小为2x2,填充大小为1x1,输出通道数为128。
...【技术特征摘要】
1.一种数字人视频生成方法,其特征在于,包括:
2.根据权利要求1所述的数字人视频生成方法,其特征在于,所述音频引导网络和所述姿势引导网络的网络结构相同;每个网络包含四层卷积层;其中,第一层卷积网络为:卷积核大小为3x3,步长大小为1x1,填充大小为1x1,输出通道数为16;第二层卷积网络为:卷积核大小为4x4,步长大小为2x2,填充大小为1x1,输出通道数为32;第三层卷积网络为:卷积核大小为4x4,步长大小为2x2,填充大小为1x1,输出通道数为64;第四层卷积网络为:卷积核大小为4x4,步长大小为2x2,填充大小为1x1,输出通道数为128。
3.根据权利要求1所述的数字人视频生成方法,其特征在于,所述将所述参考人物图像以及所述姿势序列数据输入到生成模型中,根据姿势序列数据依次生成视频帧包括:
4.根据权利要求3所述的数字人视频生成方法,其特征在于,所述将所述参考人物图像以及所述姿势序列数据输入到生成模型中,根据姿势序列数据依次生成视频帧还包括:
5.根据权利要求4所述的数字人视频生成方法,其特征在于,在所述接收音频信号...
【专利技术属性】
技术研发人员:吴琼,关聪,
申请(专利权)人:北京智谱华章科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。