【技术实现步骤摘要】
视频处理方法、装置、电子设备及可读存储介质
本专利技术涉及视频
,具体而言,涉及一种视频处理方法、装置、电子设备及可读存储介质。
技术介绍
语音动画,即利用动画效果来设计和表现说话人的面部表情、口型变化等,可以应用在电影、游戏、动画视频等场景中。目前语音动画的制作方式通常为:由动画师逐帧设计制作,或者通过动作捕捉的方式来制作。其中,由动画师制作语音动画时,需要的制作时间长,效率低。通过动作捕捉制作语音动画时,对用于动作捕捉的设备高昂,使得制作成本高。
技术实现思路
本申请提供一种视频处理方法、装置、电子设备及可读存储介质,能够改善语音动画制作的效率低、成本高的问题。为了实现上述目的,本申请实施例所提供的技术方案如下所示:第一方面,本申请实施例提供一种视频处理方法,所述方法包括:将获取的语料内容输入完成训练的滑动窗口深度学习模型中;根据目标面部模型、所述语料内容的第一音素序列,通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像,所述视频图像的口型与所述语料内容的发音口型 ...
【技术保护点】
1.一种视频处理方法,其特征在于,所述方法包括:/n将获取的语料内容输入完成训练的滑动窗口深度学习模型中;/n根据目标面部模型、所述语料内容的第一音素序列,通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像,所述视频图像的口型与所述语料内容的发音口型相对应。/n
【技术特征摘要】
1.一种视频处理方法,其特征在于,所述方法包括:
将获取的语料内容输入完成训练的滑动窗口深度学习模型中;
根据目标面部模型、所述语料内容的第一音素序列,通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像,所述视频图像的口型与所述语料内容的发音口型相对应。
2.根据权利要求1所述的方法,其特征在于,在将获取的语料内容输入完成训练的滑动窗口深度学习模型中之前,所述方法还包括:
获取训练数据集,所述训练数据集包括多个视频片段,每个视频片段包括第二音素序列及与所述第二音素序列中的音素对应的人脸图像;
从人脸图像中确定多个第一特征点,所述多个第一特征点包括所述人脸图像中的下颚及嘴部的第一特征点;
将所述第二音素序列通过滑动窗口划分为多个训练组,每个训练组包括时序相邻的多个音频帧;
通过所述多个训练组、每个所述训练组对应的视频画面、所述多个第一特征点在所述人脸图像中的位置与所述音频帧的音素的对应关系,训练深度学习模型,得到完成训练的滑动窗口深度学习模型。
3.根据权利要求2所述的方法,其特征在于,根据目标面部模型、所述语料内容的第一音素序列,通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像,包括:
从所述目标面部模型中确定与每个所述第一特征点对应的第二特征点;
通过所述滑动窗口深度学习模型识别所述第一音素序列得到的与所述第二特征点对应的位移向量,控制所述目标面部模型的所述第二特征点以所述对应的位移向量运动;
基于运动后的所述第二特征点的位置及所述目标面部模型生成所述视频图像,所述视频图像包括下颚及嘴部的特征点的位置与对应的所述第二特征点的位置相同的面部图像。
4.根据权利要求3所述的方法,其特征在于,所述目标面部模型包括脸部模型及口腔模型,通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像,包括:
通过所述滑动窗口深度学习模型生成所述脸部模型的第一图像及所述口腔模型的第二图像;
基于所述第二特征点的位置判断所述第一图像中的嘴部是否呈张开状态;
当所述第一图像中的嘴部呈所述张开状态时,在所述第一图像中显示嘴部张开区域中的第二图像的第一区域,并在所述第一图像中隐藏所述第二图像中的除去所...
【专利技术属性】
技术研发人员:靳聪,吕欣,郭越千,左翼翀,赵薇,李亚杰,谭丽锋,王君昊,王南苏,帖云,
申请(专利权)人:中国传媒大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。