The invention discloses a voice driven lip synchronous face video synthesis algorithm of cascaded convolution LSTM. The speech video of the target person is collected as the baseboard video, and the three-dimensional face model of the target is reconstructed from the image sequence to obtain the facial animation vector sequence of the baseboard video; the voice feature of the filter bank is extracted from the audio signal; the voice feature of the filter bank is used as the input of the cascaded convolution long-term short-term memory network, and the facial animation vector sequence is used as the output. The training test is carried out; the facial animation vector sequence of audio signal is used to replace the facial animation vector sequence of the target three-dimensional face model to generate a new three-dimensional face model and render the face image to synthesize lip-shaped synchronous face video. The invention retains more voiceprint information, innovatively obtains voice features of filter banks through two-dimensional convolution neural network, enlarges the perception field of convolution neural network, increases network depth, and obtains accurate lip synchronous face video.
【技术实现步骤摘要】
级联卷积LSTM的语音驱动唇形同步人脸视频合成算法
本专利技术涉及计算机视觉领域以及音频信号处理的相关技术,尤其涉及了一种基于级联卷积长短时记忆网络结构(级联卷积LSTM)的语音驱动唇形同步人脸视频算法。
技术介绍
经过近些年的探索和发展,计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值,而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果,许多电影特效也是不可能实现的。目前,网络上就已经存在着大量的人工合成视频。此外,语音识别与文本合成语音技术也已广泛应用于聊天机器人中。本专利技术希望通过提出一种新的从语音或文本合成语音生成唇形同步人脸视频的方法,使得网络聊天机器人具有真人的外观及表情。语音或文本合成语音通常被表示为单声道音频信号,且频率很高,通常为16KHz。另一方面,视频是二维图像的时间序列,具有高维度(超过100K)和相对较低的采样频率,如25帧/秒,是一个三维信号。由于人类对面部表情的微妙变化非常敏感,所以需要生成细粒度的合成结果。因此,通过从低维度高频语音的音频信号或文本合成语音的音频信号中直接恢复高保真度的高维度低频视频是很有挑战的,这是一个严重欠约束的病态问题。
技术实现思路
为了解决
技术介绍
中存在的问题,本专利技术提出了级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,实现了通过语音或文本合成语音合成唇形同步人脸视频。本专利技术采用的技术方案包括如下步骤:1)采集目标人物的说话视频作为底板视频,说话视频中的目标人物即为最终人脸视频合成的主体人物,从对底板视频提取出图像序列和音 ...
【技术保护点】
1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于包括如下步骤:1)采集目标人物的说话视频作为底板视频,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列;2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合三维人脸追踪方式生成新的三维人脸模型;5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同 ...
【技术特征摘要】
1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于包括如下步骤:1)采集目标人物的说话视频作为底板视频,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列;2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合三维人脸追踪方式生成新的三维人脸模型;5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。2.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标三维人脸模型使用了三维形变模型三维人脸重建。3.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。4.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤3)中的级联卷积长短时记忆网络结构,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。