当前位置: 首页 > 专利查询>浙江大学专利>正文

级联卷积LSTM的语音驱动唇形同步人脸视频合成算法制造技术

技术编号:20285677 阅读:75 留言:0更新日期:2019-02-10 18:03
本发明专利技术公开了一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法。采集目标人物的说话视频作为底板视频,对图像序列进行三维人脸重建获得目标三维人脸模型,获得底板视频的面部动画向量序列;音频信号提取出滤波器组的语音特征;将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练测试;用音频信号的面部动画向量序列替换目标三维人脸模型的面部动画向量序列生成新三维人脸模型并渲染人脸图像合成唇形同步人脸视频。本发明专利技术保留更多的声纹信息,创新通过二维卷积神经网络获取滤波器组的语音特征,扩大了卷积神经网络的感受野,增加了网络深度,获得了准确的唇形同步人脸视频。

Speech Driven Lip Synchronized Face Video Synthesis Based on Cascaded Convolutional LSTM

The invention discloses a voice driven lip synchronous face video synthesis algorithm of cascaded convolution LSTM. The speech video of the target person is collected as the baseboard video, and the three-dimensional face model of the target is reconstructed from the image sequence to obtain the facial animation vector sequence of the baseboard video; the voice feature of the filter bank is extracted from the audio signal; the voice feature of the filter bank is used as the input of the cascaded convolution long-term short-term memory network, and the facial animation vector sequence is used as the output. The training test is carried out; the facial animation vector sequence of audio signal is used to replace the facial animation vector sequence of the target three-dimensional face model to generate a new three-dimensional face model and render the face image to synthesize lip-shaped synchronous face video. The invention retains more voiceprint information, innovatively obtains voice features of filter banks through two-dimensional convolution neural network, enlarges the perception field of convolution neural network, increases network depth, and obtains accurate lip synchronous face video.

【技术实现步骤摘要】
级联卷积LSTM的语音驱动唇形同步人脸视频合成算法
本专利技术涉及计算机视觉领域以及音频信号处理的相关技术,尤其涉及了一种基于级联卷积长短时记忆网络结构(级联卷积LSTM)的语音驱动唇形同步人脸视频算法。
技术介绍
经过近些年的探索和发展,计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值,而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果,许多电影特效也是不可能实现的。目前,网络上就已经存在着大量的人工合成视频。此外,语音识别与文本合成语音技术也已广泛应用于聊天机器人中。本专利技术希望通过提出一种新的从语音或文本合成语音生成唇形同步人脸视频的方法,使得网络聊天机器人具有真人的外观及表情。语音或文本合成语音通常被表示为单声道音频信号,且频率很高,通常为16KHz。另一方面,视频是二维图像的时间序列,具有高维度(超过100K)和相对较低的采样频率,如25帧/秒,是一个三维信号。由于人类对面部表情的微妙变化非常敏感,所以需要生成细粒度的合成结果。因此,通过从低维度高频语音的音频信号或文本合成语音的音频信号中直接恢复高保真度的高维度低频视频是很有挑战的,这是一个严重欠约束的病态问题。
技术实现思路
为了解决
技术介绍
中存在的问题,本专利技术提出了级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,实现了通过语音或文本合成语音合成唇形同步人脸视频。本专利技术采用的技术方案包括如下步骤:1)采集目标人物的说话视频作为底板视频,说话视频中的目标人物即为最终人脸视频合成的主体人物,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列,该面部动画向量序列即为合成人脸表情的加权系数;2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合准确稠密的三维人脸追踪方式生成新的三维人脸模型;5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。本专利技术特殊采用滤波器组的语音特征处理获得面部模型数据,构建了特殊的级联卷积长短时记忆网络进行训练预测获得对应音频信号的面部模型数据替换图像的面部模型数据合成获得唇形同步人脸视频。所述步骤1)中的目标三维人脸模型使用了准确稠密的三维形变模型三维人脸重建。所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。所述步骤3)中的级联卷积长短时记忆网络结构,如图1和图3所示,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成;其中二维卷积层的卷积核大小为5*5且卷积核个数为32,两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100,四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300,三个级联的全连接层网络的卷积核大小分别为200、100、29;所述的级联卷积长短时记忆网络结构采用以下公式表示的锚样例、正样例、负样例之间的三元组损失函数,如下:Ltri=max(0,p-α×n)其中,y是指训练时的预测面部动画向量序列,是指底板视频的面部动画向量序列,是指经随机打乱的面部动画向量序列,是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列,p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离,n是指锚样例和负样例之间的距离,Ltri是所求的三元组损失,α是权重系数,i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数,N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数;所述步骤4)使用准确稠密的三维人脸追踪方法获得目标人物的头部姿态和光照系数,头部姿态和光照系数组成构建新的三维人脸模型。所述步骤5)中,渲染人脸图像使用基于数据驱动的相似纹理检索方法以匹配到最符合当前语音的嘴唇图像,再结合嘴唇图像进行最终人脸图像的渲染,合成唇形同步人脸视频。所述步骤1)中的目标人物的说话视频采用Kinect2.0相机采集。传统唇形同步人脸视频合成算法通过将音频流转化为毫秒级的音素序列,而音素的提取大多通过人工标记或者自动语音识别系统,这个过程很容易出错而且很复杂,需要很高的人力成本。最近基于梅尔频率倒谱系数特征的方法忽略了同一个时间窗口内的相关性,因此也忽略了音频信号中大量的细节信息。而本专利技术提出的算法直接从音频信号中提取滤波器组的语音特征,之后经过级联卷积长短时记忆网络的预测,最终合成唇形同步人脸视频,将唇形同步人脸视频合成问题转化为从音频信号到面部动画向量序列的序列到序列回归问题。本专利技术的有益效果是:本专利技术提出了语音驱动的唇形同步人脸视频合成算法,创新地利用滤波器组的语音特征进行二维卷积操作,从而获得了同一时间窗口的相关性,保留了大量的语音特征信息,并且使用了新颖的级联卷积长短时记忆网络模型,解决了恢复从音频信号到人脸视频的复杂映射问题,准确稠密的三维人脸跟踪解决了因人物说话引起的头部移动和面部细微变化,最终合成唇形同步人脸视频。本专利技术直接从音频信号中提取滤波器组的语音特征,相对于传统的梅尔频率倒谱系数特征,可以尽可能保留更多的声纹信息并转化为二维信号;使得可以利用卷积长短时记忆网络去捕获更丰富的空间信息,用于生成面部动画向量序列;然后结合准确稠密的三维人脸跟踪算法来合成唇形同步人脸视频。本专利技术提出了的算法,创新地通过二维卷积神经网络获取滤波器组的语音特征,扩大了卷积神经网络的感受野,该语音特征不仅增加了网络的深度而且分析了时间窗口内部以及不同时间窗口之间的相关性,进一步利用级联卷积长短时记忆网络获取音频信号与人脸视频间的复杂映射关系,并且通过准确稠密的三维人脸追踪对人物说话时引起的头部移动和面部的细微变化解耦合。附图说明图1为本专利技术算法采用的神经网络结构示意图。图2为本专利技术算法的整体结构示意图。图3为本专利技术算法的流程图。图4为数据集中的合成视频结果图;(a)使用真值合成的人脸视频,(b)使用梅尔倒谱频率和全连接长短时记忆层合成的人脸视频,(c)使用真人语音和级联卷积长短时记忆网络合成的人脸视频,(d)使用文本合成语音和级联卷积长短时记忆网络合成的人脸视频。表1为评测中的不同网络模型和损失函数的对比。具体实施方式下面将结合本专利技术中的附图,对本专利技术的技术方案进行清晰、完整的描述。基于本专利技术中的实施例,本领域普通技术人员在没有做创造性劳动的前提下所获得的所有其他实施例,都属于本文档来自技高网...

【技术保护点】
1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于包括如下步骤:1)采集目标人物的说话视频作为底板视频,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列;2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合三维人脸追踪方式生成新的三维人脸模型;5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。...

【技术特征摘要】
1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于包括如下步骤:1)采集目标人物的说话视频作为底板视频,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列;2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合三维人脸追踪方式生成新的三维人脸模型;5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。2.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标三维人脸模型使用了三维形变模型三维人脸重建。3.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。4.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤3)中的级联卷积长短时记忆网络结构,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四...

【专利技术属性】
技术研发人员:朱建科江泽胤子
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1