【技术实现步骤摘要】
本专利技术属于计算机图形学与计算机视觉处理,具体涉及一种基于三维标志点的可操控说话视频生成方法及系统。
技术介绍
1、基于语音的包含面部细节动作的表情驱动是非常困难的,因为语音和面部细节动作弱相关。说同一段话时,不同人或者同一个人不同情绪时都会使表情有着差别。因此直接使用语音来建模面部细节的动作是具有挑战性的。因此一些研究从数据集中采集一段标准眨眼动作并循环作用于生成的视频上,实现模板化的眨眼动作生成,但其没有实现对其他表情细节的控制。此外操控注视点在基于语音的表情生成任务中也是重要的。对话时说话者注视着聆听者能促进信息的传递,也是一种社交礼仪。通过操控注视点,基于单张源图片就可以生成注视多个目标的说话视频,在多目标的交互场景中(比如采访,记者会等)具有重要意义。然而操控注视点的困难在于其与声音完全无关,需要额外的可控制的瞳孔参数和精细的瞳孔渲染。端到端的生成方法无法为眼部提供更多具象的约束。
2、makeittalk[1]:该方案使用语音驱动生成传统的68个三维人脸标志点,之后基于标志点,使用image2image生成网络
...【技术保护点】
1.一种基于三维标志点的可操控说话视频生成方法,其特征在于,具体过程为:
2.根据权利要求1所述基于三维标志点的可操控说话视频生成方法,其特征在于,所述面部标志点序列中的眼皮标志点,获得左右瞳孔标志点的过程为:
3.根据权利要求2所述基于三维标志点的可操控说话视频生成方法,其特征在于,所述基于眼皮点上的标志点,计算位于眼睛形状相关的包络中的关键点及中心点为:
4.根据权利要求1所述基于三维标志点的可操控说话视频生成方法,其特征在于,所述步骤一采用训练好的生成模型进行映射,其中所述生成模型在训练时,只学习语音相关的口型动作,得到的68
...【技术特征摘要】
1.一种基于三维标志点的可操控说话视频生成方法,其特征在于,具体过程为:
2.根据权利要求1所述基于三维标志点的可操控说话视频生成方法,其特征在于,所述面部标志点序列中的眼皮标志点,获得左右瞳孔标志点的过程为:
3.根据权利要求2所述基于三维标志点的可操控说话视频生成方法,其特征在于,所述基于眼皮点上的标志点,计算位于眼睛形状相关的包络中的关键点及中心点为:
4.根据权利要求1所述基于三维标志点的可操控说话视频生成方法,其特征在于,所述步骤一采用训练好的生成模型进行映射,其中所述生成模型在训练时,只学习语音相关的口型动作,得到的68个三维面部标志点序列仅包含口型和下巴的动作;所述步骤三中的视频生成模型的训练过程为:使用面部标志点检测算法提取包含瞳孔信息的70个面部标志点,与面部视频共同构成训练数据对进行训练获得。
5.根据权利要求1所述基于三维标志点的可操控说话视频生成方法,其特征在于,还包括对步骤一获取的面部标志点序列中的眉毛和/或眼睛标志点进行...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。