一种基于三维标志点的可操控说话视频生成方法及系统技术方案

技术编号：42471285 阅读：10 留言：0更新日期：2024-08-21 12:55

本发明专利技术提供一种基于三维标志点的可操控说话视频生成方法及系统，该方法的具体过程为：步骤一、进行语音向面部三维面部标志点和头部位姿的映射，获得面部标志点序列和头部位姿信息；步骤二、基于所述面部标志点序列中的眼皮标志点，获得左右瞳孔标志点并加入到面部标志点序列中，将步骤一生成的头部位姿作用于添加后的面部标志点序列；步骤三、将步骤二获得的结果输入至训练好的面部视频生成模型，得到说话者的面部视频。本发明专利技术在传统的面部标志点上增加额外的两个瞳孔标志点，实现对注视方向的有效操控。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机图形学与计算机视觉处理，具体涉及一种基于三维标志点的可操控说话视频生成方法及系统。

技术介绍

1、基于语音的包含面部细节动作的表情驱动是非常困难的，因为语音和面部细节动作弱相关。说同一段话时，不同人或者同一个人不同情绪时都会使表情有着差别。因此直接使用语音来建模面部细节的动作是具有挑战性的。因此一些研究从数据集中采集一段标准眨眼动作并循环作用于生成的视频上，实现模板化的眨眼动作生成，但其没有实现对其他表情细节的控制。此外操控注视点在基于语音的表情生成任务中也是重要的。对话时说话者注视着聆听者能促进信息的传递，也是一种社交礼仪。通过操控注视点，基于单张源图片就可以生成注视多个目标的说话视频，在多目标的交互场景中(比如采访，记者会等)具有重要意义。然而操控注视点的困难在于其与声音完全无关，需要额外的可控制的瞳孔参数和精细的瞳孔渲染。端到端的生成方法无法为眼部提供更多具象的约束。

2、makeittalk[1]：该方案使用语音驱动生成传统的68个三维人脸标志点，之后基于标志点，使用image2image生成网络...

【技术保护点】

1.一种基于三维标志点的可操控说话视频生成方法，其特征在于，具体过程为：

2.根据权利要求1所述基于三维标志点的可操控说话视频生成方法，其特征在于，所述面部标志点序列中的眼皮标志点，获得左右瞳孔标志点的过程为：

3.根据权利要求2所述基于三维标志点的可操控说话视频生成方法，其特征在于，所述基于眼皮点上的标志点，计算位于眼睛形状相关的包络中的关键点及中心点为：

4.根据权利要求1所述基于三维标志点的可操控说话视频生成方法，其特征在于，所述步骤一采用训练好的生成模型进行映射，其中所述生成模型在训练时，只学习语音相关的口型动作，得到的68个三维面部标志点序列...

【技术特征摘要】

1.一种基于三维标志点的可操控说话视频生成方法，其特征在于，具体过程为：

2.根据权利要求1所述基于三维标志点的可操控说话视频生成方法，其特征在于，所述面部标志点序列中的眼皮标志点，获得左右瞳孔标志点的过程为：

4.根据权利要求1所述基于三维标志点的可操控说话视频生成方法，其特征在于，所述步骤一采用训练好的生成模型进行映射，其中所述生成模型在训练时，只学习语音相关的口型动作，得到的68个三维面部标志点序列仅包含口型和下巴的动作；所述步骤三中的视频生成模型的训练过程为：使用面部标志点检测算法提取包含瞳孔信息的70个面部标志点，与面部视频共同构成训练数据对进行训练获得。

5.根据权利要求1所述基于三维标志点的可操控说话视频生成方法，其特征在于，还包括对步骤一获取的面部标志点序列中的眉毛和/或眼睛标志点进行...

【专利技术属性】
技术研发人员：翁冬冬，方慧，王涌天，刘越，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人