语音及动作驱动图像的方法、系统、装置及存储介质制造方法及图纸

技术编号：29465132 阅读：27 留言：0更新日期：2021-07-27 17:53

本发明专利技术公开了一种语音及动作驱动图像的方法、系统、装置及存储介质，所述方法包括：获取语音、动作视频及图像；根据所述图像提取面部特征向量，以及根据所述语音预测系列表情参数；根据所述图像及所述动作视频确定驱动的系列关键点参数；根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；根据所述语音及所述系列图像生成视频文件。本发明专利技术实施例能够驱动静态图像按照预设的语音及动作形成匹配的视频文件，生动逼真，操作简单且便于推广。本发明专利技术实施例可广泛应用于图像处理技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
语音及动作驱动图像的方法、系统、装置及存储介质
本申请涉及图像处理
，尤其涉及一种语音及动作驱动图像的方法、系统、装置及存储介质。
技术介绍
随着互联网的不断发展，传统媒体已经逐渐数字化，如广播、电视或报纸。随着社交网络的进一步发展，普通大众也可以通过网络等途径向外发布他们自身的事实和新闻，人人皆是自媒体。但是，目前自媒体的形式和制作仍然存在一些问题：如大多数社交动态只用图文说明，不够生动，更无法通过语音及动作视频驱动静态的图像，即无法使静态的图像按照预设的语音说话以及使静态的图像按照预设的动作视频进行动态变化；如果采用虚拟人物形象达到动态变化的效果，需要专业的建模师，耗费成本较高；如果采用视频拍摄并制作动态效果，需要专人录制及后期处理且成本较高，一旦发现有错误则难以修改；采用虚拟人物或视频拍摄制作动态效果，操作复杂，不便于推广。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种语音及动作驱动图像的方法、系统、装置及存储介质，能够驱动静态图像按照预设的语音及...

【技术保护点】
1.一种语音及动作驱动图像的方法，其特征在于，包括步骤：/n获取语音、动作视频及图像；/n根据所述图像提取面部特征向量，以及根据所述语音预测系列表情参数；/n根据所述图像及所述动作视频确定驱动的系列关键点参数；/n根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；/n根据所述语音及所述系列图像生成视频文件。/n

【技术特征摘要】
1.一种语音及动作驱动图像的方法，其特征在于，包括步骤：
获取语音、动作视频及图像；
根据所述图像提取面部特征向量，以及根据所述语音预测系列表情参数；
根据所述图像及所述动作视频确定驱动的系列关键点参数；
根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；
根据所述语音及所述系列图像生成视频文件。

2.根据权利要求1所述的语音及动作驱动图像的方法，其特征在于，所述根据所述图像及所述动作视频确定驱动的系列关键点参数，包括步骤：
对所述动作视频的每一帧图像进行检测得到动作视频的系列关键点参数，以及对所述图像进行检测得到关键点参数；
根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧，并对所述最相似的图像帧进行检测得到最相似的图像帧的关键点参数；
根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数。

3.根据权利要求2所述的语音及动作驱动图像的方法，其特征在于，根据所述最相似的图像帧的关键点参数、所述图像的关键点参数及所述动作视频的系列关键点参数确定驱动的系列关键点参数，包括步骤：
根据所述动作视频的系列关键点参数及所述图像最相似的图像帧的的关键点参数确定第一系列关键点参数；
根据所述第一系列关键点参数与所述图像的关键点参数确定所述驱动的系列关键点参数。

4.根据权利要求2所述的语音及动作驱动图像的方法，其特征在于，所述根据所述动作视频及所述图像确定所述动作视频中与所述图像最相似的图像帧，包括步骤：
对所述动作视频的每一帧图像进行提取得到系列面部特征点，以及对所述图像进行提取得到图像的面部特征点；
确定所述系列面部特征点与所述图像的面部特征点的系列均方误差；
确定所述系列均方误差中的最小值对应的图像帧为与所述...

【专利技术属性】
技术研发人员：王伦基，李权，叶俊杰，朱杰，成秋喜，韩蓝青，
申请(专利权)人：清华珠三角研究院，赛业广州生物科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人