基于图片和语音的视频合成方法、系统、设备及存储介质技术方案

技术编号：40464323 阅读：18 留言：0更新日期：2024-02-22 23:18

本发明专利技术属于人工智能技术领域，具体公开了基于图片和语音的视频合成方法、系统、设备及存储介质，通过获取人脸图片和音频数据，以根据人脸图片构建各音素的单音素视频片段，根据音频数据进行语音识别，提取发音结构化数据，利用发音结构化数据和各音素的单音素视频片段来拼接调整，得到对应的合成视频，可以实现智能化的视频合成，有效降低用户端的视频合成耗时和计算资源要求。本发明专利技术可以准确地模拟用户的嘴型动作，提高合成视频的自然度和真实感，可以减少用户端视频合成的计算量和时间，提高视频合成效率和稳定性，提升合成视频的流畅性和呈现效果，具有广泛的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，具体涉及基于图片和语音的视频合成方法、系统、设备及存储介质。

技术介绍

1、在视频合成领域，为了提高合成视频的逼真度和表现力，现有的方法主要分为基于规则和基于机器学习的两种方法；基于规则的方法需要手动编写规则来控制视频合成的过程，这种方法存在规则复杂、难以维护等问题；相比之下，基于机器学习的方法可以通过训练模型来自动控制视频合成过程，但是这需要大量的训练数据和计算资源支持。总的来说，现有的视频合成技术都还存在一定的缺陷，即合成视频的耗时较长，尤其是在合成分钟级别以上的视频时，对于需要即时应用的人机交互场景不利，其次，对服务器的性能要求极高，特别是对gpu和内存的性能要求，这就限制了其在大规模应用中的推广。因此，亟需一种可以在提高合成视频逼真度和表现力的同时，有效降低视频合成耗时和计算资源要求的视频合成技术。

技术实现思路

1、本专利技术的目的是提供基于图片和语音的视频合成方法、系统、设备及存储介质，用以解决现有技术中存在的上述问题。

2、为了实现上述目的...

【技术保护点】

1.基于图片和语音的视频合成方法，其特征在于，包括：

2.根据权利要求1所述的基于图片和语音的视频合成方法，其特征在于，所述对人脸图片进行嘴唇部位检测，根据嘴唇部位检测结果生成各音素的发音过程嘴型集，包括：

3.根据权利要求1所述的基于图片和语音的视频合成方法，其特征在于，所述对音频数据进行语音识别处理，提取音频数据对应的发音结构化数据，包括：

4.根据权利要求1所述的基于图片和语音的视频合成方法，其特征在于，所述将音素片段字典以及发音结构化数据传输至客户端，包括：

5.根据权利要求1所述的基于图片和语音的视频合成方法，其特征在于，所述将音...

【技术特征摘要】

1.基于图片和语音的视频合成方法，其特征在于，包括：

4.根据权利要求1所述的基于图片和语音的视频合成方法，其特征在于，所述将音素片段字典以及发音结构化数据传输至客户端，包括：

5.根据权利要求1所述的基于图片和语音的视频合成方法，其特征在于，所述将音素片段字典以及发音结构化数据传输至客户端，以使客户端根据音素序列、音素序列中各音素的持续时长以及音素序列中相邻两音素之间的停顿时长，从音素片段字典中调取相应的单音素视频片段进行拼接调整，...

【专利技术属性】
技术研发人员：余国家，张博文，孔宇，金虹宇，
申请(专利权)人：成都时空智能科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人