【技术实现步骤摘要】
本专利技术属于人工智能,具体涉及基于图片和语音的视频合成方法、系统、设备及存储介质。
技术介绍
1、在视频合成领域,为了提高合成视频的逼真度和表现力,现有的方法主要分为基于规则和基于机器学习的两种方法;基于规则的方法需要手动编写规则来控制视频合成的过程,这种方法存在规则复杂、难以维护等问题;相比之下,基于机器学习的方法可以通过训练模型来自动控制视频合成过程,但是这需要大量的训练数据和计算资源支持。总的来说,现有的视频合成技术都还存在一定的缺陷,即合成视频的耗时较长,尤其是在合成分钟级别以上的视频时,对于需要即时应用的人机交互场景不利,其次,对服务器的性能要求极高,特别是对gpu和内存的性能要求,这就限制了其在大规模应用中的推广。因此,亟需一种可以在提高合成视频逼真度和表现力的同时,有效降低视频合成耗时和计算资源要求的视频合成技术。
技术实现思路
1、本专利技术的目的是提供基于图片和语音的视频合成方法、系统、设备及存储介质,用以解决现有技术中存在的上述问题。
2、为了实现上述目的
...【技术保护点】
1.基于图片和语音的视频合成方法,其特征在于,包括:
2.根据权利要求1所述的基于图片和语音的视频合成方法,其特征在于,所述对人脸图片进行嘴唇部位检测,根据嘴唇部位检测结果生成各音素的发音过程嘴型集,包括:
3.根据权利要求1所述的基于图片和语音的视频合成方法,其特征在于,所述对音频数据进行语音识别处理,提取音频数据对应的发音结构化数据,包括:
4.根据权利要求1所述的基于图片和语音的视频合成方法,其特征在于,所述将音素片段字典以及发音结构化数据传输至客户端,包括:
5.根据权利要求1所述的基于图片和语音的视频合成方法,
...【技术特征摘要】
1.基于图片和语音的视频合成方法,其特征在于,包括:
2.根据权利要求1所述的基于图片和语音的视频合成方法,其特征在于,所述对人脸图片进行嘴唇部位检测,根据嘴唇部位检测结果生成各音素的发音过程嘴型集,包括:
3.根据权利要求1所述的基于图片和语音的视频合成方法,其特征在于,所述对音频数据进行语音识别处理,提取音频数据对应的发音结构化数据,包括:
4.根据权利要求1所述的基于图片和语音的视频合成方法,其特征在于,所述将音素片段字典以及发音结构化数据传输至客户端,包括:
5.根据权利要求1所述的基于图片和语音的视频合成方法,其特征在于,所述将音素片段字典以及发音结构化数据传输至客户端,以使客户端根据音素序列、音素序列中各音素的持续时长以及音素序列中相邻两音素之间的停顿时长,从音素片段字典中调取相应的单音素视频片段进行拼接调整,...
【专利技术属性】
技术研发人员:余国家,张博文,孔宇,金虹宇,
申请(专利权)人:成都时空智能科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。