一种音视频的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:39985864 阅读:22 留言:0更新日期:2024-01-09 01:53
本申请实施例公开了一种音视频的生成方法、装置、设备及存储介质,涉及人工智能和车联网,该音视频的生成方法包括:对目标音频进行特征提取,得到目标音频对应的非静音特征以及目标音频对应的静音特征,该非静音特征指的是:目标音频中包含人声音频的第一音频片段的特征,该静音特征指是:目标音频中未包含人声音频的第二音频片段的特征;基于非静音特征和静音特征,对数字对象的表情进行预测,得到数字对象的预测表情系数;基于预测表情系数对数字对象的表情进行调整;将目标音频与调整后视频片段进行合成,得到目标音视频。采用本发明专利技术实施例,实现了使数字对象在静音处的口型稳定并符合真人说话的自然状态。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,尤其涉及一种音视频的生成方法、装置、设备及存储介质


技术介绍

1、随着移动智能终端设备和网络的普及,网络直播迅速发展,直播的形式也越来越多样化,一种直播形式是可以根据给定文本/语音结合模板视频,使模板视频中的数字对象按照给定的文本/语音对应的口型进行发声,以生成对应的虚拟视频。但这种视频中的数字对象口型只和文本/语音中有实际语意的片段对应,静音片段时就会出现多余口型或生硬的闭嘴表情,极大影响了视频观众的观感,因此如何使数字对象在静音处的口型更符合真人说话的自然状态,完善视频观众的观看体验是一个亟需解决的问题。


技术实现思路

1、本专利技术实施例所要解决的技术问题在于,提供一种音视频的生成方法、装置、设备及存储介质,实现了使视频中的数字对象在静音处的口型稳定并符合真人说话的自然状态。

2、第一方面,本专利技术实施例提供了一种音视频的生成方法,包括:

3、对目标音频进行特征提取,得到目标音频对应的非静音特征以及目标音频对应的静音特征,目标音频对应的非静音特征指本文档来自技高网...

【技术保护点】

1.一种音视频的生成方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述提取目标音频对应的静音特征,包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述第一音频片段对应的特征掩码以及所述第二音频片段对应的特征掩码,从所述语音特征中提取所述静音特征,包括:

4.如权利要求1所述的方法,其特征在于,所述预测表情系数是通过训练后的表情系数提取模型得到的,其中所述训练后的表情系数提取模型的训练方法包括:

5.如权利要求4所述的方法,其特征在于,所述方法还包括:

6.如权利要求4所述的方法,其特征在于,所述方法还...

【技术特征摘要】

1.一种音视频的生成方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述提取目标音频对应的静音特征,包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述第一音频片段对应的特征掩码以及所述第二音频片段对应的特征掩码,从所述语音特征中提取所述静音特征,包括:

4.如权利要求1所述的方法,其特征在于,所述预测表情系数是通过训练后的表情系数提取模型得到的,其中所述训练后的表情系数提取模型的训练方法包括:

5.如权利要求4所述的方法,其特征在于,所述方法还包括:

6.如权利要求4所述的方法,其特征在于,所述方法还包括:

7.如权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:季孝忠邰颖汪铖杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1