【技术实现步骤摘要】
本专利技术涉及人工智能领域,尤其涉及一种音视频的生成方法、装置、设备及存储介质。
技术介绍
1、随着移动智能终端设备和网络的普及,网络直播迅速发展,直播的形式也越来越多样化,一种直播形式是可以根据给定文本/语音结合模板视频,使模板视频中的数字对象按照给定的文本/语音对应的口型进行发声,以生成对应的虚拟视频。但这种视频中的数字对象口型只和文本/语音中有实际语意的片段对应,静音片段时就会出现多余口型或生硬的闭嘴表情,极大影响了视频观众的观感,因此如何使数字对象在静音处的口型更符合真人说话的自然状态,完善视频观众的观看体验是一个亟需解决的问题。
技术实现思路
1、本专利技术实施例所要解决的技术问题在于,提供一种音视频的生成方法、装置、设备及存储介质,实现了使视频中的数字对象在静音处的口型稳定并符合真人说话的自然状态。
2、第一方面,本专利技术实施例提供了一种音视频的生成方法,包括:
3、对目标音频进行特征提取,得到目标音频对应的非静音特征以及目标音频对应的静音特征,目标音
...【技术保护点】
1.一种音视频的生成方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述提取目标音频对应的静音特征,包括:
3.如权利要求2所述的方法,其特征在于,所述基于所述第一音频片段对应的特征掩码以及所述第二音频片段对应的特征掩码,从所述语音特征中提取所述静音特征,包括:
4.如权利要求1所述的方法,其特征在于,所述预测表情系数是通过训练后的表情系数提取模型得到的,其中所述训练后的表情系数提取模型的训练方法包括:
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
6.如权利要求4所述的方法,其
...【技术特征摘要】
1.一种音视频的生成方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述提取目标音频对应的静音特征,包括:
3.如权利要求2所述的方法,其特征在于,所述基于所述第一音频片段对应的特征掩码以及所述第二音频片段对应的特征掩码,从所述语音特征中提取所述静音特征,包括:
4.如权利要求1所述的方法,其特征在于,所述预测表情系数是通过训练后的表情系数提取模型得到的,其中所述训练后的表情系数提取模型的训练方法包括:
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
6.如权利要求4所述的方法,其特征在于,所述方法还包括:
7.如权利要求1所述的方法,其特...
【专利技术属性】
技术研发人员:季孝忠,邰颖,汪铖杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。