视频处理方法、装置及存储介质制造方法及图纸

技术编号:37850440 阅读:17 留言:0更新日期:2023-06-14 22:38
本申请实施例涉及人工智能技术领域,并提供一种视频处理方法、装置及存储介质,该方法包括:获取针对目标对象在第一场景下录制的唇形保持完全闭合状态的第一根视频和唇形保持第一幅度的张开状态的第二根视频;获取驱动生成虚拟形象的音频文件;采用驱动生成虚拟形象的音频文件中的非连读部分驱动第一根视频,获得第一待处理视频,采用驱动生成虚拟形象的音频文件中的连读部分驱动第二根视频,获得第二待处理视频;对第一待处理视频和第二待处理视频进行合成,得到目标对象的虚拟形象。本方案能够解决唇形抖动、与音频不同步的现象,提高虚拟形象的视觉效果。虚拟形象的视觉效果。虚拟形象的视觉效果。

【技术实现步骤摘要】
视频处理方法、装置及存储介质


[0001]本申请涉及人工智能
,进一步涉及计算机视觉
,尤其涉及一种视频处理方法、装置及存储介质。

技术介绍

[0002]目前,虚拟形象合成可以应用在不同的场合,例如:在线教育过程中,由虚拟老师提供教学服务,不仅可以大大减轻老师的负担,还可以降低教学成本,比单纯的录播课等有更好的教学体验。除此之外,虚拟形象还可以应用在更广泛的场合中,例如:人工智能(Artificial Intelligence,AI)新闻主播、游戏、动画和应用程序等实际的商业场景中具有极大的商业价值。目前对虚拟形象的合成,往往采用自然人在静默状态下,即保持唇形闭合状态下的根视频作为驱动视频,合成自然人的虚拟形象,但自然人长期保持唇形闭合状态易产生疲劳,难免会有轻微的变动,因此会导致后续合成的虚拟形象容易出现唇形抖动,与音频不同步的现象,导致虚拟形象的视觉效果不佳。

技术实现思路

[0003]本申请实施例提供了一种视频处理方法、装置及存储介质,能够解决唇形抖动、与音频不同步的现象,提高虚拟形象的视觉效果。
[0004]第一方面中,本申请实施例提供一种视频处理方法,该方法包括:
[0005]获取针对目标对象在第一场景下录制的第一根视频和第二根视频,其中,该第一根视频中该目标对象的唇形保持完全闭合状态,该第二根视频中该目标对象的唇形保持第一幅度的张开状态;
[0006]获取驱动生成虚拟形象的音频文件;
[0007]采用该驱动生成虚拟形象的音频文件的第一部分驱动该第一根视频,获得第一待处理视频,采用该驱动生成虚拟形象的音频文件的第二部分驱动该第二根视频,获得第二待处理视频;其中,该音频文件的第一部分包括该音频文件中的非连读部分,该音频文件的第二部分包括该音频文件中的连读部分;
[0008]对该第一待处理视频和该第二待处理视频进行合成,得到该目标对象的虚拟形象。
[0009]一些实施方式中,该采用该驱动生成虚拟形象的音频文件的第一部分驱动该第一根视频之前,该方法还包括:
[0010]根据该驱动生成虚拟形象的音频文件的文本内容确定该非连读部分和该连读部分;
[0011]将该非连读部分对应的音频段作为该音频文件的第一部分,将该连读部分对应的音频段作为该音频文件的第二部分。
[0012]一些实施方式中,该根据该驱动生成虚拟形象的音频文件的文本内容确定该非连读部分和该连读部分,包括:
[0013]确定该驱动生成虚拟形象的音频文件的文本内容中相邻字之间的发音间隔时间,将该发音间隔时间大于第一预设阈值的所有字的集合对应的音频段作为该非连读部分,将该发音间隔时间小于或等于该第一预设阈值的所有字的集合对应的音频段作为该连读部分。
[0014]一些实施方式中,该根据该驱动生成虚拟形象的音频文件的文本内容确定该非连读部分和该连读部分,包括:
[0015]确定该驱动生成虚拟形象的音频文件的文本内容中每个字的音频信号的完整度,将该音频信号的完整度大于第二预设阈值的所有字的集合对应的音频段作为该非连读部分,将该音频信号的完整度小于或等于该第二预设阈值的所有字的集合对应的音频段作为该连读部分。
[0016]一些实施方式中,该根据该驱动生成虚拟形象的音频文件的文本内容确定该非连读部分和该连读部分,包括:
[0017]确定该驱动生成虚拟形象的音频文件的文本内容中相邻字之间的发音间隔时间和每个字的音频信号的完整度,将该发音间隔时间大于第一预设阈值且该音频信号的完整度大于第二预设阈值的所有字的集合对应的音频段作为该非连读部分,将该发音间隔时间小于或等于该第一预设阈值且该音频信号的完整度小于或等于该第二预设阈值的所有字的集合对应的音频段作为该连读部分。
[0018]一些实施方式中,该对该第一待处理视频和该第二待处理视频进行合成,包括:
[0019]对该第一待处理视频和该第二待处理视频进行视频拼接,并对拼接后得到的视频通过深度学习算法进行超分辨处理,得到该目标对象的虚拟形象。
[0020]一些实施方式中,该获取针对目标对象在第一场景下录制的第一根视频和第二根视频之前,该方法还包括:
[0021]将该第一根视频中该目标对象的唇部位置与第一预设唇部位置进行比对,若匹配,则确定该第一根视频满足要求;
[0022]将该第二根视频中该目标对象的唇部位置与第二预设唇部位置进行比对,若匹配,则确定该第二根视频满足要求。
[0023]第二方面中,本申请实施例提供了一种视频处理装置,该视频处理装置具有实现对应于上述第一方面提供的视频处理方法的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,模块可以是软件和/或硬件。
[0024]一些实施方式中,该视频处理装置包括:
[0025]获取模块,用于获取针对目标对象在第一场景下录制的第一根视频和第二根视频,以及驱动生成虚拟形象的音频文件;其中,该第一根视频中该目标对象的唇形保持完全闭合状态,该第二根视频中该目标对象的唇形保持第一幅度的张开状态;
[0026]处理模块,用于采用该驱动生成虚拟形象的音频文件的第一部分驱动该第一根视频,获得第一待处理视频,采用该驱动生成虚拟形象的音频文件的第二部分驱动该第二根视频,获得第二待处理视频;其中,该音频文件的第一部分包括该音频文件中的非连读部分,该音频文件的第二部分包括该音频文件中的连读部分;
[0027]该处理模块还用于对该第一待处理视频和该第二待处理视频进行合成,得到该目
标对象的虚拟形象。
[0028]一些实施方式中,上述处理模块还用于:
[0029]根据该驱动生成虚拟形象的音频文件的文本内容确定该非连读部分和该连读部分;
[0030]将该非连读部分对应的音频段作为该音频文件的第一部分,将该连读部分对应的音频段作为该音频文件的第二部分。
[0031]一些实施方式中,上述处理模块具体用于:
[0032]确定该驱动生成虚拟形象的音频文件的文本内容中相邻字之间的发音间隔时间,将该发音间隔时间大于第一预设阈值的所有字的集合对应的音频段作为该非连读部分,将该发音间隔时间小于或等于该第一预设阈值的所有字的集合对应的音频段作为该连读部分。
[0033]一些实施方式中,上述处理模块具体用于:
[0034]确定该驱动生成虚拟形象的音频文件的文本内容中每个字的音频信号的完整度,将该音频信号的完整度大于第二预设阈值的所有字的集合对应的音频段作为该非连读部分,将该音频信号的完整度小于或等于该第二预设阈值的所有字的集合对应的音频段作为该连读部分。
[0035]一些实施方式中,上述处理模块具体用于:
[0036]确定该驱动生成虚拟形象的音频文件的文本内容中相邻字之间的发音间隔时间和每个字的音频信号的完整度,将该发音间隔时间大于第一预设阈值且该音频信号的完整度大于第二预设阈值的所有字的集合对应的音频段作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取针对目标对象在第一场景下录制的第一根视频和第二根视频,其中,所述第一根视频中所述目标对象的唇形保持完全闭合状态,所述第二根视频中所述目标对象的唇形保持第一幅度的张开状态;获取驱动生成虚拟形象的音频文件;采用所述驱动生成虚拟形象的音频文件的第一部分驱动所述第一根视频,获得第一待处理视频,采用所述驱动生成虚拟形象的音频文件的第二部分驱动所述第二根视频,获得第二待处理视频;其中,所述音频文件的第一部分包括所述音频文件中的非连读部分,所述音频文件的第二部分包括所述音频文件中的连读部分;对所述第一待处理视频和所述第二待处理视频进行合成,得到所述目标对象的虚拟形象。2.根据权利要求1所述的视频处理方法,其特征在于,所述采用所述驱动生成虚拟形象的音频文件的第一部分驱动所述第一根视频之前,所述方法还包括:根据所述驱动生成虚拟形象的音频文件的文本内容确定所述非连读部分和所述连读部分;将所述非连读部分对应的音频段作为所述音频文件的第一部分,将所述连读部分对应的音频段作为所述音频文件的第二部分。3.根据权利要求2所述的视频处理方法,其特征在于,所述根据所述驱动生成虚拟形象的音频文件的文本内容确定所述非连读部分和所述连读部分,包括:确定所述驱动生成虚拟形象的音频文件的文本内容中相邻字之间的发音间隔时间,将所述发音间隔时间大于第一预设阈值的所有字的集合对应的音频段作为所述非连读部分,将所述发音间隔时间小于或等于所述第一预设阈值的所有字的集合对应的音频段作为所述连读部分。4.根据权利要求2所述的视频处理方法,其特征在于,所述根据所述驱动生成虚拟形象的音频文件的文本内容确定所述非连读部分和所述连读部分,包括:确定所述驱动生成虚拟形象的音频文件的文本内容中每个字的音频信号的完整度,将所述音频信号的完整度大于第二预设阈值的所有字的集合对应的音频段作为所述非连读部分,将所述音频信号的完整度小于或等于所述第二预设阈值的所有字的集合对应的音频段作为所述连读部分。5.根据权利要求2所述的视频处理方法,其特征在于,所述根据所述驱动生成虚拟形象的音频文件的文本内容确定所述非连读部分和所述连读部分,包括:确定所述驱动生成虚拟形象的音频文件的文本内容中相邻字之间的发音间隔时间和每个字的音频信号的完整度,将所述发音间隔时间大于第一预设...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京生数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1