虚拟人互动视频的渲染方法和装置制造方法及图纸

技术编号:37392321 阅读:26 留言:0更新日期:2023-04-27 07:30
本申请提供一种虚拟人互动视频的渲染方法和装置,方法包括,获得待播报语音;并选取肢体动作视频库中与待播报语音匹配的肢体动作数据作为目标肢体动作数据;目标肢体动作数据包括基于虚拟人的肢体动作预先渲染的肢体动作视频,肢体动作视频的唇部位置信息和唇部姿态信息;根据唇部姿态信息和待播报语音,渲染唇部视频;基于唇部位置信息融合唇部视频和肢体动作视频,得到用于输出待播报语音的虚拟人互动视频。本方案只需要实时渲染唇部视频,就可以将唇部视频和预渲染的肢体动作视频合成为完成的虚拟人互动视频,显著减少了实时渲染虚拟人互动视频所需计算量。虚拟人互动视频所需计算量。虚拟人互动视频所需计算量。

【技术实现步骤摘要】
虚拟人互动视频的渲染方法和装置


[0001]本专利技术涉及虚拟人交互
,特别涉及一种虚拟人互动视频的渲染方法和装置。

技术介绍

[0002]虚拟人互动视频,是指具有如下特征的视频:视频画面中显示有三维的人物模型,视频播放时,该人物模型的肢体(包括四肢和躯干)以及唇部会随着视频输出的语音而变化。
[0003]人机交互时,设备可以播放虚拟人互动视频来模拟真人说话,改善交互体验。因此,虚拟人互动视频越来越多地在如智能导购、智能导览、智能前台、手机助手等场景中应用。
[0004]上述场景中,虚拟人互动视频所输出的语音通常携带大量随时变化的实时信息,如时间、天气、股票、业务状态、个人信息等,所以虚拟人互动视频必须进行实时渲染,即需要在获得用户输入后短时间内生成虚拟人互动视频并输出。
[0005]然而,实时渲染含三维人物模型的视频所需的计算量很大,特别是随着建模技术的发展,三维人物模型的精度越来越高,导致渲染相应视频所需的计算量也越来越大。这一问题极大的增加了虚拟人互动视频的应用成本,限制了该项技术的应用范围和应用场景。

技术实现思路

[0006]针对上述现有技术的缺点,本专利技术提供一种虚拟人互动视频的渲染方法和装置,以减少实时渲染虚拟人互动视频所需计算量。
[0007]本申请第一方面提供一种虚拟人互动视频的渲染方法,包括:
[0008]获得待播报语音;并选取肢体动作视频库中与所述待播报语音匹配的肢体动作数据作为目标肢体动作数据;其中,所述目标肢体动作数据包括基于虚拟人的肢体动作预先渲染的肢体动作视频,所述肢体动作视频的唇部位置信息和唇部姿态信息;
[0009]根据所述唇部姿态信息和所述待播报语音,渲染唇部视频;
[0010]基于所述唇部位置信息,融合所述唇部视频和所述肢体动作视频,得到用于输出所述待播报语音的虚拟人互动视频。
[0011]可选的,所述根据所述唇部姿态信息和所述待播报语音,渲染唇部视频,包括:
[0012]将所述肢体动作视频的时间轴和所述待播报语音的时间轴同步;
[0013]针对所述待播报语音中每一音频帧,从所述唇部姿态信息中获取和所述音频帧对应的动作视频帧的唇部姿态数据,并根据所述音频帧和所述唇部姿态数据渲染得到所述音频帧对应的唇部视频帧;其中,所述动作视频帧指代所述肢体动作视频的视频帧;所述唇部视频帧指代组成所述唇部视频的视频帧。
[0014]可选的,所述基于所述唇部位置信息,融合所述唇部视频和所述肢体动作视频,得到用于输出所述待播报语音的虚拟人互动视频,包括:
[0015]针对每一所述动作视频帧,从所述唇部位置信息中获取所述动作视频帧的唇部位置数据,并将所述动作视频帧对应的唇部视频帧,叠加在所述动作视频帧中所述唇部位置数据所指示的位置,得到所述动作视频帧对应的互动视频帧;其中,连续的多个所述互动视频帧组成所述虚拟人互动视频。
[0016]可选的,所述选取肢体动作视频库中与所述待播报语音匹配的肢体动作数据作为目标肢体动作数据,包括:
[0017]确定与所述待播报语音的语音内容相匹配的目标肢体动作;
[0018]选取肢体动作视频库中,与所述目标肢体动作对应的肢体动作数据作为目标肢体动作数据。
[0019]可选的,所述肢体动作数据包括表情标签,所述表情标签表征渲染肢体动作视频时的虚拟表情;
[0020]所述选取肢体动作视频库中,与所述目标肢体动作对应的肢体动作数据作为目标肢体动作数据,包括:
[0021]选取所述肢体动作视频库中,与所述目标肢体动作对应,并且具有和所述待播报语音相同的表情标签的肢体动作数据作为目标肢体动作数据;其中,所述待播报语音的表情标签根据所述待播报语音的语音内容确定。
[0022]本申请第二方面提供一种虚拟人互动视频的渲染装置,包括:
[0023]获取单元,用于获得待播报语音;并选取肢体动作视频库中与所述待播报语音匹配的肢体动作数据作为目标肢体动作数据;其中,所述目标肢体动作数据包括基于虚拟人的肢体动作预先渲染的肢体动作视频,所述肢体动作视频的唇部位置信息和唇部姿态信息;
[0024]渲染单元,用于根据所述唇部姿态信息和所述待播报语音,渲染唇部视频;
[0025]融合单元,用于基于所述唇部位置信息,融合所述唇部视频和所述肢体动作视频,得到用于输出所述待播报语音的虚拟人互动视频。
[0026]可选的,所述渲染单元根据所述唇部姿态信息和所述待播报语音,渲染唇部视频时,具体用于:
[0027]将所述肢体动作视频的时间轴和所述待播报语音的时间轴同步;
[0028]针对所述待播报语音中每一音频帧,从所述唇部姿态信息中获取和所述音频帧对应的动作视频帧的唇部姿态数据,并根据所述音频帧和所述唇部姿态数据合成所述音频帧对应的唇部视频帧;其中,所述动作视频帧指代所述肢体动作视频的视频帧;所述唇部视频帧指代组成所述唇部视频的视频帧。
[0029]可选的,所述融合单元基于所述唇部位置信息,融合所述唇部视频和所述肢体动作视频,得到用于输出所述待播报语音的虚拟人互动视频时,具体用于:
[0030]针对每一所述动作视频帧,从所述唇部位置信息中获取所述动作视频帧的唇部位置数据,并将所述动作视频帧对应的唇部视频帧,叠加在所述动作视频帧中所述唇部位置数据所指示的位置,得到所述动作视频帧对应的互动视频帧;其中,连续的多个所述互动视频帧组成所述虚拟人互动视频。
[0031]可选的,所述获取单元选取肢体动作视频库中与所述待播报语音匹配的肢体动作数据作为目标肢体动作数据时,具体用于:
[0032]确定与所述待播报语音的语音内容相匹配的目标肢体动作;
[0033]选取肢体动作视频库中,与所述目标肢体动作对应的肢体动作数据作为目标肢体动作数据。
[0034]可选的,所述肢体动作数据包括表情标签,所述表情标签表征渲染肢体动作视频时的虚拟表情;
[0035]所述获取单元选取肢体动作视频库中,与所述目标肢体动作对应的肢体动作数据作为目标肢体动作数据时,具体用于:
[0036]选取所述肢体动作视频库中,与所述目标肢体动作对应,并且具有和所述待播报语音相同的表情标签的肢体动作数据作为目标肢体动作数据;其中,所述待播报语音的表情标签根据所述待播报语音的语音内容确定。
[0037]本申请提供一种虚拟人互动视频的渲染方法和装置,方法包括,获得待播报语音;并选取肢体动作视频库中与待播报语音匹配的肢体动作数据作为目标肢体动作数据;目标肢体动作数据包括基于虚拟人的肢体动作预先渲染的肢体动作视频,肢体动作视频的唇部位置信息和唇部姿态信息;根据唇部姿态信息和待播报语音,渲染唇部视频;基于唇部位置信息融合唇部视频和肢体动作视频,得到用于输出待播报语音的虚拟人互动视频。本方案只需要实时渲染唇部视频,就可以将唇部视频和预渲染的肢体动作视频合成为完成的虚拟人互动视频,显著减少了实时渲染虚拟人互动视频所需计算量。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟人互动视频的渲染方法,其特征在于,包括:获得待播报语音;并选取肢体动作视频库中与所述待播报语音匹配的肢体动作数据作为目标肢体动作数据;其中,所述目标肢体动作数据包括基于虚拟人的肢体动作预先渲染的肢体动作视频,所述肢体动作视频的唇部位置信息和唇部姿态信息;根据所述唇部姿态信息和所述待播报语音,渲染唇部视频;基于所述唇部位置信息,融合所述唇部视频和所述肢体动作视频,得到用于输出所述待播报语音的虚拟人互动视频。2.根据权利要求1所述的方法,其特征在于,所述根据所述唇部姿态信息和所述待播报语音,渲染唇部视频,包括:将所述肢体动作视频的时间轴和所述待播报语音的时间轴同步;针对所述待播报语音中每一音频帧,从所述唇部姿态信息中获取和所述音频帧对应的动作视频帧的唇部姿态数据,并根据所述音频帧和所述唇部姿态数据渲染得到所述音频帧对应的唇部视频帧;其中,所述动作视频帧指代所述肢体动作视频的视频帧;所述唇部视频帧指代组成所述唇部视频的视频帧。3.根据权利要求2所述的方法,其特征在于,所述基于所述唇部位置信息,融合所述唇部视频和所述肢体动作视频,得到用于输出所述待播报语音的虚拟人互动视频,包括:针对每一所述动作视频帧,从所述唇部位置信息中获取所述动作视频帧的唇部位置数据,并将所述动作视频帧对应的唇部视频帧,叠加在所述动作视频帧中所述唇部位置数据所指示的位置,得到所述动作视频帧对应的互动视频帧;其中,连续的多个所述互动视频帧组成所述虚拟人互动视频。4.根据权利要求1所述的方法,其特征在于,所述选取肢体动作视频库中与所述待播报语音匹配的肢体动作数据作为目标肢体动作数据,包括:确定与所述待播报语音的语音内容相匹配的目标肢体动作;选取肢体动作视频库中,与所述目标肢体动作对应的肢体动作数据作为目标肢体动作数据。5.根据权利要求4所述的方法,其特征在于,所述肢体动作数据包括表情标签,所述表情标签表征渲染肢体动作视频时的虚拟表情;所述选取肢体动作视频库中,与所述目标肢体动作对应的肢体动作数据作为目标肢体动作数据,包括:选取所述肢体动作视频库中,与所述目标肢体动作对应,并且具有和所述待播报语音相同的表情标签的肢体动作数据作为目标肢体动作数据;其中,所述待播报语音的表情标签根据所述待播报语音的语音内容确定。6.一种虚拟人互动视频的渲染装置,其特征在于,包括:获取单元,...

【专利技术属性】
技术研发人员:张雪源顾文元
申请(专利权)人:元梦人文智能国际有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1