虚拟人物的驱动方法、装置、设备及存储介质制造方法及图纸

技术编号:28116498 阅读:40 留言:0更新日期:2021-04-19 11:14
本申请公开了虚拟人物的驱动方法、装置、设备及存储介质,涉及计算机视觉技术领域。具体实现方案为:获取待处理素材,待处理素材为如下内容中的任意一种:视频、语音、文本,对待处理素材进行处理,得到待处理素材中目标虚拟人物的驱动数据,该驱动数据包括:情感数据以及该情感数据对应的面部表情向量和身体姿态向量,在播放待处理素材对应目标视频时,基于上述驱动数据驱动目标虚拟人物执行相应的动作。该技术方案,基于包括情感数据、该情感数据对应的面部表情向量和身体姿态向量的驱动数据对目标虚拟人物进行驱动,不仅实现了虚拟人物的精细控制,而且无需昂贵的头戴式设备,降低了成本,扩展了使用范围。扩展了使用范围。扩展了使用范围。

【技术实现步骤摘要】
虚拟人物的驱动方法、装置、设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种计算机视觉技术中的虚拟人物的驱动方法、装置、设备及存储介质。

技术介绍

[0002]人物驱动技术在很多领域都有非常广阔的应用前景,市场空间巨大,例如,在电影、动画、游戏等视频领域中,需要使用人物驱动技术让影视作品中的虚拟人物做出对应的动作和发出相应的声音,以提高影视作品的视觉和听觉效果。
[0003]现有技术中,主要通过在影视作品中增加特效的方式实现虚拟人物的驱动。具体的,通过在专用的头戴式设备内部设置多个摄像头,在利用该头戴式设备跟踪真实人物的运动时,通过摄像头捕捉三维空间中人物脸上和身上各种标记的变化,再对获取到的数据进行专业的处理,最后生成对虚拟人物的驱动视频。
[0004]然而,由于专用的头戴式设备通常比较昂贵,成本高,每个虚拟人物的驱动需要经过人工精细的处理,使用范围受限,用户体验差。

技术实现思路

[0005]本申请实施例提供一种虚拟人物的驱动方法、装置、设备及存储介质,用于解决现有人物驱动方法中存在的成本高、使用范围受限、用户体验差的问题。
[0006]第一方面,本申请提供一种虚拟人物的驱动方法,包括:
[0007]获取待处理素材,所述待处理素材为如下内容中的任意一种:视频、语音、文本;
[0008]对所述待处理素材进行处理,得到所述待处理素材中目标虚拟人物的驱动数据,所述驱动数据包括:情感数据以及所述情感数据对应的面部表情向量和身体姿态向量;
[0009]在播放所述待处理素材对应目标视频时,基于所述驱动数据驱动所述目标虚拟人物执行相应的动作。
[0010]在本实施例中,基于包括情感数据、该情感数据对应的面部表情向量和身体姿态向量的驱动数据对目标虚拟人物进行驱动,不仅实现了虚拟人物的精细控制,而且无需昂贵的头戴式设备,降低了成本,扩展了使用范围。
[0011]在第一方面的一种可能设计中,所述在播放所述待处理素材对应目标视频时,基于所述驱动数据驱动所述目标虚拟人物执行相应的动作,包括:
[0012]在播放所述待处理素材对应目标视频时,将所述驱动数据中的面部表情向量映射到所述目标虚拟人物的人脸关键点上,驱动所述目标虚拟人物做出所述面部表情向量对应的表情;
[0013]将所述驱动数据中的身体姿态向量映射到所述目标虚拟人物的身体关键点上,驱动所述目标虚拟人物做出所述身体姿态向量对应的姿态;
[0014]控制所述目标虚拟人物以所述情感数据发出语音。
[0015]在本实施例中,外界可以仅上传一段视频,甚至是一段语音或者文本,就快速完成
对待处理素材对应的目标视频的目标虚拟人物进行驱动,且驱动是基于人物整体的,包括语音、面部表情、身体动作姿态等方面,提高了影视作品中人物的逼真程度。
[0016]在第一方面的另一种可能设计中,所述待处理素材为待处理视频时,所述对所述待处理素材进行处理,得到所述待处理素材中目标虚拟人物的驱动数据,包括:
[0017]对所述待处理视频中的包含目标虚拟人物的每帧图片进行处理,确定每帧图片中的人脸区域和身体区域;
[0018]对每帧图片中人脸区域的面部表情进行量化,得到所述目标虚拟人物的面部表情向量;
[0019]对每帧图片中身体区域的身体姿态进行量化,得到所述目标虚拟人物的身体姿态向量;
[0020]对所述待处理视频中所述目标虚拟人物的语音进行识别,确定所述目标虚拟人物的情感数据;
[0021]对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合,得到所述目标虚拟人物的驱动数据。
[0022]在本实施例中,当待处理素材为待处理视频时,通过对待处理视频进行处理分别得到目标虚拟人物的面部表情向量、身体姿态向量和情感数据,并且对其进行整合得到驱动数据,从而提高了对目标虚拟人物的驱动精度,提高目标虚拟人物的逼真度。
[0023]可选的,所述对所述每帧图片中人脸区域的面部表情进行量化,得到所述目标虚拟人物的面部表情向量,包括:
[0024]对所述待处理视频中的人脸区域进行检测,确定所述目标虚拟人物的多个人脸关键点;
[0025]根据所有人脸关键点的位置信息、以及相邻人脸关键点之间的相互关系,对所述目标虚拟人物的面部表情进行量化,得到所述目标虚拟人物的面部表情向量。
[0026]在本实施例中,通过确定出目标虚拟人物的人脸关键点,再基于人脸关键点对目标虚拟人物的面部表情进行量化,从而得到了真实反映目标虚拟人物的面部表情向量,准确度高。
[0027]在第一方面的再一种可能设计中,所述待处理素材为待处理语音时,所述对所述待处理素材进行处理,得到所述待处理素材中目标虚拟人物的驱动数据,包括:
[0028]从所述待处理语音中抽取所述目标虚拟人物的语音,得到目标语音;
[0029]利用语音识别方法,将所述目标语音转换为目标文本;
[0030]基于神经语言程序学方法对所述目标文本进行分析,确定所述目标虚拟人物的情感数据;
[0031]根据所述情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系,确定所述目标虚拟人物的面部表情向量和身体姿态向量;
[0032]对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合,得到所述目标虚拟人物的驱动数据。
[0033]在本实施例中,在待处理素材为待处理语音时,也能够实现将目标虚拟人物的面部表情向量、身体姿态向量和情感数据整合在一起,其实现方案简单,为后续准确的控制虚拟人物提供了实现可能,提高目标虚拟人物的逼真度。
[0034]在第一方面的又一种可能设计中,所述待处理素材为待处理文本时,所述对所述待处理素材进行处理,得到所述待处理素材中目标虚拟人物的驱动数据,包括:
[0035]基于神经语言程序学方法对所述待处理文本进行分析,确定所述目标虚拟人物的情感数据;
[0036]根据所述情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系,确定所述目标虚拟人物的面部表情向量、身体姿态向量;
[0037]对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合,得到所述目标虚拟人物的驱动数据。
[0038]在本实施例中,针对一段文本也可实现目标虚拟人物的驱动,提高目标虚拟人物的逼真度。
[0039]可选的,所述方法还包括:
[0040]获取历史视频数据集合,所述历史视频数据集合包括多段视频数据,每段视频数据均包括至少一个虚拟人物;
[0041]对所述多段视频数据中每个虚拟人物的面部表情向量、身体姿态向量和情感数据进行分析,建立并存储面部表情向量、身体姿态向量与情感数据的关联关系。
[0042]在本实施例中,通过对历史视频数据集合进行处理,可以预先并存储面部表情向量、身体姿态向量与情感数据的关联关系,这样在后续仅获取到形式为待处理语音或待处理文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟人物的驱动方法,其特征在于,包括:获取待处理素材,所述待处理素材为如下内容中的任意一种:视频、语音、文本;对所述待处理素材进行处理,得到所述待处理素材中目标虚拟人物的驱动数据,所述驱动数据包括:情感数据以及所述情感数据对应的面部表情向量和身体姿态向量;在播放所述待处理素材对应目标视频时,基于所述驱动数据驱动所述目标虚拟人物执行相应的动作。2.根据权利要求1所述的方法,其特征在于,所述在播放所述待处理素材对应目标视频时,基于所述驱动数据驱动所述目标虚拟人物执行相应的动作,包括:在播放所述待处理素材对应目标视频时,将所述驱动数据中的面部表情向量映射到所述目标虚拟人物的人脸关键点上,驱动所述目标虚拟人物做出所述面部表情向量对应的表情;将所述驱动数据中的身体姿态向量映射到所述目标虚拟人物的身体关键点上,驱动所述目标虚拟人物做出所述身体姿态向量对应的姿态;控制所述目标虚拟人物以所述情感数据发出语音。3.根据权利要求1或2所述的方法,其特征在于,所述待处理素材为待处理视频时,所述对所述待处理素材进行处理,得到所述待处理素材中目标虚拟人物的驱动数据,包括:对所述待处理视频中的包含目标虚拟人物的每帧图片进行处理,确定每帧图片中的人脸区域和身体区域;对每帧图片中人脸区域的面部表情进行量化,得到所述目标虚拟人物的面部表情向量;对每帧图片中身体区域的身体姿态进行量化,得到所述目标虚拟人物的身体姿态向量;对所述待处理视频中所述目标虚拟人物的语音进行识别,确定所述目标虚拟人物的情感数据;对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合,得到所述目标虚拟人物的驱动数据。4.根据权利要求3所述的方法,其特征在于,所述对所述每帧图片中人脸区域的面部表情进行量化,得到所述目标虚拟人物的面部表情向量,包括:对所述待处理视频中的人脸区域进行检测,确定所述目标虚拟人物的多个人脸关键点;根据所有人脸关键点的位置信息、以及相邻人脸关键点之间的相互关系,对所述目标虚拟人物的面部表情进行量化,得到所述目标虚拟人物的面部表情向量。5.根据权利要求1所述的方法,其特征在于,所述待处理素材为待处理语音时,所述对所述待处理素材进行处理,得到所述待处理素材中目标虚拟人物的驱动数据,包括:从所述待处理语音中抽取所述目标虚拟人物的语音,得到目标语音;利用语音识别方法,将所述目标语音转换为目标文本;基于神经语言程序学方法对所述目标文本...

【专利技术属性】
技术研发人员:林成龙
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1