一种虚拟视频处理的方法、装置及存储介质制造方法及图纸

技术编号:23898944 阅读:34 留言:0更新日期:2020-04-22 09:54
本申请实施例提供一种虚拟视频处理的方法、装置及存储介质,包括接收第一会话请求,根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征;对所述音频数据和脸部表情特征进行渲染,得到视频素材集合,所述视频素材集合包括多个脸部特征图片;根据所述多个脸部特征图片和背景图片,得到视频数据,所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧;向所述终端发送目标视频,所述目标视频根据所述视频数据与所述音频数据得到。本方案能够提高会话间播放的实时性和流畅性,促使虚拟视频播放更加逼真。

A method, device and storage medium of virtual video processing

【技术实现步骤摘要】
一种虚拟视频处理的方法、装置及存储介质
本申请实施例涉及视频处理
,尤其涉及一种虚拟视频处理的方法、装置及存储介质。
技术介绍
在视频播放领域,一般结合虚拟视频播放技术和人工智能技术来实现真人进行新闻虚拟播报、代替游戏主播进行游戏虚拟解说等功能。在对现有技术的研究和实践过程中,本申请实施例的专利技术人发现,在虚拟视频播放技术中,音频与图片的生成需要耗费大量的计算时间,合成音频与图片则会影响虚拟视频的实时推流,进而影响虚拟视频播放的实时性和流畅性。而现有的视频实时播放方法都是针对已有的、持续稳定的音频、图片数据输入(如本地视频推流),或者是能够持续快速获取到音频、图片数据(如摄像头获取数据)等应用场景。现在的这种视频实时播放方法并不能直接应用在虚拟视频播放中,向客户端实时的推流,以保证虚拟视频播放的实时性和流畅性。
技术实现思路
本申请实施例提供了一种虚拟视频处理的方法、装置及存储介质,能够提高提高会话间播放的实时性和流畅性,促使虚拟视频播放更加逼真。第一方面中,本申请实施例提供一种虚拟视频处理的方法,所述方法包括:接收第一会话请求,所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本;根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征;对所述音频数据和脸部表情特征进行渲染,得到视频素材集合,所述视频素材集合包括多个脸部特征图片;分别将每个脸部特征图片与背景图片合成,得到视频数据,所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧;向所述终端发送目标视频,所述目标视频根据所述视频数据与所述音频数据得到。一种可能的设计中,所述向所述终端发送目标视频,包括:若确定生成待发送给所述终端的视频数据未发生延迟,则将状态切换为忙碌状态;在获取到所述视频数据后,将所述音频数据和所述视频数据合成为目标视频;向所述终端发送所述目标视频。一种可能的设计中,所述向所述终端发送目标视频之前,所述方法还包括:若确定生成待发送给所述终端的视频数据发生延迟,则将状态切换为空闲状态;获取过度视频,所述过度视频用于发生延迟的延迟时长内所述终端在播放所述目标视频之前的时间内播放;向所述终端发送所述过度视频。一种可能的设计中,所述过度视频的播放时长大于或等于所述延迟时长;所述过度视频包括第一视频帧和第二视频帧,所述第一视频帧是指所述过度视频中播放时间最早的视频帧,所述第二视频帧是指所述过度视频中播放时间最晚的视频帧;所述第一视频帧与所述第二视频帧相似。一种可能的设计中,所述获取过度视频,向所述终端发送所述过度视频,包括:获取目标视频帧,所述目标视频帧是指与所述终端历史会话中向所述终端发送的最后一个视频帧;将所述目标视频帧和静音音频数据作为所述过度视频;在所述延迟时长内向所述终端重复发送所述过度视频,直至存在待发送给所述终端的视频数据。一种可能的设计中,所述获取过度视频,向所述终端发送所述过度视频,包括:获取历史文本,所述历史文本是指所述终端发送的历史会话请求中的文本,所述历史文本是指所述虚拟对象在虚拟视频播放时播放的语音对应的目标文本;对所述历史文本进行情感分析,根据情感分析的结果确定所述过度视频,所述过度视频的情感特征与所述情感分析的结果匹配。一种可能的设计中,所述对所述音频数据和脸部表情特征进行渲染,得到视频素材集合,分别将每个脸部特征图片与背景图片合成,得到视频数据,包括:获取预设的多个通用背景图片;从所述多个通用背景图片中确定目标背景图片,所述目标背景图片与脸部表情特征匹配;分别将各目标背景图片与匹配的面部表情特征进行合成,以得到多个合成图片,每个合成图片对应所述虚拟对象在一个时刻的肢体动作;将所述多个合成图片作为所述视频数据。一种可能的设计中,所述根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征,包括:获取所述目标文本对应的音频时长,所述音频时长是指所述目标文本转换为目标音频后所述目标音频的播放时长;所述从所述多个通用背景图片中确定目标背景图片,包括:从所述多个通用背景图片中,确定与脸部表情特征匹配的多个候选背景图片;根据所述音频时长和每个候选背景图片的播放时长,从所述多个候选背景图片中确定所述目标背景图片。一种可能的设计中,所述目标视频数据保存在区块链节点上。第二方面中,本申请实施例提供一种虚拟视频处理装置,具有实现对应于上述第一方面提供的虚拟视频处理的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。一种可能的设计中,所述虚拟视频处理装置包括:收发模块,用于接收第一会话请求,所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本;处理模块,用于根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征;对所述音频数据和脸部表情特征进行渲染,得到视频素材集合,所述视频素材集合包括多个脸部特征图片;分别将每个脸部特征图片与背景图片合成,得到视频数据,所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧;通过所述收发模块向所述终端发送目标视频,所述目标视频根据所述视频数据与所述音频数据得到。一种可能的设计中,所述处理模块具体用于:若生成待发送给所述终端的视频数据未发生延迟,则将状态切换为忙碌状态;在获取到所述视频数据后,将所述音频数据和所述视频数据合成为目标视频;通过所述收发模块向所述终端发送所述目标视频。一种可能的设计中,所述处理模块在所述收费模块向所述终端发送目标视频之前,还用于:若确定生成待发送给所述终端的视频数据发生延迟,则将状态切换为空闲状态;获取过度视频,所述过度视频用于发生延迟的延迟时长内所述终端在播放所述目标视频之前的时间内播放;通过所述收发模块向所述终端发送所述过度视频。一种可能的设计中,所述过度视频的播放时长大于或等于延迟时长;所述过度视频包括第一视频帧和第二视频帧,所述第一视频帧是指所述过度视频中播放时间最早的视频帧,所述第二视频帧是指所述过度视频中播放时间最晚的视频帧;所述第一视频帧与所述第二视频帧相似。一种可能的设计中,所述处理模块具体用于:获取目标视频帧,所述目标视频帧是指与所述终端历史会话中向所述终端发送的最后一个视频帧;将所述目标视频帧和静音音频数据作为所述过度视频;在所述延迟时长内提供所述收发模块向所述终端重复发送所述过度视频,直至存在待发送给所述终端的视频数据。一种可能的设计中,所述处理模块具体用于:获取历史文本,所述历史文本是指所述终端发送的历史会话请求中的文本,所述历史文本是指所述虚拟对象在虚拟视频播放本文档来自技高网...

【技术保护点】
1.一种虚拟视频处理的方法,其特征在于,所述方法包括:/n接收第一会话请求,所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本;/n根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征;/n对所述音频数据和脸部表情特征进行渲染,得到视频素材集合,所述视频素材集合包括多个脸部特征图片;/n根据所述多个脸部特征图片和背景图片,得到视频数据,所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧;/n向所述终端发送目标视频,所述目标视频根据所述视频数据与所述音频数据得到。/n

【技术特征摘要】
1.一种虚拟视频处理的方法,其特征在于,所述方法包括:
接收第一会话请求,所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本;
根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征;
对所述音频数据和脸部表情特征进行渲染,得到视频素材集合,所述视频素材集合包括多个脸部特征图片;
根据所述多个脸部特征图片和背景图片,得到视频数据,所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧;
向所述终端发送目标视频,所述目标视频根据所述视频数据与所述音频数据得到。


2.根据权利要求1所述的方法,其特征在于,所述向所述终端发送目标视频,包括:
若生成待发送给所述终端的视频数据未发生延迟,则将状态切换为忙碌状态;
在获取到所述视频数据后,将所述音频数据和所述视频数据合成为目标视频;
向所述终端发送所述目标视频。


3.根据权利要求1所述的方法,其特征在于,所述向所述终端发送目标视频之前,所述方法还包括:
若确定生成待发送给所述终端的视频数据发生延迟,则将状态切换为空闲状态;
获取过度视频,所述过度视频用于发生延迟的延迟时长内所述终端在播放所述目标视频之前的时间内播放;
向所述终端发送所述过度视频。


4.根据权利要求3所述的方法,其特征在于,所述过度视频的播放时长大于或等于所述延迟时长;
所述过度视频包括第一视频帧和第二视频帧,所述第一视频帧是指所述过度视频中播放时间最早的视频帧,所述第二视频帧是指所述过度视频中播放时间最晚的视频帧;所述第一视频帧与所述第二视频帧相似。


5.根据权利要求3或4所述的方法,其特征在于,所述获取过度视频,向所述终端发送所述过度视频,包括:
获取目标视频帧,所述目标视频帧是指与所述终端历史会话中向所述终端发送的最后一个视频帧;
将所述目标视频帧和静音音频数据作为所述过度视频;
在所述延迟时长内向所述终端重复发送所述过度视频,直至存在待发送给所述终端的视频数据。


6.根据权利要求3或4所述的方法,其特征在于,所述获取过度视频,向所述终端发送所述过度视频,包括:
获取历史文本,所述历史文本是指所述终端发送的历史会话请求中的文本,所述历史文本是指所述虚拟对象在虚拟视频播放时播放的语音对应的目标文本;
对所述历史文本进行情感分析,根据情感分析...

【专利技术属性】
技术研发人员:朱绍明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1