【技术实现步骤摘要】
虚拟视频直播处理方法及装置、存储介质、电子设备
[0001]本公开涉及视频处理
,具体而言,涉及一种虚拟视频直播处理方法、虚拟视频直播处理装置、电子设备以及计算机可读存储介质。
技术介绍
[0002]随着通信技术的发展,网络通信带宽得到很大的提高,视频直播技术也日趋成熟,在各个方面得到应用。同时随着人工智能技术的发展,从文本到语音(Text To Speech,TTS)技术与图像合成技术也成为了人们的研究热点。视频直播技术与人工智能技术的结合可以在许多地方发挥作用,比如代替真人进行新闻虚拟播报、代替游戏主播进行游戏虚拟解说等,具有广阔的应用前景。
[0003]在虚拟视频直播技术中,音频与图片的生成需要耗费大量的计算时间,为保证虚拟视频直播的实时性,虚拟视频实时推流的实现成为影响最终直播视频质量的重要因素。现有的视频实时直播方法大都是针对已有稳定的音频、图片数据输入(如本地视频推流),或者是能够快速获取到音频、图片数据(如摄像头获取数据)等应用场景。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息 ...
【技术保护点】
【技术特征摘要】
1.一种虚拟视频直播处理方法,其特征在于,包括:获取文本数据和虚拟对象的动作数据;所述动作数据包括指定动作的动作标识以及所述指定动作在所述文本数据中的开始位置标识;根据所述文本数据生成所述虚拟对象的音频数据和表情数据,并根据所述表情数据生成所述虚拟对象的脸部图像;根据所述开始位置标识和所述动作标识生成包含所述指定动作的背景图像序列;所述背景图像序列包括背景图像;对所述脸部图像与所述背景图像进行图像融合处理,得到直播视频帧;将所述直播视频帧与所述音频数据实时合成直播视频流。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本数据生成所述虚拟对象的音频数据和表情数据,包括:根据所述文本数据确定对应的待转化文本;对所述文本数据进行文本转语音处理,生成所述音频数据;根据所述音频数据生成所述虚拟对象的表情数据。3.根据权利要求2所述的方法,其特征在于,所述对所述文本数据进行文本转语音处理,生成所述音频数据,包括:将所述待转化文本转化为对应的目标词向量,对所述目标词向量进行编码处理和解码处理,以生成所述目标词向量的音频特征;对所述音频特征进行合成处理,以生成所述音频数据。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:确定所述表情数据中包含的表情帧数,将所述表情帧数确定为第一数量;确定图像播放帧率,并根据所述第一数量和所述图像播放帧率确定所述表情数据的播放时长;所述播放时长与所述音频数据的音频时长相同。5.根据权利要求1所述的方法,其特征在于,所述根据所述开始位置标识和所述动作标识生成包含所述指定动作的背景图像序列,包括:获取默认背景图像;根据所述动作标识获取所述指定动作对应的动作背景图像;根据所述开始位置标识确定所述默认背景图像与所述动作背景图像的图像排列顺序;根据所述图像排列顺序对多个背景图像进行排序,生成所述背景图像序列。6.根据权利要求5所述的方法,其特征在于,所述根据所述动作标识获取所述指定动作对应的动作背景图像,包括:确定所述动作数据中包含的动作序列;所述动作序列包括一个或多个指定动作;根据所述动作标识从预设动作库中获取每个所述指定动作对应的动作背景图像。7.根据权利要求5所述的方法,其特征在于,所述根据所述开始位置标识确定所述默认背景图像与所述动作背景图像的图像排列顺序,包括:确定所述文本数据的文本长度;获取第一数量,并根据所述文本长度、所述开始位置标识与所述第一数量确定所述指定动作在所述背景图像中的开始帧标识;将所述动作背景图像的数量确定为动作图像数量,根据所述开始帧标识和所述动作图
像数量确定结束帧标识;对比所述结束帧标识与所述第一数量的大小,以根据对比结果确定所述图像排列顺序。8.根据权利要求7所述的方法,其特征在于,所述对比结果包括所述结束帧标识小于等于所述第一数量,所述根据对比结果确定所述图像排列顺序,包括:将所述开始帧标识之前的背景图像确定为所述默认背景图像;将所述...
【专利技术属性】
技术研发人员:朱绍明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。