视频生成、直播处理方法、设备和可读介质技术

技术编号:31824294 阅读:10 留言:0更新日期:2022-01-12 12:47
本申请实施例提供了一种视频生成、直播处理方法、设备和可读介质,以更准确自然的生成虚拟形象执行动作的视频。所述的方法包括:获取待处理信息;对所述待处理信息进行多模态分析,确定对应的多模态特征,所述多模态特征包括:标签数据和语音特征;依据所述多模态特征确定意图动作和带情绪的自然动作;依据所述意图动作和带情绪的自然动作,驱动虚拟形象执行动作并生成视频数据;输出包含所述虚拟形象的视频数据。能够得到更符合真实肢体动作的驱动信号,驱动虚拟形象执行动作并生成视频数据,使得视频数据中虚拟用户的动作自然、流畅,能够准确、自然的生成虚拟形象执行动作的视频。自然的生成虚拟形象执行动作的视频。自然的生成虚拟形象执行动作的视频。

【技术实现步骤摘要】
视频生成、直播处理方法、设备和可读介质


[0001]本申请涉及计算机
,特别是涉及一种视频生成方法、一种直播处理方法、一种终端设备和一种机器可读介质。

技术介绍

[0002]动画通常是通过绘制每帧的图片,生成相应的动画视频。动画图片是基于动画的固定情节绘制的,相应的,动画中的对象如人物、动物等通常只是几个固定的动作,形成动态效果即可。
[0003]目前有一些3D人物的虚拟形象可以进行歌舞表演,然而,这些虚拟形象只能执行几个固定的动作,并且动作比较机械和僵硬,因此,本领域技术人员亟需解决的一个技术问题在于:如何更准确、自然的生成虚拟形象执行动作的视频。

技术实现思路

[0004]本申请实施例提供了一种视频生成方法,以更准确自然的生成虚拟形象执行动作的视频。
[0005]相应的,本申请实施例还提供了一种直播处理方法、一种电子设备和一种机器可读介质,用以保证上述方法的实现及应用。
[0006]为了解决上述问题,本申请实施例公开了一种视频生成方法,所述方法包括:获取待处理信息;对所述待处理信息进行多模态分析,确定对应的多模态特征,所述多模态特征包括:标签数据和语音特征;依据所述多模态特征确定意图动作和带情绪的自然动作;依据所述意图动作和带情绪的自然动作,驱动虚拟形象执行动作并生成视频数据;输出包含所述虚拟形象的视频数据。
[0007]可选的,所述待处理信息包括文本数据;所述对所述待处理信息进行多模态分析,确定对应的多模态特征,包括:对所述文本数据进行文本分析,确定词汇对应的标签数据,所述标签数据包括意图标签和情绪标签;采用所述文本数据生成语音数据,从所述语音数据中提取语音特征。
[0008]可选的,所述待处理信息包括语音数据;所述对所述待处理信息进行多模态分析,确定对应的多模态特征,包括:对所述语音数据进行语音分析,提取对应的语音特征;对所述语音数据进行语音识别,得到对应的文本数据;对所述文本数据进行文本分析,确定词汇对应的标签数据,所述标签数据包括意图标签和情绪标签。
[0009]可选的,所述依据所述多模态特征确定意图动作和带情绪的自然动作,包括:依据意图标签在动作数据库中匹配意图动作;将所述情绪标签和语音特征输入动作生成模型,得到带情绪的自然动作。
[0010]可选的,所述依据所述意图动作和带情绪的自然动作,驱动虚拟形象执行动作并生成视频数据,包括:依据时间信息融合所述意图动作和带情绪的自然动作,并驱动虚拟形象执行融合动作;渲染虚拟形象执行融合动作的各帧图像,依据各帧图像和语音数据生成
包含虚拟形象的视频数据。
[0011]可选的,所述输出包含所述虚拟形象的视频数据,包括:在视频页面中输出包含所述虚拟形象的视频数据;和/或,向服务端推送包含所述虚拟形象的视频数据,以便服务端向直播端推流来播放所述视频数据。
[0012]可选的,还包括:在视频页面中显示所述标签数据;响应于对编辑控件的触发,获取调整的标签数据;反馈所述调整的标签数据,以便调整虚拟形象的动作。
[0013]本申请实施例还公开了一种直播处理方法,所述方法包括:提供直播页面;基于所述直播页面获取待直播信息;确定包含虚拟形象执行动作的直播视频数据,所述直播视频数据依据待直播信息确定语音数据并驱动虚拟形象执行动作生成,所述虚拟形象执行的动作包括所述意图动作和带情绪的自然动作,所述意图动作和带情绪的自然动作依据多模态特征确定,所述多模态特征依据所述待直播信息分析得到;在所述直播页面中播放所述直播视频数据;发送所述直播视频数据到服务端,以便服务端向直播端推流来播放所述直播视频数据。
[0014]可选的,所述基于所述直播页面获取待直播信息,包括以下至少一种:响应于对直播页面中编辑控件的触发,获取对应的待直播信息;响应于直播页面接收的观看直播的用户发送的目标信息,确定所述目标信息对应的待直播信息。
[0015]可选的,还包括:依据所述直播视频数据确定直播进度信息,依据所述直播进度信息确定目标商品对象的商品对象信息;当直播到所述目标商品对象时,在所述直播页面中显示所述商品对象信息。
[0016]可选的,还包括:当检测到所述直播视频数据中虚拟形象执行目标动作时,在所述直播页面中显示所述目标动作对应的显示元素,以与观看直播的用户进行互动。
[0017]本申请实施例公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中任一项所述的方法。
[0018]本申请实施例公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中任一项所述的方法。
[0019]与现有技术相比,本申请实施例包括以下优点:
[0020]在本申请实施例中,可对待处理信息进行多模态分析,获取多模态特征,包括标签数据和语音特征,基于该多模态特征确定意图动作和带情绪的自然动作,得到更符合真实肢体动作的驱动信号,进而依据所述意图动作和带情绪的自然动作,驱动虚拟形象执行动作并生成视频数据,使得视频数据中虚拟用户的动作自然、流畅,能够准确、自然的生成虚拟形象执行动作的视频。
附图说明
[0021]图1A是本申请实施例的一种视频生成场景的示意图;
[0022]图1B是本申请的一种视频生成方法实施例的步骤流程图;
[0023]图2是本申请实施例的一种动作生成模型的处理方法示意图;
[0024]图3是本申请的另一种视频生成方法实施例的步骤流程图;
[0025]图4是本申请的一种直播场景的直播处理方法实施例的步骤流程图;
[0026]图5是本申请实施例的一种虚拟主播的直播页面的示意图;
[0027]图6是本申请实施例的一种直播架构下的直播处理示例的交互示意图;
[0028]图7是本申请的一种客服处理方法实施例的步骤流程图;
[0029]图8是本申请的一种主持处理方法实施例的步骤流程图;
[0030]图9是本申请一实施例提供的装置的结构示意图。
具体实施方式
[0031]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
[0032]本申请实施例可应用于虚拟形象生成视频的场景中,例如虚拟形象作为主播、客服、主持人等场景中,在虚拟形象执行动作的视频中,可基于需求驱动虚拟形象执行相应动作,如商品介绍动作、客服动作、主持动作等。该虚拟形象可模拟真人来执行动作,可基于多模态的特征,如文本、语音、情绪、意图等特征,驱动虚拟形象的肢体动作,使得虚拟形象可执行多样化的动作。其中,以直播等场景为例,可实时基于交互消息、回复消息等驱动虚拟形象执行相应的动作并生成视频数据,来实现交互。
[0033]以应用于直播场景为例,虚拟形象可作为虚拟主播与观看直播的用户进行交互。例如在电商直播的场景下,虚拟主播可介绍上海对象,针对直播过程中用户的提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:获取待处理信息;对所述待处理信息进行多模态分析,确定对应的多模态特征,所述多模态特征包括:标签数据和语音特征;依据所述多模态特征确定意图动作和带情绪的自然动作;依据所述意图动作和带情绪的自然动作,驱动虚拟形象执行动作并生成视频数据;输出包含所述虚拟形象的视频数据。2.根据权利要求1所述的方法,其特征在于,所述待处理信息包括文本数据;所述对所述待处理信息进行多模态分析,确定对应的多模态特征,包括:对所述文本数据进行文本分析,确定词汇对应的标签数据,所述标签数据包括意图标签和情绪标签;采用所述文本数据生成语音数据,从所述语音数据中提取语音特征。3.根据权利要求1所述的方法,其特征在于,所述待处理信息包括语音数据;所述对所述待处理信息进行多模态分析,确定对应的多模态特征,包括:对所述语音数据进行语音分析,提取对应的语音特征;对所述语音数据进行语音识别,得到对应的文本数据;对所述文本数据进行文本分析,确定词汇对应的标签数据,所述标签数据包括意图标签和情绪标签。4.根据权利要求2或3所述的方法,其特征在于,所述依据所述多模态特征确定意图动作和带情绪的自然动作,包括:依据意图标签在动作数据库中匹配意图动作;将所述情绪标签和语音特征输入动作生成模型,得到带情绪的自然动作。5.根据权利要求2或3所述的方法,其特征在于,所述依据所述意图动作和带情绪的自然动作,驱动虚拟形象执行动作并生成视频数据,包括:依据时间信息融合所述意图动作和带情绪的自然动作,并驱动虚拟形象执行融合动作;渲染虚拟形象执行融合动作的各帧图像,依据各帧图像和语音数据生成包含虚拟形象的视频数据。6.根据权利要求1所述的方法,其特征在于,输出包含所述虚拟形象的视频数据,包括:在视频页面中输出包含所述虚拟形象的视频数据;和/或向服务端推送包含所述虚拟形象的视频数据,以便服务端向直播端推流来播放所述视频数据。7.根...

【专利技术属性】
技术研发人员:胡立张邦潘攀徐盈辉
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1