视频生成、直播处理方法、设备和可读介质技术

技术编号：31824294 阅读：10 留言：0更新日期：2022-01-12 12:47

本申请实施例提供了一种视频生成、直播处理方法、设备和可读介质，以更准确自然的生成虚拟形象执行动作的视频。所述的方法包括：获取待处理信息；对所述待处理信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；依据所述多模态特征确定意图动作和带情绪的自然动作；依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据；输出包含所述虚拟形象的视频数据。能够得到更符合真实肢体动作的驱动信号，驱动虚拟形象执行动作并生成视频数据，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。自然的生成虚拟形象执行动作的视频。自然的生成虚拟形象执行动作的视频。

全部详细技术资料下载

【技术实现步骤摘要】
视频生成、直播处理方法、设备和可读介质

[0001]本申请涉及计算机
，特别是涉及一种视频生成方法、一种直播处理方法、一种终端设备和一种机器可读介质。

技术介绍

[0002]动画通常是通过绘制每帧的图片，生成相应的动画视频。动画图片是基于动画的固定情节绘制的，相应的，动画中的对象如人物、动物等通常只是几个固定的动作，形成动态效果即可。
[0003]目前有一些3D人物的虚拟形象可以进行歌舞表演，然而，这些虚拟形象只能执行几个固定的动作，并且动作比较机械和僵硬，因此，本领域技术人员亟需解决的一个技术问题在于：如何更准确、自然的生成虚拟形象执行动作的视频。

技术实现思路

[0004]本申请实施例提供了一种视频生成方法，以更准确自然的生成虚拟形象执行动作的视频。
[0005]相应的，本申请实施例还提供了一种直播处理方法、一种电子设备和一种机器可读介质，用以保证上述方法的实现及应用。
[0006]为了解决上述问题，本申请实施例公开了一种视频生成方法，所述方法包括：获取待处理信息；对所述待处理信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；依据所述多模态特征确定意图动作和带情绪的自然动作；依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据；输出包含所述虚拟形象的视频数据。
[0007]可选的，所述待处理信息包括文本数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：对所述文本数据进行文本分析，确定词汇对应...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法，其特征在于，所述方法包括：获取待处理信息；对所述待处理信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；依据所述多模态特征确定意图动作和带情绪的自然动作；依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据；输出包含所述虚拟形象的视频数据。2.根据权利要求1所述的方法，其特征在于，所述待处理信息包括文本数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签；采用所述文本数据生成语音数据，从所述语音数据中提取语音特征。3.根据权利要求1所述的方法，其特征在于，所述待处理信息包括语音数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：对所述语音数据进行语音分析，提取对应的语音特征；对所述语音数据进行语音识别，得到对应的文本数据；对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。4.根据权利要求2或3所述的方法，其特征在于，所述依据所述多模态特征确定意图动作和带情绪的自然动作，包括：依据意图标签在动作数据库中匹配意图动作；将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作。5.根据权利要求2或3所述的方法，其特征在于，所述依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，包括：依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作；渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。6.根据权利要求1所述的方法，其特征在于，输出包含所述虚拟形象的视频数据，包括：在视频页面中输出包含所述虚拟形象的视频数据；和/或向服务端推送包含所述虚拟形象的视频数据，以便服务端向直播端推流来播放所述视频数据。7.根...

【专利技术属性】
技术研发人员：胡立，张邦，潘攀，徐盈辉，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人