一种数字人物视频的生成方法及相关装置制造方法及图纸

技术编号：31716762 阅读：24 留言：0更新日期：2022-01-01 11:23

本申请实施例公开了一种数字人物视频生成方法，包括：获得由预设文本数据得到的第一语音音频；采集用户关于预设文本数据的阅读语音作为第二语音音频，并采集用户关于所述预设文本数据的肢体动作视频；计算第一语音音频和第二语音音频之间的时间差作为时间调整参数；从肢体动作视频中得到数字肢体动作参数；调整肢体动作关键点的时间信息，得到目标肢体动作参数；生成数字人物模型的多帧图像帧并合成，得到数字人物模型的视频数据。得到数字人物模型的视频数据。得到数字人物模型的视频数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种数字人物视频的生成方法及相关装置

[0001]本申请实施例涉及人工智能领域，尤其涉及一种数字人物视频的生成方法及相关装置。

技术介绍

[0002]数字人，是信息科学与生命科学融合的产物，是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真，通过建立多学科和多层次的数字模型以达到对人体从微观到宏观的精确模拟。数字人视频目前已被应用于各种场合，其能够为人们带来比较好的体验。
[0003]目前数字人视频的制作方法是，输入已准备好的文本，接着由文本生成声音，接着将声音进行转换得到嘴型关键点，再在时间轴上指定动作，动作从动作库中选择，查出动作关键点，根据动作关键点和嘴型关键点生成图像帧，将多个图像帧进行合成，并结合已生成的声音内容得到数字人视频。
[0004]然而，现有技术中，用户在动作库中选择动作时会遇到因动作名称较抽象或很难通过名称区分动作的区别而找不准动作，从而得不到准确的关键点的问题。大大降低了数字人视频生成的效率。

技术实现思路

[0005]本申请实施例提供了一种数字人物视频的生成

【技术保护点】

【技术特征摘要】
1.一种数字人物视频的生成方法，其特征在于，包括：获得由预设文本数据转换得到的第一语音音频；采集用户关于所述预设文本数据的阅读语音作为第二语音音频，以及采集所述用户关于所述预设文本数据的肢体动作视频；计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数，所述时间调整参数包括所述预设文本数据中每一文本单元在所述第一语音音频的时间点与所述第二语音音频的时间点的差值；从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数，所述数字肢体动作参数包括肢体动作关键点和与所述肢体动作关键点对应的时间信息；根据所述时间调整参数调整所述肢体动作关键点的时间信息，得到目标肢体动作参数；根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧；合成所述数字人物模型的多帧图像帧，得到所述数字人物模型的视频数据。2.根据权利要求1所述的数字人物视频的生成方法，其特征在于，根据所述目标肢体动作参数生成数字人物模型的多帧图像帧之前，所述方法还包括：根据所述第一语音音频得到所述数字人物模型的嘴型动作参数，所述嘴型动作参数包括嘴型关键点和与所述嘴型关键点对应的时间信息；根据所述时间调整参数调整所述嘴型关键点的时间信息，得到目标嘴型动作参数；根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧，包括：根据所述目标嘴型动作参数和所述目标肢体动作参数，生成所述数字人物模型的多帧图像帧。3.根据权利要求2所述的数字人物视频的生成方法，其特征在于，根据所述第一语音音频得到所述数字人物模型的嘴型动作参数包括：基于所述第一语音音频与所述嘴型动作参数的预设关系，根据所述第一语音音频得到所述嘴型动作参数。4.根据权利要求1所述的数字人物视频的生成方法，其特征在于，从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数包括：从所述肢体动作视频中获取所述用户的用户肢体动作参数；根据所述用户肢体动作参数进行算法识别得到所述数字肢体动作...

【专利技术属性】
技术研发人员：杨国基，刘致远，穆少垒，刘炫鹏，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人