【技术实现步骤摘要】
基于模板化编辑的AI数字人对PPT的交互控制方法及装置
[0001]本专利技术涉及人工智能
,尤其涉及一种基于模板化编辑的AI数字人对PPT的交互控制方法及装置。
技术介绍
[0002]现有的AI虚拟主播、虚拟形象产品,操作流程为主播视频采集
‑
>数据处理
‑
>模型训练
‑
>形象输出;制作输出阶段基于训练好的主播形象,根据输入的文稿、语音,加上可选的主播情绪,背景图片、视频,站姿、坐姿等进行视频生成输出,然而当前的AI数字人视频生成系统中,数据是单向流动的,只能输入图片和视频做为背景与AI数字人进行合成,无法在合成过程中对3D图片、视频、3D模板等背景素材进行同步控制,尤其是PPT内容的同步标示,导致所生成的AI数字人视频交互功能欠缺,影响了所生成的AI数字人视频的应用功能。因此,现有的技术方法存在无法在合成AI数字人视频过程中对PPT背景素材进行同步控制的问题。
技术实现思路
[0003]本专利技术实施例提 ...
【技术保护点】
【技术特征摘要】
1.一种基于模板化编辑的AI数字人对PPT的交互控制方法,其特征在于,所述方法包括:导入媒体素材元素并按照特定的逻辑关系及状态变化需求生成与所述媒体素材元素对应的属性连接、属性仿真及组合动画;根据所输入的设置参数设置PPT页面的显示区域和显示方式,以及AI数字人与所述属性连接、属性仿真及组合动画的结合方式,从而生成对应的播放模板;在所述播放模板中导入PPT文件,提取与所述PPT文件中每一PPT页面对应的页面信息,所述页面信息包含每一PPT页面对应的页面图片及讲稿文字内容;建立所述讲稿文字内容与PPT页面的2D映射关系;发送讲稿文字内容到AI数字人推理模型,以生成与渲染合成帧对应的AI数字人视频帧、AI数字人语音帧和字幕帧;根据所设置的AI数字人与所述属性连接、属性仿真及组合动画的结合方式,在所述播放模板的AI数字人显示区域显示AI数字人视频帧;根据所设置的PPT页面的显示区域和显示方式,在所述播放模板的PPT显示区域按所述显示方式对所述页面图片进行显示;根据所述讲稿文字内容与PPT页面的2D映射关系获取字幕帧对应文字内容在PPT页面的区域坐标生成当前AI数字人语音帧对应文字内容的提示图示;根据所述讲稿文字内容与PPT页面的2D映射关系获取字幕帧对应文字内容在PPT页面的区域坐标渲染绘制圆形亮点进行激光笔标识以渲染生成图像帧;渲染合成的图像帧与当前AI数字人语音帧同步输出到视频板卡、录制到文件或生成网络推流输出。2.根据权利要求1所述的基于模板化编辑的AI数字人对PPT的交互控制方法,其特征在于,所述提取与所述PPT文件中每一页面对应的页面信息,包括:生成与所述PPT文件中每一页面对应的页面图片;提取所述PPT文件中每一页面的讲稿文字内容。3.根据权利要求1所述的基于模板化编辑的AI数字人对PPT的交互控制方法,其特征在于,所述发送讲稿文字内容到AI数字人推理模型,以生成与渲染合成帧对应的AI数字人视频帧、AI数字人语音帧和字幕帧之前,还包括:根据预置的AI模型生成与蓝箱中采集的目标对象的音视频数据对应的AI数字人推理模型,所述AI数字人推理模型包括每一所述目标对象对应的多个组合形象以及与每一所述组合形象对应的蓝背景预览视频;所述AI数字人推理模型中包含2D AI数字人和/或3D AI数字人。4.根据权利要求1所述的基于模板化编辑的AI数字人对PPT的交互控制方法,其特征在于,所述发送讲稿文字内容到AI数字人推理模型,以生成与渲染合成帧对应的AI数字人视频帧、AI数字人语音帧和字幕帧,包括:根据讲稿文字内容中的文本信息,从AI数字人推理模型中推理出符合文本信息的蓝背景AI数字人视频;根据讲稿文字内容中的文本信息及AI数字人推理模型中的音频特征进行语音合成得到AI数字人语音;
根据讲稿文字内容进行段落拆分得到字幕;根据AI数字人视频、AI数字人语音和字幕的时间戳获取与渲染合成帧对应的AI数字人视频帧、AI数字人语音帧和字幕帧。5.根据权利要求4所述的基于模板化编辑的AI数字人对PPT的交互控制方法,其特征在于,所述根据讲稿文字内容中的文本信息,从AI数字人推理模型中推理出符合文本信息的蓝背景AI数字人视频,包括:根据讲稿文字内容中的文本信息,从AI数字人推理模型中推理出符合文本信息中字符的口型、情绪及肢体动作的视频进行组合,以生成蓝背景AI数字人视频;或者是:根据讲稿文字内容中的文本信息,从AI数字人推理模型中推理出符合文本信息中字符的口型及情绪的面部表情数据、并从AI数字人推理模型中推理出符合文本信息中肢体动作的骨骼模型数据;根据所述面部表情数据还原得到AI数字人的面部视频、根据所述骨骼模型数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。