基于文本信息借助三维渲染生成视频的方法及系统技术方案

技术编号:43076564 阅读:28 留言:0更新日期:2024-10-22 14:51
本申请涉及图像处理技术领域,具体涉及基于文本信息借助三维渲染生成视频的方法及系统,该方法包括:通过大语言模型剧本生成器将用户文本转化为格式剧本,根据格式剧本结合大模型驱动的3D模型生成运动3D场景,获得格式剧本描述的3D场景中各3D模型和摄像机视角数据,得到未渲染视频;获取各3D模型对应的格式剧本中的名词,确定各3D模型对应的名词;确定每帧图像中各3D模型的所有映射数据对;确定每帧图像中各3D模型的渲染权重和最短边长,对所有3D模型进行重构,通过渲染引擎的方式对未渲染视频进行渲染,最终获得文生视频。本申请可对不同3D模型的差别化渲染,加快视频渲染速度,解决渲染时间过长的问题。

【技术实现步骤摘要】

本申请涉及图像处理,具体涉及基于文本信息借助三维渲染生成视频的方法及系统


技术介绍

1、随着人工智能技术的快速发展,文本到视频生成已经成为一个热门研究领域。通过利用ai大模型,可以实现从自然语言文本自动生成与之对应的视频内容。传统文生视频技术原理,即大规模深度神经网络组成的大模型来实现自然语言文本向目标结果的转换,期间采取噪音数据扩散出模仿训练样本体系文与视频关联关系的成果。

2、现有技术中,基于transformer架构的扩散模型所合成画面帧视频会存在生成内容分辨率低、一致性差,生成内容不可控等缺陷问题,例如,基于transformer架构的扩散模型所合成画面帧视频可能存在异形缺陷,画面帧视频会呈现反人类常识的行为或动作。采用大模型生成自然语言格式剧本文本,再通过三维引擎解析格式剧本渲染获得文生视频,能够有效降低大模型合成视频的不可控性,避免文生视频中出现一致性错误。

3、在模型生成格式文本再到三维渲染生成视频的过程中,现有技术需要耗费大量的时间对剧本场景中的三维模型进行渲染,提高图像视频的真实感,存在输出内容随机性,不可控,视本文档来自技高网...

【技术保护点】

1.基于文本信息借助三维渲染生成视频的方法,其特征在于,该方法包括以下步骤:

2.如权利要求1所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述未渲染视频的获取方法为:

3.如权利要求1所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述获取各3D模型在格式剧本中对应的名词,包括:

4.如权利要求1所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述确定各3D模型对应的名词,包括:

5.如权利要求2所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述确定每帧图像中各3D模型的所有映射数据对,包括:<...

【技术特征摘要】

1.基于文本信息借助三维渲染生成视频的方法,其特征在于,该方法包括以下步骤:

2.如权利要求1所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述未渲染视频的获取方法为:

3.如权利要求1所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述获取各3d模型在格式剧本中对应的名词,包括:

4.如权利要求1所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述确定各3d模型对应的名词,包括:

5.如权利要求2所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述确定每帧图像中各3d模型的所有映射数据对,包括:

6.如权利要求5所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述确定各3d模型对应的每个名词的相对文本位置,包括:

7.如权利要求5所述的基于文本信息借助三维渲染生成视频的方法,其特征在于,所述确定各3d模型对应的每个名词与各极大值点的映射判...

【专利技术属性】
技术研发人员:周琛孟亮王铁毛汀谢向辉武凯旋申文秋
申请(专利权)人:湖南三岳数维科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1