用于影视智能创作的情景互动的短视频生成方法及系统技术方案

技术编号：36046372 阅读：14 留言：0更新日期：2022-12-21 10:54

本发明专利技术涉及影视创作领域，公开一种用于影视智能创作的情景互动的短视频生成方法和系统，通过预训练的跨模态文本

全部详细技术资料下载

【技术实现步骤摘要】
用于影视智能创作的情景互动的短视频生成方法及系统

[0001]本专利技术涉及影视创作领域，具体涉及一种用于影视智能创作的情景互动的短视频生成方法及系统。

技术介绍

[0002]在影视创作领域，目前分镜稿、故事板及预演动画非常依赖人工，素材的收集、设计、道具和场景的选择从初稿到最终版本需要经过多次修改迭代，往往要花费数月甚至数年的时间，因此影视的创作制作过程往往需要花费创作者的较长时间和精力。
[0003]随着人工智能的发展，借助人工智能技术创新和加速影视制作是一个新的创新应用领域，借助人工智能的方法，将改革原有的人工方式为自动化交互创作，大大简化设计师的工作流程，提升创作效率。

技术实现思路

[0004]为了解决现有技术中存在的上述技术问题，本专利技术提出了一种用于影视智能创作的情景互动的短视频生成方法及系统，其具体技术方案如下：一种用于影视智能创作的情景互动的短视频生成方法，包括以下步骤：步骤一，根据用户输入的场景描述，通过预训练的跨模态文本图像匹配模型，从场景素材库中获取到对应描述的场景图片；步骤二，输入步骤一获取的场景图片，经过深度图估计模型，输出深度信息后利用预设的相机参数计算得到场景图片对应的三维信息；步骤三，根据用户输入的动作描述，经过预训练语言模型，从动作素材库中筛选得到一系列跟描述相匹配的动作图片，组成对应描述的候选动作序列，从中得到所需动作图片组成动作序列；步骤四，用户上传演员人物的多个视角的全身照片，通过人体三维模型估计算法对人体参数进行估计，同时对人体模型进行纹理贴图，获...

【技术保护点】

【技术特征摘要】
1.一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，包括以下步骤：步骤一，根据用户输入的场景描述，通过预训练的跨模态文本图像匹配模型，从场景素材库中获取到对应描述的场景图片；步骤二，输入步骤一获取的场景图片，经过深度图估计模型，输出深度信息后利用预设的相机参数计算得到场景图片对应的三维信息；步骤三，根据用户输入的动作描述，经过预训练语言模型，从动作素材库中筛选得到一系列跟描述相匹配的动作图片，组成对应描述的候选动作序列，从中得到所需动作图片组成动作序列；步骤四，用户上传演员人物的多个视角的全身照片，通过人体三维模型估计算法对人体参数进行估计，同时对人体模型进行纹理贴图，获取该演员人物的带纹理的人体模型；步骤五，用户输入运动轨迹，结合三维信息、动作序列和带纹理的人体模型，合成人物动作的前景短视频；步骤六，将步骤五得到的前景短视频和步骤一的场景图像进行融合，获取情景互动的短视频。2.如权利要求1所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤一具体包括以下子步骤：步骤（1.1），将用户输入的场景描述，经过预训练的跨模态文本图像匹配模型CLIP的文本编码器text encoder处理，得到对应的文本特征向量I
text
；步骤（1.2），将场景素材库中的场景图片，输入预训练的跨模态文本图像匹配模型CLIP的图片编码器image encoder，获取每个图片对应的图像特征向量I
image_i
，i=0,1,2
…
；步骤（1.3），对文本特征向量和图像特征向量计算相似度，获取同文本语义相近的一系列场景图片，供用户选择，具体为：计算文本特征向量和图像特征向量的余弦距离，将距离相近前几个的向量对应的图片作为匹配结果返回，余弦距离计算公式如下：，j表示文本特征向量序号，n为大于0的整数；步骤（1.4），用户根据返回的图片结果，选择所需图片作为最终合成视频的场景图片Image
scene
。3.如权利要求2所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤二具体为：输入步骤一获取的场景图片至深度图估计模型，所述深度图估计模型为DPT模型，DPT模型使用ViT作为主干网络，提取图像tokens，tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征，即多尺度的图像特征；多尺度的图像特征通过融合模块和上采样，得到深度密集预测结果，即深度信息；再通过预设的相机参数FOV和图像分辨率（H，W）计算归一化焦距（fx ，fy）和中心像素坐标(u
0 ，v
0 )，计算得到图像对应的三维信息(x,y,z)，其中图像高为H，宽为W，所述三维信息(x,y,z)的计算公式如下
所示：。4.如权利要求3所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤三具体包括以下子步骤：步骤（3.1），将用户输入的动作描述，经过预训练语言模型处理，得到对应的动作文本特征向量；步骤（3.2），将动作素材库中的动作序列对应的语义标签，送入预训练语言模型处理，获取语义标签对应的标签文本特征向量；步骤（3.3），对动作文本特征向量和标签文本特征向量计算余弦相似度，获取相似度排名靠前的标签所对应的动作序列和动作序列所对应的原始渲染视频，用户从中选择动作图片组成所需动作序列。5.如权利要求4所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤四具体包括以下子步骤：步骤（4.1），输入演员人物的多视角图片序列，利用人体姿态识别算法，获取人体的身体、手、脚和面部特征的关节点信息；步骤（4.2），通过人体三维模型估计算法得到人体模型参数，具体为：利用人体三维模型估计算法，将关节点信息及演员照片输入三维人体模型，使三维人体模型拟合到单张演员RGB图像和步骤（4.1）获取到的关节点信息，输出每个视角对应的人体模型参数、3d mesh信息和相机参数；步骤（4.3），利用获取到的人体模型参数、3d mesh信息...

【专利技术属性】
技术研发人员：毛瑞琛，马诗洁，耿卫东，李聪聪，杨森，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人