当前位置: 首页 > 专利查询>之江实验室专利>正文

用于影视智能创作的情景互动的短视频生成方法及系统技术方案

技术编号:36046372 阅读:14 留言:0更新日期:2022-12-21 10:54
本发明专利技术涉及影视创作领域,公开一种用于影视智能创作的情景互动的短视频生成方法和系统,通过预训练的跨模态文本

【技术实现步骤摘要】
用于影视智能创作的情景互动的短视频生成方法及系统


[0001]本专利技术涉及影视创作领域,具体涉及一种用于影视智能创作的情景互动的短视频生成方法及系统。

技术介绍

[0002]在影视创作领域,目前分镜稿、故事板及预演动画非常依赖人工,素材的收集、设计、道具和场景的选择从初稿到最终版本需要经过多次修改迭代,往往要花费数月甚至数年的时间,因此影视的创作制作过程往往需要花费创作者的较长时间和精力。
[0003]随着人工智能的发展,借助人工智能技术创新和加速影视制作是一个新的创新应用领域,借助人工智能的方法,将改革原有的人工方式为自动化交互创作,大大简化设计师的工作流程,提升创作效率。

技术实现思路

[0004]为了解决现有技术中存在的上述技术问题,本专利技术提出了一种用于影视智能创作的情景互动的短视频生成方法及系统,其具体技术方案如下:一种用于影视智能创作的情景互动的短视频生成方法,包括以下步骤:步骤一,根据用户输入的场景描述,通过预训练的跨模态文本图像匹配模型,从场景素材库中获取到对应描述的场景图片;步骤二,输入步骤一获取的场景图片,经过深度图估计模型,输出深度信息后利用预设的相机参数计算得到场景图片对应的三维信息;步骤三,根据用户输入的动作描述,经过预训练语言模型,从动作素材库中筛选得到一系列跟描述相匹配的动作图片,组成对应描述的候选动作序列,从中得到所需动作图片组成动作序列;步骤四,用户上传演员人物的多个视角的全身照片,通过人体三维模型估计算法对人体参数进行估计,同时对人体模型进行纹理贴图,获取该演员人物的带纹理的人体模型;步骤五,用户输入运动轨迹,结合三维信息、动作序列和带纹理的人体模型,合成人物动作的前景短视频;步骤六,将步骤五得到的前景短视频和步骤一的场景图像进行融合,获取情景互动的短视频。
[0005]进一步的,所述步骤一具体包括以下子步骤:步骤(1.1),将用户输入的场景描述,经过预训练的跨模态文本图像匹配模型CLIP的文本编码器text encoder处理,得到对应的文本特征向量I
text
;步骤(1.2),将场景素材库中的场景图片,输入预训练的跨模态文本图像匹配模型CLIP的图片编码器image encoder,获取每个图片对应的图像特征向量I
image_i
,i=0,1,2

;步骤(1.3),对文本特征向量和图像特征向量计算相似度,获取同文本语义相近的
一系列场景图片,供用户选择,具体为:计算文本特征向量和图像特征向量的余弦距离,将距离相近前几个的向量对应的图片作为匹配结果返回,余弦距离计算公式如下:,j表示文本特征向量序号,n为大于0的整数;步骤(1.4),用户根据返回的图片结果,选择所需图片作为最终合成视频的场景图片Image
scene

[0006]进一步的,所述步骤二具体为:输入步骤一获取的场景图片至深度图估计模型,所述深度图估计模型为DPT模型,DPT模型使用ViT作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息;再通过预设的相机参数FOV和图像分辨率(H,W)计算归一化焦距(fx ,fy)和中心像素坐标(u
0 ,v
0 ),计算得到图像对应的三维信息(x,y,z),其中图像高为H,宽为W,所述三维信息(x,y,z)的计算公式如下所示:。
[0007]进一步的,所述步骤三具体包括以下子步骤:步骤(3.1),将用户输入的动作描述,经过预训练语言模型处理,得到对应的动作文本特征向量;步骤(3.2),将动作素材库中的动作序列对应的语义标签,送入预训练语言模型处理,获取语义标签对应的标签文本特征向量;步骤(3.3),对动作文本特征向量和标签文本特征向量计算余弦相似度,获取相似度排名靠前的标签所对应的动作序列和动作序列所对应的原始渲染视频,用户从中选择动作图片组成所需动作序列。
[0008]进一步的,所述步骤四具体包括以下子步骤:步骤(4.1),输入演员人物的多视角图片序列,利用人体姿态识别算法,获取人体的身体、手、脚和面部特征的关节点信息;步骤(4.2),通过人体三维模型估计算法得到人体模型参数,具体为:利用人体三维模型估计算法,将关节点信息及演员照片输入三维人体模型,使三维人体模型拟合到单张演员RGB图像和步骤(4.1)获取到的关节点信息,输出每个视角对应的人体模型参数、3d mesh信息和相机参数;步骤(4.3),利用获取到的人体模型参数、3d mesh信息和相机参数,通过纹理贴图
算法,从演员的多视角照片中提取纹理,并对多个视角的纹理结果进行融合,获取带纹理的人体模型。
[0009]进一步的,所述步骤(4.3)具体包括以下操作处理:(1)基于UV map,首先对单张的演员人物照片初始化一张纹理贴图,具体为:将3d mesh信息的顶点坐标通过相机参数进行映射,映射到二维演员人物照片图像空间中,根据距离相机的远近确定当前单张演员照片映射到的三维人体模型的顶点;根据对应的三维人体模型的顶点和UV map中的纹理坐标及纹理坐标索引,确定该单张演员照片可映射得到的纹理贴图的纹理区域;其中按照线性插值的方式获取纹理区域的像素值:纹理的获得通过该纹理区域所对应的三维人体模型的顶点,从单视图找到对应顶点位置进行像素获取;(2)根据步骤(1)生成所有演员的纹理贴图;(3)对所有视角的演员的纹理进行融合,融合的方法采用先前后视角,后左右视角的方法,用所有的纹理贴图通过异或的方式获取一张融合后的纹理图;(4)针对融合后的纹理图存在缺失纹理的区域,用邻域的纹理进行填充,最后获得填充后的纹理,从而得到带纹理的人体模型。
[0010]进一步的,所述步骤五具体包括以下子步骤:步骤(5.1),用户通过交互的方式,在步骤一选中的场景图片中选择动作的起始二维坐标点start和结束二维坐标点end;步骤(5.2),利用二维坐标点在步骤二中输出的三维信息中查找对应的三维坐标start_3d和end_3d,分别表示三维空间的起始和结束位置;步骤(5.3),将生成的三维信息所对应的坐标系跟动作素材库中的动作序列的坐标系进行对齐;步骤(5.4),根据起始和结束位置计算实际的空间距离,根据选择的动作序列计算该动作所对应的空间距离,空间距离的计算采用欧式距离计算;以实际的空间距离为基准,对选择的动作进行重复和删减操作,使实际的运动起始结束点跟指定的起始结束点重合,生成全局旋转和平移后的新的动作序列;步骤(5.5),将步骤四生成的带纹理的人体模型和生成的新的动作序列作使用pyrender进行渲染,得到前景短视频。
[0011]进一步的,所述步骤(5.4)中的对选择的动作进行重复和删减操作具体为:对筛选得到的动作距离如果小于实际的空间距离,对其进行重复操作,直到两者的空间距离一致;对筛选得到的动作距离大于实际的空间距离,则将多余的运本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,包括以下步骤:步骤一,根据用户输入的场景描述,通过预训练的跨模态文本图像匹配模型,从场景素材库中获取到对应描述的场景图片;步骤二,输入步骤一获取的场景图片,经过深度图估计模型,输出深度信息后利用预设的相机参数计算得到场景图片对应的三维信息;步骤三,根据用户输入的动作描述,经过预训练语言模型,从动作素材库中筛选得到一系列跟描述相匹配的动作图片,组成对应描述的候选动作序列,从中得到所需动作图片组成动作序列;步骤四,用户上传演员人物的多个视角的全身照片,通过人体三维模型估计算法对人体参数进行估计,同时对人体模型进行纹理贴图,获取该演员人物的带纹理的人体模型;步骤五,用户输入运动轨迹,结合三维信息、动作序列和带纹理的人体模型,合成人物动作的前景短视频;步骤六,将步骤五得到的前景短视频和步骤一的场景图像进行融合,获取情景互动的短视频。2.如权利要求1所述的一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,所述步骤一具体包括以下子步骤:步骤(1.1),将用户输入的场景描述,经过预训练的跨模态文本图像匹配模型CLIP的文本编码器text encoder处理,得到对应的文本特征向量I
text
;步骤(1.2),将场景素材库中的场景图片,输入预训练的跨模态文本图像匹配模型CLIP的图片编码器image encoder,获取每个图片对应的图像特征向量I
image_i
,i=0,1,2

;步骤(1.3),对文本特征向量和图像特征向量计算相似度,获取同文本语义相近的一系列场景图片,供用户选择,具体为:计算文本特征向量和图像特征向量的余弦距离,将距离相近前几个的向量对应的图片作为匹配结果返回,余弦距离计算公式如下:,j表示文本特征向量序号,n为大于0的整数;步骤(1.4),用户根据返回的图片结果,选择所需图片作为最终合成视频的场景图片Image
scene
。3.如权利要求2所述的一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,所述步骤二具体为:输入步骤一获取的场景图片至深度图估计模型,所述深度图估计模型为DPT模型,DPT模型使用ViT作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息;再通过预设的相机参数FOV和图像分辨率(H,W)计算归一化焦距(fx ,fy)和中心像素坐标(u
0 ,v
0 ),计算得到图像对应的三维信息(x,y,z),其中图像高为H,宽为W,所述三维信息(x,y,z)的计算公式如下
所示:。4.如权利要求3所述的一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,所述步骤三具体包括以下子步骤:步骤(3.1),将用户输入的动作描述,经过预训练语言模型处理,得到对应的动作文本特征向量;步骤(3.2),将动作素材库中的动作序列对应的语义标签,送入预训练语言模型处理,获取语义标签对应的标签文本特征向量;步骤(3.3),对动作文本特征向量和标签文本特征向量计算余弦相似度,获取相似度排名靠前的标签所对应的动作序列和动作序列所对应的原始渲染视频,用户从中选择动作图片组成所需动作序列。5.如权利要求4所述的一种用于影视智能创作的情景互动的短视频生成方法,其特征在于,所述步骤四具体包括以下子步骤:步骤(4.1),输入演员人物的多视角图片序列,利用人体姿态识别算法,获取人体的身体、手、脚和面部特征的关节点信息;步骤(4.2),通过人体三维模型估计算法得到人体模型参数,具体为:利用人体三维模型估计算法,将关节点信息及演员照片输入三维人体模型,使三维人体模型拟合到单张演员RGB图像和步骤(4.1)获取到的关节点信息,输出每个视角对应的人体模型参数、3d mesh信息和相机参数;步骤(4.3),利用获取到的人体模型参数、3d mesh信息...

【专利技术属性】
技术研发人员:毛瑞琛马诗洁耿卫东李聪聪杨森
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1