当前位置: 首页 > 专利查询>之江实验室专利>正文

一种电影场景内镜头视频排序系统及方法技术方案

技术编号:34838705 阅读:16 留言:0更新日期:2022-09-08 07:34
本发明专利技术属于视频制作领域,公开了一种电影场景内镜头视频排序系统及方法,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。本发明专利技术可实现以每一个分镜的多个镜头作为输入,自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。将其串联成一个完整的视频。将其串联成一个完整的视频。

【技术实现步骤摘要】
一种电影场景内镜头视频排序系统及方法


[0001]本专利技术属于视频制作领域,尤其涉及一种电影场景内镜头剪辑合成系统及方法。

技术介绍

[0002]随着互联网的发展,人民生活水平的不断提高,电影作为一种新型的内容记录和媒体表达的方式,丰富着人们的物质文化生活。
[0003]在视频生产领域。传统的视频制作剪辑过程比较繁琐,随着视频剪辑软件的越来越普及、数码设备功能的强大,一个电影通常包含成千上万个镜头,使电影剪辑制作需求也不断提升,缺乏一种对电影场景图镜头视频的剪辑合成方法。

技术实现思路

[0004]本专利技术目的在于提供一种电影场景内镜头视频排序系统及方法,以解决上述的技术问题。
[0005]为解决上述技术问题,本专利技术的一种电影场景内镜头视频排序系统及方法的具体技术方案如下:
[0006]一种电影场景内镜头视频排序系统,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;
[0007]所述电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;
[0008]所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;
[0009]所述镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。
[0010]本专利技术还公开了一种电影场景内镜头视频排序方法,包括如下步骤:
[0011]步骤101:通过TransNet模型对输入的电影进行分割:基于TransNet方法对完整的电影视频进行镜头边界帧的识别,并按照镜头边界帧的时间节点,实现对电影视频的切分,得到多个镜头片段;
[0012]步骤102:使用TransNet对步骤101中得到的镜头视频片段提取多帧图片:基于TransNet方法提取每个镜头片段的第一帧、中间关键帧、结尾转场帧;
[0013]步骤103:基于ResNet50对多图像进行特征提取并拼接获得视频片段特征:基于ResNet50方法对每个镜头片段的第一帧、中间关键帧、结尾转场帧的图像进行特征提取,并将得到的特征向量进行拼接,作为代表该镜头片段的特征向量;
[0014]步骤104:使用Transformer模型对电影片段进行预测分类:随机选出初始镜头片段,基于Transformer方法将代表镜头片段的特征向量作为输入,通过时序分类的方法预测下一个镜头片段,然后根据开端选定的镜头特征和已预测的镜头特征,继续进行预测下一镜头,直至将其串联成一个完整的视频。
[0015]进一步地,所述步骤101将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分;电影视频通过TransNet模型中的4个DDCNN单元进行处理,4个DDCNN单元具有相同的卷积核大小和不同的扩张率,将经过4个卷积操作之后分别得到的4个输出进行拼接,再经过1层池化层和2层全连接层,最终输出对电影视频中的每一帧的判别,即该帧是否为边界帧,由此得到边界帧的时间节点;然后根据得到的边界帧时间节点对电影视频进行切分,从而获取每一个镜头的视频。
[0016]进一步地,所述步骤101的具体步骤为:
[0017]TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧,TransNet共有4个DDCNN单元,其中4个单元的卷积运算均为3
×3×
3,每个单元的扩张率分别为1、2、4、8,输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果;
[0018]训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N
×
W
×
H
×
3,其中W表示图像的宽度,H表示图像的高度,N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N
×
2维向量,表示对每一帧图像是否为边界帧的判别,TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下降反向传播算法降低cross

entropy损失函数的损失值,具体loss函数如下:
[0019][0020]训练:采用Adam优化器,初始学习率为0.001;
[0021]预测:对于按照上述步骤训练完成的TransNet,输入任意电影M
test
全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102。
[0022]进一步地,所述步骤102对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧;将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列。
[0023]进一步地,所述步骤102余弦相似度的计算公式如下:
[0024][0025]其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度。
[0026]进一步地,所述步骤103选定一个镜头作为起始镜头,将开始图像I
strat
,中间关键帧图像I
middle1...n
,结尾转场图像I
end
送入ResNet50预训练模型中,进行图像特征向量提取,然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量,获得该镜头片段的特征向量F
n embedding
,重复以上步骤,提取当前电影视频下所有镜头的特征向量。
[0027]进一步地,所述步骤103包括如下具体步骤:为了获得镜头视频片段的特征向量F
n embedding
,使用预训练模型ResNet50对图像进行特征提取,再将同一片段的图像特征进行拼接得到片段特征,其中ResNet50的基本结构描述如下:
[0028]ResNet50模型由5个阶段组成,第1阶段是1个卷积操作,其余4个阶段都由Bottleneck组成,第2至5阶段分别包含3、4、6、3个Bottleneck;第1个阶段:输入为(N,H,W,C),其中N表示批量样本个数,H表示高度、W表示宽度、C表示通道数,H=224,W=224,C=3;该阶段包括4个先后操作:卷积,卷积核大小为7
×
7;Batch Normalization;ReLU和MaxPooling,输出大小为(N,112,112,64);
[0029]第2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电影场景内镜头视频排序系统,其特征在于,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;所述电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;所述镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。2.一种利用如权利要求1所述的电影场景内镜头视频排序系统进行视频排序的方法,其特征在于,包括如下步骤:步骤101:通过TransNet模型对输入的电影进行分割:基于TransNet方法对完整的电影视频进行镜头边界帧的识别,并按照镜头边界帧的时间节点,实现对电影视频的切分,得到多个镜头片段;步骤102:使用TransNet对步骤101中得到的镜头视频片段提取多帧图片:基于TransNet方法提取每个镜头片段的第一帧、中间关键帧、结尾转场帧;步骤103:基于ResNet50对多图像进行特征提取并拼接获得视频片段特征:基于ResNet50方法对每个镜头片段的第一帧、中间关键帧、结尾转场帧的图像进行特征提取,并将得到的特征向量进行拼接,作为代表该镜头片段的特征向量;步骤104:使用Transformer模型对电影片段进行预测分类:随机选出初始镜头片段,基于Transformer方法将代表镜头片段的特征向量作为输入,通过时序分类的方法预测下一个镜头片段,然后根据开端选定的镜头特征和已预测的镜头特征,继续进行预测下一镜头,直至将其串联成一个完整的视频。3.根据权利要求2所述的电影场景内镜头视频排序方法,其特征在于,所述步骤101将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分;电影视频通过TransNet模型中的4个DDCNN单元进行处理,4个DDCNN单元具有相同的卷积核大小和不同的扩张率,将经过4个卷积操作之后分别得到的4个输出进行拼接,再经过1层池化层和2层全连接层,最终输出对电影视频中的每一帧的判别,即该帧是否为边界帧,由此得到边界帧的时间节点;然后根据得到的边界帧时间节点对电影视频进行切分,从而获取每一个镜头的视频。4.根据权利要求2所述的电影场景内镜头视频排序方法,其特征在于,所述步骤101的具体步骤为:TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧,TransNet共有4个DDCNN单元,其中4个单元的卷积运算均为3
×3×
3,每个单元的扩张率分别为1、2、4、8,输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果;训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N
×
W
×
H
×
3,其中W表示图像的宽度,H表示图像的高度,N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N
×
2维向量,表示对每一帧图像是否为边界帧的判别,TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下
降反向传播算法降低cross

entropy损失函数的损失值,具体loss函数如下:训练:采用Adam优化器,初始学习率为0.001;预测:对于按照上述步骤训练完成的TransNet,输入任意电影M
test
全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102。5.根据权利要求4所述的电影场景内镜头视频排序方法,其特征在于,所述步骤102对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧;将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列。6.根据权利要求5所述的电影场景内镜头视频排序方法,其特征在于,所述步骤102余弦相似度的计算公式如下:其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度。7.根据权利要求5所述的电影场景内镜头视频排序方法,其特征在于,所述步骤103选定一个镜头作为起始镜头,将开始图像I<...

【专利技术属性】
技术研发人员:马诗洁陈萌毛瑞琛
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1