【技术实现步骤摘要】
一种基于场景蒙太奇的自监督视频场景边界检测方法
[0001]本专利技术涉及人工智能中的深度学习领域,特别涉及一种基于场景蒙太奇的自监督视频场景边界检测方法
。
技术介绍
[0002]视频场景边界检测是指根据镜头描述的内容将视频中的镜头序列分割为语义连贯的故事片段
。
[0003]当前基于人工标注数据训练模型分割视频的方法严重受限于数据标注的高昂费用
。
通过拆分视频段为两个伪场景
、
从而获得伪场景边界的方法统称为基于拆分的方法
。
基于拆分的方法虽然在视频场景边界检测任务上取得了一定成果,但其生成的伪边界存在命中率的上限
。
基于拆分视频段来获取伪边界的方法极有可能过渡分割场景,使得单一场景被分为两个伪场景,扰乱视频段中的镜头间关系,从而损害视频场景边界检测模型的性能
。
技术实现思路
[0004]针对现有技术存在的上述问题,本专利技术要解决的技术问题是:如何准确检测视频场景边界
。
[0005]为解决上述技术问题,本专利技术采用如下技术方案:一种基于场景蒙太奇的自监督视频场景边界检测方法,包括如下步骤:
[0006]S1
:镜头序列的提取:获取一段输入长视频
S
video
=
[s1,
…
s
N
],获取其中的镜头,从镜头中进行关键帧的采样
。
[0007]S2
:构建和训练视频场 ...
【技术保护点】
【技术特征摘要】
1.
一种基于场景蒙太奇的自监督视频场景边界检测方法,其特征在于:包括如下步骤:
S1
:镜头序列的提取:获取一段输入长视频
S
video
=
[s1,
...s
N
]
,获取其中的镜头,从镜头中进行关键帧的采样;
S2
:构建和训练视频场景蒙太奇网络模型
VSM
;
S21
:对于
S
video
中的每个镜头
s
i
采用视觉编辑器编码为维特征向量
x
i
,
S
video
=
[s1,
...s
N
]
被编码为特征向量组成的序列
X
video
=
[x1,
...
,
x
b
,
...
,
x
N
]
,其中
1≤
γ
≤n
‑1,
1≤
α
≤N
‑
γ
+1
和
β
1≤
β
≤N
‑
γ
+1
,
N
表示
S
video
中镜头数量,
n
表示
VSM
生成的视频段中镜头的数量;
S22
:通过随机参数
γ
,
α
,
β
来确定两个特征子序列的长度,以及它们的起始位置,通过拼接操作的合成的特征序列
X
syn
,对应着合成的镜头序列
S
syn
;
S23
:通过
S22
的方法生成多个视频段为训练数据,以伪边界预测为代理任务,训练上下文编码器和场景边界判断模块;
S24
:使用真实标注的场景边界信息进行对
S25
得到的预训练后的
VSM
进行微调,得到最终
VSM
;
S3
:检测,将待检测视频片段通过步骤
S1
获取镜头序列
S
’
,后通过步骤
S21
得到对应特征序列
X
’
,将
X
’
输入最终
VSM
,输出序列中间镜头为场景边界的置信度
。2.
如权利要求1所述的一种基于场景蒙太奇的自监督视频场景边界检测方法,其特征在于:所述
S21
中
S
video
中的每个镜头
s
i
编码为维特征向量
x
i
的具体步骤如下:
x
i
=
concat(FGE(s
i
)
,
BGE(s
i
))
其中
concat(
·
)
表示特征向量的拼接,
FGE(
·
)
和
BGE(
·
)
分别表示前景编码器和背景编,
s
i
表示第
i
个镜头,
x
i
表示第
i
个镜头的特征
。3.
如权利要求2所述的一种基于场景蒙太奇的自监督视频场景边界检测方法,其特征在于:所述特征序列
X
syn
和
S
syn
合成的具体步骤如下:选取一个随机的正整数
γ
,使得要截取的两个视频段中,一个包含
γ
个镜头,另一个包含
n
‑
γ
个镜头,之后再选取两个随机的正整数
α
和
β
,作为要截取的两个视频段的起始镜头在长视频
S
video
中的位置,从而可从
S
video
截取出两个视频段作为两个伪场景,分别记作
S
left
=
[s
α
,
s
α
+1
...
,
s
α
+
γ
+1
]
和
S
right
=
[s
β
,
s
β
+1
...
,
s
β
+n
‑
γ
‑1]
,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。