当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于场景蒙太奇的自监督视频场景边界检测方法技术

技术编号:39432471 阅读:15 留言:0更新日期:2023-11-19 16:16
本发明专利技术涉及一种基于场景蒙太奇的自监督视频场景边界检测方法,通过从视频里选取两个随机位置处的视频片段,拼接两个片段合成一个语义转变点,作为伪视频场景边界,同时从余下镜头中再选取一处作为非视频场景边界,以此形成高质量的自监督信号,结合基于大数据集预先训练的视觉特征提取器,训练神经网络模型学习镜头间语义关系,检测场景边界

【技术实现步骤摘要】
一种基于场景蒙太奇的自监督视频场景边界检测方法


[0001]本专利技术涉及人工智能中的深度学习领域,特别涉及一种基于场景蒙太奇的自监督视频场景边界检测方法


技术介绍

[0002]视频场景边界检测是指根据镜头描述的内容将视频中的镜头序列分割为语义连贯的故事片段

[0003]当前基于人工标注数据训练模型分割视频的方法严重受限于数据标注的高昂费用

通过拆分视频段为两个伪场景

从而获得伪场景边界的方法统称为基于拆分的方法

基于拆分的方法虽然在视频场景边界检测任务上取得了一定成果,但其生成的伪边界存在命中率的上限

基于拆分视频段来获取伪边界的方法极有可能过渡分割场景,使得单一场景被分为两个伪场景,扰乱视频段中的镜头间关系,从而损害视频场景边界检测模型的性能


技术实现思路

[0004]针对现有技术存在的上述问题,本专利技术要解决的技术问题是:如何准确检测视频场景边界

[0005]为解决上述技术问题,本专利技术采用如下技术方案:一种基于场景蒙太奇的自监督视频场景边界检测方法,包括如下步骤:
[0006]S1
:镜头序列的提取:获取一段输入长视频
S
video

[s1,

s
N
],获取其中的镜头,从镜头中进行关键帧的采样

[0007]S2
:构建和训练视频场景蒙太奇网络模型
VSM。
[0008]S21
:对于
S
video
中的每个镜头
s
i
采用视觉编辑器编码为维特征向量
x
i

S
video

[s1,

s
N
]被编码为特征向量组成的序列
X
video

[x1,

,x
b
,

,x
N
],其中
1≤
γ
≤n
‑1,
1≤
α
≤N

γ
+1

β
1≤
β
≤N

γ
+1

N
表示
S
video
中镜头数量,
n
表示
VSM
生成的视频段中镜头的数量

[0009]S22
:通过随机参数
γ
,
α
,
β
来确定两个特征子序列的长度,以及它们的起始位置,通过拼接操作的合成的特征序列
X
syn
,对应着合成的镜头序列
S
syn

[0010]S23
:通过
S22
的方法生成多个视频段为训练数据,以伪边界预测为代理任务,训练上下文编码器和场景边界判断模块

[0011]S24
:使用真实标注的场景边界信息进行对
S25
得到的预训练后的
VSM
进行微调,得到最终
VSM。
[0012]S3
:检测,将待检测视频片段通过步骤
S1
获取镜头序列
S

,后通过步骤
S21
得到对应特征序列
X

,将
X

输入最终
VSM
,输出序列中间镜头为场景边界的置信度

[0013]具体的,所述
S21

S
video
中的每个镜头
s
i
编码为维特征向量
x
i
的具体步骤如下:
[0014]x
i

concat(FGE(s
i
),BGE(s
i
))
[0015]其中
concat(
·
)
表示特征向量的拼接
,FGE(
·
)

BGE(
·
)
分别表示前景编码器和背景编,
s
i
表示第
i
个镜头,
x
i
表示第
i
个镜头的特征

[0016]作为优选,所述特征序列
X
syn

S
syn
合成的具体步骤如下:
[0017]首先选取一个随机的正整数
γ
,使得要截取的两个视频段中,一个包含
γ
个镜头,另一个包含
n

γ
个镜头,之后再选取两个随机的正整数
α

β
,作为要截取的两个视频段的起始镜头在长视频
S
video
中的位置,从而可从
S
video
截取出两个视频段作为两个伪场景,分别记作
S
left

[s
α
,s
α
+1

,s
α
+
γ
+1
]和
S
right

[s
β
,s
β
+1

,s
β
+n

γ
‑1],两个伪场景共有
n
个镜头,将
S
left

S
right
在时间维度上拼接在一起,形成一个合成的视频段
R
syn

[s
α
,

s
α
+
γ
+1
,s
β
,

,s
β
+n

γ
‑1]:
[0018]S
syn

splice(S
left
,S
right
)
[0019]其中
splice(
·
)
表示在时间维度上进行拼接

α

β

γ
都是不固定的随机数,每次合
[0020]成视频段时都会重新选取这些随机数

[0021]在从
X
vide本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于场景蒙太奇的自监督视频场景边界检测方法,其特征在于:包括如下步骤:
S1
:镜头序列的提取:获取一段输入长视频
S
video

[s1,
...s
N
]
,获取其中的镜头,从镜头中进行关键帧的采样;
S2
:构建和训练视频场景蒙太奇网络模型
VSM

S21
:对于
S
video
中的每个镜头
s
i
采用视觉编辑器编码为维特征向量
x
i

S
video

[s1,
...s
N
]
被编码为特征向量组成的序列
X
video

[x1,
...

x
b

...

x
N
]
,其中
1≤
γ
≤n
‑1,
1≤
α
≤N

γ
+1

β
1≤
β
≤N

γ
+1

N
表示
S
video
中镜头数量,
n
表示
VSM
生成的视频段中镜头的数量;
S22
:通过随机参数
γ

α

β
来确定两个特征子序列的长度,以及它们的起始位置,通过拼接操作的合成的特征序列
X
syn
,对应着合成的镜头序列
S
syn

S23
:通过
S22
的方法生成多个视频段为训练数据,以伪边界预测为代理任务,训练上下文编码器和场景边界判断模块;
S24
:使用真实标注的场景边界信息进行对
S25
得到的预训练后的
VSM
进行微调,得到最终
VSM

S3
:检测,将待检测视频片段通过步骤
S1
获取镜头序列
S

,后通过步骤
S21
得到对应特征序列
X

,将
X

输入最终
VSM
,输出序列中间镜头为场景边界的置信度
。2.
如权利要求1所述的一种基于场景蒙太奇的自监督视频场景边界检测方法,其特征在于:所述
S21

S
video
中的每个镜头
s
i
编码为维特征向量
x
i
的具体步骤如下:
x
i

concat(FGE(s
i
)

BGE(s
i
))
其中
concat(
·
)
表示特征向量的拼接,
FGE(
·
)

BGE(
·
)
分别表示前景编码器和背景编,
s
i
表示第
i
个镜头,
x
i
表示第
i
个镜头的特征
。3.
如权利要求2所述的一种基于场景蒙太奇的自监督视频场景边界检测方法,其特征在于:所述特征序列
X
syn

S
syn
合成的具体步骤如下:选取一个随机的正整数
γ
,使得要截取的两个视频段中,一个包含
γ
个镜头,另一个包含
n

γ
个镜头,之后再选取两个随机的正整数
α

β
,作为要截取的两个视频段的起始镜头在长视频
S
video
中的位置,从而可从
S
video
截取出两个视频段作为两个伪场景,分别记作
S
left

[s
α

s
α
+1
...

s
α
+
γ
+1
]

S
right

[s
β

s
β
+1
...

s
β
+n

γ
‑1]
,...

【专利技术属性】
技术研发人员:王洪星陈路杨平安谭嘉崴
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1