低光照场景下的视频问答方法技术

技术编号:39518059 阅读:23 留言:0更新日期:2023-11-25 18:56
一种低光照场景下的视频问答方法,由视频预处理

【技术实现步骤摘要】
低光照场景下的视频问答方法


[0001]本专利技术属于视频
,具体涉及到低光照场景下的视频问答方法


技术介绍

[0002]视频问答技术指计算机通过对大量视频和对应的自然语言形式描述的问答对进行推理训练,构建基于深度神经网络的视频问答模型,实现根据任意一段视频内容自动回答自然语言形式描述的相关问题的技术

主流的视频问答模型在跨模态信息融合与推理方面表现出强大的能力,在视频问答
中取得了良好的效果,但是在地下停车场

夜晚街区等低光照场景视频中难以有效地获取视频中的有用信息和关键特征,视频问答方法性能表现不佳

目前,尽管一些研究人员提出了低照度视频增强方法,但将之引用到视频问答技术,实现高效的低照度视频问答方法或模型未见相关报道

[0003]在视频问答
,当前需迫切解决的一个技术问题是提供一种准确率高

适用范围广的视频问答方法


技术实现思路

[0004]本专利技术所要解决的技术问题在于克服现有技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种低光照场景下的视频问答方法,其特征在于由下述步骤组成:
(1)
视频预处理采用国际公开的基准数据集
NExT

VQA
作为视频数据集,按照
7:1:2
划分为训练集

验证集

测试集,将给定的视频集合
V
作为输入,
V

{v1,v2,

,v
n
}(1)
对于每一个输入视频
v
n

n
为有限的正整数,采样固定数量的视频片段
P
t

P
t
∈{P1,
P2,
...

P
t
}

t
为有限的正整数,用滑动窗口的方式将视频片段
P
t
划分为固定数量的视频帧划分为固定数量的视频帧
m
为有限的正整数,按照式
(2)
对视频
v
n
的视频帧进行变暗和添加高斯噪声
G
:其中,
I
m
表示预处理后的视频帧,
α
为变暗的系数,取值为
[0.4,0.5]

(2)
增强低光照视频
1)
从视频片段
P
t
随机抽取视频帧,按照式
(3)
获得视频帧亮度的平衡值获得视频帧亮度的平衡值其中,
N
表示像素的总数,
H,W
分别表示视频帧的高度和宽度,
x,y
分别表示视频帧中像素的位置坐标的横坐标和纵坐标,
R

G

B
分别表示图像的红色

绿色

蓝色的亮度,
δ
,为模型参数,
δ
∈[0.05,0.1]

2)
按照式
(4)
调整视频
v
i
的视频片段
P
t
中的视频帧
I
m
在位置
(x,y)
处的像素值
I(x,y)
:其中,
(x,y)
表示视频帧中像素的位置坐标;
3)
视频片段
P
t
满足
T
sd
为阈值参数,取值为其中
l
max

l
min
分别表示视频帧亮度的最大值和最小值,通过重复下采样和上采样得到不同尺度的图像,按照式
(5)
获得增强后的图像
S


S


RL(5)R

log(1+S)

H(log(1+S))(6)
其中,
L
表示视频帧的光照分量,
S
为采样图像转换为的灰度图像,
σ
表示高斯函数的方差,
x

y
表示高斯函数的中心点坐标;
4)
采用加权平均方法对增强后的图像进行尺度合成,进行直方图均衡化,得到增强后的视频帧
I

t
和视频片段
P

t

I

t
∈{I
′1,
I
′2,
...

I

m
}

m
为有限的正整数,
P

t
∈{P
′1,
P
′2,
...

P

t
}

t
为有限的正整数;
(3)
构建
VF

enhNeXt
网络
VF

enhNeXt
网络由时序编码模块与第一分支模块

第二分支模块

激活函数层

全连接层
3、
特征融合模块

推理判断模块依次串联构成;所述的第一分支模块由动态学习残差块1与全连接层1串联构成;所述的第二分支模块由动态学习残差块2与归一化层
1、
动态学习残
差块
3、
归一化层
2、
动态学习残差块
4、
全连接层2依次串联构成;
(4)
增强视频特征将增强后的视频片段
P

t
传递给残差卷积神经网络,分别提取视频空间特征和光流运动特征,通过
VF

enhNeXt
网络增强视频特征如下:
1)
将视频空间特征沿着时间维度划分为子片段和每个子片段的大小为
M
为批尺寸大小,
T
为特征的时间维度,
C
为通道数,
M、T、C
取值为有限的正整数;
2)
使用时序编码模块对每个子片段的时间信息进行编码,复制编码后的子片段,以获得相同的时空...

【专利技术属性】
技术研发人员:马苗杨捷李雨桐姚超任杰
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1