【技术实现步骤摘要】
基于Transformer的视频时空超分辨率方法
[0001]本专利技术属于视频时空超分辨率增强领域,涉及基于Transformer的视频时空超分辨率方法。
技术介绍
[0002]视频超分辨率增强是指利用相同动态场景下的多帧低分辨率的视频序列,重构高帧率高分辨率的视频序列。包括两个方面:时序上的增量超分辨和空间上的视频超分辨率。近年来深度学习算法技术的发展使得时序上的增量超分辨技术和空间上的视频超分辨率技术得到很大的改进,如公布号为CN111654746B的专利申请公开的一种视频的插帧方法、装置、电子设备和存储介质;和公布号为CN112365403A的专利申请公开的一种基于深度学习和相邻帧的视频超分辨率恢复方法。但是传统的深度学习方法很少可以同时完成时空上的超分辨率。
[0003]在视频时空超分辨领域中,有一些研究者尝试基于光流的方法。但是基于光流的方法通常以预设的时空关系建模相邻视频帧的联系,无法适应多种多样的运动情况,最终生成的序列容易产生抖动的视觉现象。如公开号为CN113034380A的专利申请公开的一种基于 ...
【技术保护点】
【技术特征摘要】
1.基于Transformer的视频时空超分辨率方法,其特征在于,包括以下步骤:S1、采集视频时空超分辨率的模型训练样本;S2、构建高帧率低分辨率视频序列生成模型,基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列;S3、构建高帧率高分辨率视频序列生成模型,基于Transformer注意力机制的时空域特征融合,重建高帧率高分辨率视频序列;S4、构建基于Transformer的视频时空超分辨率模型并训练,根据训练好的基于Transformer的视频时空超分辨率模型对视频序列进行视频时空超分辨率重建。2.根据权利要求1所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S1中,选用涵盖各种场景和动作的视频序列的原始数据集;将原始数据集提供的视频序列I
HR
视为高帧率高分辨率视频序列;原始数据集中每个视频序列表示为T表示视频序列的长度,即一段视频的帧数,表示视频序列中第i帧图像;i=1,
…
,T;对原始数据集中的视频序列的预处理具体如下:先通过对原始数据集中原有的高帧率高分辨率视频序列I
HR
通过双三次插值进行r倍下采样处理得到高帧率低分辨率视频序列,再进行a倍下采样处理得到低帧率低分辨率视频序列,构建训练数据集。3.根据权利要求1所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S2中,构建的高帧率低分辨率视频序列生成模型中,基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列,包括以下步骤:S2.1、对预处理得到的低帧率低分辨率视频序列,通过卷积和残差模块计算得到低帧率低分辨率初始特征序列,在低帧率低分辨率视频序列中相邻的两帧图像之间生成中间帧图像,对于要生成的中间帧图像即第t帧图像,前一帧图像的特征记为F
t
‑1,后一帧图像的特征记为F
t+1
;S2.2、基于Transformer注意力机制,获取要生成的中间帧图像的相邻帧图像特征的联系信息,得到帧之间的特征联系信息;对于要生成的中间帧图像的相邻的两帧图像特征,相邻帧图像特征的联系信息包括中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R
t
‑1→
t+1
,以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R
t+1
→
t
‑1;S2.3、融合中间帧图像的前一帧图像特征F
t
‑1和正向联系信息R
t
‑1→
t+1
,得到由前往后的正向中间帧特征F
t
‑1→
t
;融合中间帧图像的后一帧图像特征F
t+1
和反向联系信息R
t+1
→
t
‑1,得到由后往前的反向中间帧特征F
t+1
→
t
;将正向中间帧特征F
t
‑1→
t
和反向中间帧特征F
t+1
→
t
进行融合,具体为将正向中间帧特征F
t
‑1→
t
和反向中间帧特征F
t+1
→
t
拼接再通过卷积计算,得到最终的中间帧特征F
middle
,具体如下:F
t
‑1→
t
=F
t
‑1+R
t
‑1→
t+1
;F
t+1
→
t
=F
t+1
+R
t+1
→
t
‑1;F
middle
=Conv(Concate(F
t
‑1→
t
,F
t+1
→
t
));S2.4、对生成的最终的中间帧特征F
middle
通过RDN模块进行特征学习,得到中间帧的特
征信息F
t
,再通过卷积计算将中间帧的特征信息转为图像信息,生成中间帧图像;中间帧图像和预处理得到的低帧率低分辨率视频序列按时间顺序拼接成高帧率低分辨率视频序列,即将中间帧图像插入对应的前一帧图像和后一帧图像之间。4.根据权利要求3所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S2.2中,获取中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R
t
‑1→
t+1
,以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R
t+1
→
t
‑1,具体如下:对前一帧图像的图像特征F
t
‑1进行卷积操作得到Transformer注意力机制的
‘
查询
’
:query(q1);对后一帧图像的图像特征F
t+1
进行分别进行两次卷积操作得到Transformer注意力机制
‘
键值对
’
:key(k1)和value(v1);将得到的
‘
查询
’
q1、
‘
键值对
’
key(k1)和value(v1)分别进行分块展开操作;q1、k1、v1的大小都为f
channel
×
patch
L
×
patch
L
,其中f
channel
表示特征通道数;对于每个大小为patch
L
×
patch
L
的特征通道,将其分为n块,每块分辨率为patch
×
patch,原本大小为patch
L
×
patch
L
的每个通道特征可表示为n
×
patch
×
patch,由于总共有f
channel
个特征通道,最终可转为n个维度为patch
×
patch
×
f
channel
的特征;通过Transformer注意力机制计算相邻帧图...
【专利技术属性】
技术研发人员:邢晓芬,曹俏钰,徐向民,郭锴凌,
申请(专利权)人:中山市华南理工大学现代产业技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。