【技术实现步骤摘要】
基于Transformer的无参考视频质量评价方法
[0001]本专利技术属于视频质量评价
,具体涉及一种基于Transformer的无参考视频质量评价方法。
技术介绍
[0002]视频质量评估是以人的主观观测结果为依据为视频质量进行评估的过程,对视频监控以及改善用户视觉质量体验有重要意义。
[0003]在运用自然图像统计的评估方法中,需要构建变换域系数的统计模型,并从模型中提取到相关的特征信息来进行评估,但是在获得系数分布增加了模型的计算复杂度,且由于噪声的多样性和图像内容的复杂性,从而制约了模型的性能。
[0004]在基于深度学习的质量评估方法中,大多采用的是基于卷积神经网络的模型,利用2D
‑
CNN主要是将视频的一帧作为输入,易忽略各帧之间的关联信息,难以捕获时间信息、时间复杂度较高,且依然存在训练失真视频的数量有限和标签不均衡等问题,限制了算法的性能、鲁棒性和泛化能力。
[0005]三维卷积神经网络(three
‑
dimensionalconvolut ...
【技术保护点】
【技术特征摘要】
1.基于Transformer的无参考视频质量评价方法,其特征在于,具体按照以下步骤实施:步骤1、下载视频质量评价的公开数据集KoNViD
‑
1k,其中包括视频数据以及对应的标签文件,将公开数据集中的视频数据处理成RGB格式视频帧并以.jpg格式保存;步骤2、构建基于Transformer的无参考视频质量评价方法的网络模型,包括两个模块,一个是多层级联的使用移动窗口的分层视觉变换器Swin
‑
Transformer,另一个模块是金字塔特征聚合模块;步骤3、将步骤1获取的视频帧图像送到多层级联的使用移动窗口的分层视觉变换器Swin
‑
Transformer模块中提取视频特征和对应的质量分数文件;步骤4、将步骤1下载的数据集划分为训练集、测试集和验证集,随之对应的标签文件也按照数据集的划分方式划分为训练集、测试集和验证集;步骤5、加载步骤3提取到的视频特征文件和质量分数文件送到基于特征融合的金字塔聚合模块中,训练模型,最终得到待评测视频的质量分数。2.根据权利要求1所述的基于Transformer的无参考视频质量评价方法,其特征在于,所述步骤1具体按照以下步骤实施:步骤1.1、下载视频质量评价所用的公开数据集,其中包括视频数据以及对应的标签文件;步骤1.2、将步骤1.1中所得的视频数据集中取视频V
i
,将视频V
i
分解成n帧,如公式(1)所示;T={f1,f2,f3...f
i
..,f
n
} (1)其中,T代表视频分解得到的视频帧数集合,f1是视频的第1帧,f2,是视频的2帧,f3是视频的第3帧,f
i
为第i个视频帧,f
n
是视频的第n帧;步骤1.2、利用跨平台计算机视觉和机器学习软件库OpenCv中提供的resize函数将f
i
的大小改为768*432,格式为.jpg,保存到以视频名命名的文件夹。3.根据权利要求3所述的基于Transformer的无参考视频质量评价方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2中搭建的网络模型如下:搭建多层级联的使用移动窗口的分层视觉变换器Swin
‑
Transformer模块,该模块依次由Patch Partition层和4个Stage即Stage1~Stage4构成,每个Stage中又分别由linear embeding层和Swin Transformer Block构成,金字塔集合模块由GRU网络以及全连接层FC4和FC5构成;步骤2.1、读取步骤1.1所得的视频数据文件和对应的标签文件;步骤2.2、读取步骤2.1的数据以及步骤1.2生成的视频帧图像,得到对应的图像文件名、视频文件名和对应的质量分数;步骤2.3、以64个帧为一个批次将步骤1.2生成的视频帧图像送入多层级联的使用移动窗口的分层视觉变换器Swin
‑
Transformer模块中步骤2.4、加载ImageNet在使用移动窗口的分层视觉变换器Swin
‑
Transformer模块的预训练模型;步骤2.5、将步骤2.2读取到的视频帧图像切割成大小为224*224的图像块送到步骤2搭
建的多层级联的使用移动窗口的分层视觉变换器Swin
‑
Transformer模块中的Patch Partition层,得到视频的特征向量;步骤2.6、将步骤2.5得到的特征向量进入linear embeding层并将步骤2.5得到的特征向量的维度设置为96,那么特征向量大小变成56*56*96,然后经过拉直变成3136*96;步骤2.7、将步骤2.6得到的特征向量送入到Swin Transformer Block得到视频的特征向量送入stage2模块中,该模块有两部分构成,一部分是基于固定窗口的自注意力计算,另一部分是基于移动窗口的自注意力计算;步骤2.8、将步骤2.7中经过stage2模块后得到的特征向量经过patch merging层的操作,将整张特征向量大小从56*56*96变成了28*28*192;步骤2.9、将步骤2.8得到的特征向量送到Swin Transformer Block中得到处理后的特征向量;步骤2.10、因stage2
‑
stage4操作一样,重复步骤2.8和2.9两次后得到视频最终的视频向量;步骤2.11、将经过每一个stage得到的特...
【专利技术属性】
技术研发人员:李军怀,冯玉琴,崔颖安,王怀军,于蕾,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。