System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于用户原创内容视频处理,具体地说涉及一种基于transformers网络的用于用户原创视频的无参考质量评价方法。
技术介绍
1、随着移动多媒体设备的发展和视频社交媒体平台的普及,用户产生的内容(ugc)和视频流已经在社交媒体平台上爆炸性增长,如facebook、instagram、youtube和tiktok,每个平台都支持数百万和数十亿的用户。据估计,每天在facebook上有大约40亿次视频浏览,在youtube上有10亿小时的浏览。鉴于互联网视频的巨大普及率,测量和控制ugc视频的质量将具有很大的价值,无论是在采集设备上还是在上传、编码、处理和分析这些视频的社交媒体网站。
2、在过去的几年里,有许多无参考的图像质量评价方法(nr-iqa)与无参考视频质量评价方法(nr-vqa)涌现而出。相对于fr-vqa是与原始视频进行比较,并以此评价视频质量,而nr-vqa并不需要任何的比较。因此,nr视频质量监测可以改变智能手机、社交媒体、远程医疗、监控和用视觉引导的机器人的视频处理和解释,其方式是fr-vqa模型无法做到的。但由于ugc视频库内容的多样性和失真的复杂性,所以以前针对评估压缩失真和传输伪影而设计的nr-vqa往往在ugc视频上并不能取得令人满意的效果。
3、回顾nr-vqa的发展历程,随着机器学习的飞速发展学习,部分学者尝试使用机器学习理论建立nr-vqa模型。比如,经典的nr-vqa方法是基于自然场景统计(nss)分析而提出的。如niqe,brisque,friquee和higra
4、鉴于人们对ugc质量评价的兴趣日益浓厚,许多研究者开始针对konvid-1k、live-vqc、youtube-ugc这几个大型ugc数据库设计nr-vqa模型。例如li等人提出新的的nr-vqa框架(mdtvsfa)使用ugc视频的混合数据集训练策略,其主干是之前提出的vsfa组成。chen等学者提出一个nr-vqa框架称为trr-qoe和ms-trr模块,它引入了注意力机制来衡量对应的多尺度时间关系信息不同的时间分辨率。zheng等学者从现有的763个统计特征中提取60个具有代表性的特征,并称之为videval。该模型采用新型选择策略从现有的nr-vqa中选取并聚合特征。wang等学者提出了一个基于dnn的nr-vqa框架(colnvq),尝试从不同方向分析ugc视频质量,如语义内容、技术质量和压缩水平,这带来了新的见解,将视频的感知质量解释为互补特征的相互作用。ying等学者提出patch-vq,该方法使用paq2piq方法计算二维视频特征,同时使用resnet3d计算三维特征。二维和三维特征为时间序列回归器提供信息,该回归器通过利用全局视频质量和局部时空v-patch质量之间的关系,最后预测全局视频质量。
5、目前ugc视频质量评价模型的主干大多仍是由卷积神经网络(dnn,cnn)组成,但在许多计算机视觉任务中,与卷积神经网络架构相比纯transformers的架构已经体现出它在计算效率的优势,且取得了最优的性能。例如arnab等学者提出的vivit研究了预训练的vit模型的空间和时间注意力的四个因素化设计,并提出了一个类似于vtn的架构,在kinetics数据集上达到了最先进的性能。haoqi fan等学者提出的mvit模型,是一个用于视频识别的多尺度视觉变换器,从头开始训练,通过集中注意力进行时空建模来减少计算量,从而在ssv2上获得最先进的结果。liu等学者提出的swin transformer在kinetics-400、kinetics-600和something v2这三个广泛使用的基准测试中实现了最先进的性能。
6、综上所述,ugc-vqa受到越来越多的关注,同时该领域急需一个符合人眼视觉感知机制的纯transformer模型。然而在当前处理视觉信息的大多纯transformers模型中,视觉信息都需要在所有transformer层中进行自注意力计算,这不仅导致计算量的大幅上升而且也不符合大脑对视觉信息通过注意力来逐步过滤的处理过程。
技术实现思路
1、本专利技术需解决的技术问题:
2、1.以往的nr-vqa模型,视频序列的采样策略大多数为固定间隔采样,该采样策略若想不丢失过多的空时域特征只有加大采样频率,但这不仅大量增加了模型的计算量,而且并未考虑到人眼注意力在视频空时域不均匀分布的特点,这导致采样帧构成的子集往往不能代表整个视频。
3、2.目前应用到cv的transformer架构模型大多由处理nlp的transformer层构成,但在视觉理解和语言处理问题中,人脑对两者信息的处理过程显然不相同,因此在nr-vqa问题中,当前的transformer层没有考虑到视觉理解区别于语言处理的特性。
4、3.当前transformer架构已经证明了其在图像分类,图像切割,图像识别等计算机视觉领域较之卷积网络的优势,而在vqa中,大多是基于卷积网络构建的模型,因此如何根据视觉特性利用transformer架构的优点搭建一个较好适用于视频质量评价的模型仍是一个问题。
5、针对现有技术中存在的不足,本专利技术提供一种基于注意选择的用户原创视频质量评估方法。
6、基于注意选择的用户原创视频质量评估方法,包括如下步骤:
7、步骤1.采用时序小块采样策略(timing block sampling tbs)对视频进行采用得到重组帧集合;
8、本策略首先基于结构相似性(structural similarity ssim)提出trs(time-series relative ssim)指标来表示在相同空间位置上当前图片块与前后一定时序范围内图片块的相似度和质量差异,该值与相对失真程度成反比。随后在时间上按照一定帧数将视频切割成视频序列片段,再在每一个视频序列片段中,将视频序列片段在空间上切割成图片块,在此基础上利用设计的trs指标评估选择出相同空间位置不同时序中失真程度最大的图片块,组成时序小块(即不同时序中,trs值最小的图片块)集合。随后,为了保持时序小块之间的相对空间位置,将时序小块按其原始空间位置集合重组成帧,得到重组帧集合。
9、步骤2.构建注意力筛选transformer网络(attention screening asnet本文档来自技高网...
【技术保护点】
1.基于注意选择的用户原创视频质量评估方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于注意选择的用户原创视频质量评估方法,其特征在于,步骤1具体步骤如下:
3.根据权利要求2所述的基于注意选择的用户原创视频质量评估方法,其特征在于,步骤2具体方法如下:
4.根据权利要求3所述的基于注意选择的用户原创视频质量评估方法,其特征在于,基于非注意特征过滤的transformer层结构NAFF使用Video Swin Transformer blocks模块作为backbone进行改进得到;
5.根据权利要求4所述的基于注意选择的用户原创视频质量评估方法,其特征在于,步骤3所述的回归器由尺寸为(8,7,7)的3D自适应平均池化层和全连接层组成的回归器获得评估得分。
6.根据权利要求3-5任意一项所述的基于注意选择的用户原创视频质量评估方法,其特征在于,步骤4具体方法如下:
7.根据权利要求4所述的基于注意选择的用户原创视频质量评估方法,其特征在于,方差阈值为0.05,0.05,0.5和1;注意力权重比例阈
...【技术特征摘要】
1.基于注意选择的用户原创视频质量评估方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于注意选择的用户原创视频质量评估方法,其特征在于,步骤1具体步骤如下:
3.根据权利要求2所述的基于注意选择的用户原创视频质量评估方法,其特征在于,步骤2具体方法如下:
4.根据权利要求3所述的基于注意选择的用户原创视频质量评估方法,其特征在于,基于非注意特征过滤的transformer层结构naff使用video swin transformer blocks模块作为...
【专利技术属性】
技术研发人员:赵世灵,张威,殷海兵,王鸿奎,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。