基于算法及硬件协同设计的大规模视频理解方法及系统技术方案

技术编号:35545089 阅读:24 留言:0更新日期:2022-11-12 15:23
本发明专利技术公开了视频处理技术领域的基于算法及硬件协同设计的大规模视频理解方法及系统,所述的基于算法及硬件协同设计的大规模视频理解方法,包括:获取精度训练视频检测网络后的完整实例模型;对该实例模型的权重和激活值进行低值量化,并在原始数据集上再度训练后得到量化值模型;深度张量分解压缩网络,得到简化后的模型,本发明专利技术通过面向边缘设备的视频分析模型、低值化深度学习优化、张量压缩算法优化以及视频分析系统在加速器上的实现与加速,完成了对视频的理解与分析的实现、加速以及加速器的搭建。及加速器的搭建。及加速器的搭建。

【技术实现步骤摘要】
基于算法及硬件协同设计的大规模视频理解方法及系统


[0001]本专利技术涉及视频处理
,特别是涉及基于算法及硬件协同设计的大规模视频理解方法及系统。

技术介绍

[0002]现在人们对于计算机视觉技术的突破已经从静态的图像识别转向到了视频理解,甚至是希望达到人类程度的理解。
[0003]以往基于深度学习的计算机视觉研究在图像处理任务中取得了突出的成果。YOLO(You Only Look Once)、SSD(Single Shot Detection)和Fast

RCNN等一系列模型都证明了深度学习技术在图像目标检测和分类任务中的成功。然而,与图像处理任务相比,视频理解任务更具有挑战性,因为它不仅需要分析目标的空间信息,还需要分析时间维度上的信息。虽然在图像处理领域有很多可以借鉴的技术和研究方法,但是由于视频时间维数的增加所带来的很多问题仍然需要解决。目前,视频理解的研究还处于起步阶段。其中,C3D网络方法开创性地将传统的二维卷积扩展到三维卷积,并将其应用到Convolutional Neural Networks(CNN)模型中学习时空特征。Two

Stream CNNs方法利用两个独立的CNNs分别学习空间和时间特征,并融合这两个特征来训练目标的动作识别分类器。这种双时空流的思想也得到了业界的广泛认可,许多后续的方法也借鉴了双流卷积神经网络的思想。Recurrent Neural Networks(RNNs)能够捕获视频序列中的时间动态信息,并在视频理解领域进行了一些尝试。另外Long Short

Term Memory(LSTM)作为RNNs的变体被用来识别人类行为。
[0004]但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:
[0005]1、基于CNNs的方法只能检测到视频中每一帧信息,却无法识别出帧与帧之间的关系,无法应用于视频理解当中;
[0006]2、基于RNNs及LSTM时空模型的方法,虽然可以较为准确分辨出视频中的时序信息(即动作),但其网络中存在稠密的全连接层,导致计算规模非常庞大,运算速度非常缓慢,需要大量的存储和计算资源,更无法实现在边缘或移动设备上;
[0007]3、C3D和Two

Stream CNNs在功能上不支持目标的检测,只可以检测和识别视频区间的动作,同时速度和精度也无法满足需求,也不能在嵌入式设备上实时实现。
[0008]基于此,本专利技术设计了基于算法及硬件协同设计的大规模视频理解方法及系统,以解决上述问题。

技术实现思路

[0009]为了解决目前
技术介绍
提及的技术问题,本专利技术的目的是提供基于算法及硬件协同设计的大规模视频理解方法及系统。
[0010]为了实现上述目的,本专利技术采用如下技术方案:
[0011]基于算法及硬件协同设计的大规模视频理解方法,包括:
[0012]获取精度训练视频检测网络后的完整实例模型;
[0013]对该实例模型的权重和激活值进行低值量化,并在原始数据集上再度训练后得到量化值模型;
[0014]深度张量分解压缩网络,得到简化后的模型;
[0015]导出该简化后模型的协议缓冲区格式,其中,该协议缓冲区格式包括计算原理图和模型参数;
[0016]筛选该模型原理图相应部分,分别对嵌入式C代码模型转换和量化网络加速器加速处理;
[0017]结合该嵌入式C代码模型和该加速器搭建完整网络。
[0018]优选的,在筛选符合所述嵌入式C代码模型转换的过程中,还包括:
[0019]判断该模型原理图是否满足C代码模型转换的预定要求,并对满足要求的部分进行嵌入式C代码模型的转化。
[0020]优选的,在筛选符合所述量化网络加速器加速处理的过程中,还包括:
[0021]判断该模型原理图被嵌入式C代码模型筛选转换后的余下部分是否满足预定要求,对满足要求的部分通过Xilinx HLS进行量化网络加速器的加速处理。
[0022]优选的,所述精度训练视频检测网络为TensorFlow框架。
[0023]优选的,所述量化网络加速器包括如下二者之一:FRGA或ARM。
[0024]基于算法及硬件协同设计的大规模视频理解系统,包括:
[0025]实例模型训练模块,用于获取精度训练视频检测网络后的完整实例模型;
[0026]模型量化模块,用于对实例模型权重和激活值低值量化处理,并对原始数据集进行再度训练;
[0027]模型简化模块,用于对量化处理后得到模型进行深度张量分解压缩;
[0028]模型导出模块,用于导出简化模型的协议缓冲区格式,其中,该协议缓冲区格式包括计算原理图和模型参数;
[0029]模型原理图处理模块,用于筛选该模型原理图相应部分,分别对嵌入式C代码模型转换和量化网络加速器加速处理;以及
[0030]网络搭建模块,用于结合该嵌入式C代码模型和该加速器搭建完整网络。
[0031]本专利技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0032]1、通过面向边缘设备的视频分析模型、低值化深度学习优化、张量压缩算法优化以及视频分析系统在加速器上的实现与加速,完成了对视频的理解与分析的实现、加速以及加速器的搭建;
[0033]2、通过在CNN的特征提取器加上处理时序信息的RNN网络去搭建时空模型,并通过CNN提取精炼过的时序特征信息Time

Series Features(ts

feature)来作为RNN网络的输入,可以同时实现单帧图像空间信息的分析以及时间序列上的信息分析,减少参数量、存储量和运算次数,并高度优化和集成后能够在边缘或移动设备上较易实现。
附图说明
[0034]以下结合附图和具体实施方式来进一步详细说明本专利技术:
[0035]图1为本专利技术实施例视频理解方法的框架图;
[0036]图2为本专利技术实施例视频理解方法的流程图;
[0037]图3为本专利技术实施例精炼特征值信息的时空计算模型的流程图;
[0038]图4为本专利技术实施例训练量化算法的流程图;
[0039]图5为本专利技术实施例张量化分解的流程图;
[0040]图6为本专利技术实施例视频理解系统的构架图。
具体实施方式
[0041]以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效。
[0042]请参阅图1至图5。本专利技术实施例提供一种技术方案:基于算法及硬件协同设计的大规模视频理解方法,包括:
[0043]S102、获取精度训练视频检测网络后的完整实例模型;
[0044]S104、对该实例模型的权重和激活值进行低值量化,并在原始数据集上再度训练后得到量化值模型;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于算法及硬件协同设计的大规模视频理解方法,其特征在于,包括:获取精度训练视频检测网络后的完整实例模型;对该实例模型的权重和激活值进行低值量化,并在原始数据集上再度训练后得到量化值模型;深度张量分解压缩网络,得到简化后的模型;导出该简化后模型的协议缓冲区格式,其中,该协议缓冲区格式包括计算原理图和模型参数;筛选该模型原理图相应部分,分别对嵌入式C代码模型转换和量化网络加速器加速处理;结合该嵌入式C代码模型和该加速器搭建完整网络。2.根据权利要求1所述的基于算法及硬件协同设计的大规模视频理解方法,其特征在于,在筛选符合所述嵌入式C代码模型转换的过程中,还包括:判断该模型原理图是否满足C代码模型转换的预定要求,并对满足要求的部分进行嵌入式C代码模型的转化。3.根据权利要求1所述的基于算法及硬件协同设计的大规模视频理解方法,其特征在于,在筛选符合所述量化网络加速器加速处理的过程中,还包括:判断该模型原理图被嵌入式C代码模型筛选转换后的余下部分是否满足预定要求,对满足要求的部分通过Xilinx HLS进行量化网...

【专利技术属性】
技术研发人员:杨明伦程远王胤睿
申请(专利权)人:辛米尔视觉科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1