一种基于递归卷积神经网络的视频内容语义理解的方法技术

技术编号：20843699 阅读：77 留言：0更新日期：2019-04-13 08:51

本发明专利技术涉及一种基于递归卷积神经网络的视频内容语义理解的方法，用于对网络视频、监控视频等视频数据进行内容分析与分类。该方法通过将卷积神经网络放置于递归神经网络内部作为内核，提出视频状态概念，实现了在视频数据中目标检测与帧间关联的有机结合，通过在视频帧间进行递归的卷积操作，实现了视频特征的准确、高效提取，获得了更具有语义表征的视频表征，并以此为基础，采用人工神经网络全连接分类器完成视频的分类、事件检测、场景识别等任务。本发明专利技术提出的方法克服了传统方法中的信息丢失、特征表征能力差、训练收敛困难等问题，是一种准确、高效、先进并具有广阔应用前景的方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于递归卷积神经网络的视频内容语义理解的方法
本专利技术涉及一种基于递归卷积神经网络的视频内容语义理解的方法，属于计算机视觉

技术介绍
视频内容理解是计算机视觉中重要的基本问题之一，其目标是对视频中的图像进行特征提取并对视频帧间关系进行建模，最终获得整段视频的特征表示，以利于后续的图像分析和视频的语义理解，可用于自动驾驶、监控视频实时智能检测及网络视频审核等
传统的视频内容处理方法有单纯单帧图像处理、光流法、基于卷积神经网络的特征提取方法、基于递归神经网络的特征提取方法或者综合使用多种方法。近年来，以神经网络为基础的深度学习技术的发展和应用，极大地推动了视频内容理解的发展。随着网络短视频应用与视频监控技术的发展与广泛应用，利用人工智能技术对视频数据进行特征提取与内容分析成为技术与研究的热点。通过视频内容理解技术，可对视频中的人类动作、场景信息、事件信息做出高度相关的特征表示，通过对视频数据进行定量的分析实现视频内容的语义级表示，为后续的视频分类与检测提供支持，智能化地自动做出检测、分类、审核与实时预警处理。可以自动化的、准确的特征提取与表示，大量减少相关领域的人力成本，并基于此实现网络内容管理、监控视频实时与离线检测、自动驾驶等功能。传统的视频内容理解算法总体可分为单帧图像处理方法、光流法或者综合使用多种方法。单帧图像处理方法忽略了视频的帧间关系，通过单帧图像内容估计视频总体内容，存在漏检、错检等严重不准确的情况，并缺乏视频级别的复杂内容表示能力。光流法关注于视频帧间像素变化，模糊的对视频帧间变化做出了量化分析，缺乏视频中实体检测等具...

【技术保护点】
1.一种基于递归卷积神经网络的视频内容语义理解的方法，其特征在于，所述递归卷积神经网络的第一层是数据输入层，第二层、第三层、第四层、第五层、第六层都是依次级联的卷积层，卷积核大小均为3*3，卷积核数目依次是64、256、512、128、32个；所述数据输入层，接收原始视频数据，将该输入与一个长宽相同的32通道全零状态数据在通道维度上级联，作为数据输入层的输出；第二层、第三层、第四层、第五层、第六层采用周围零填充的方式，获得与输入尺度相同的输出；第二层、第三层、第四层、第五层、第六层组成五层卷积神经网络，该五层卷积操作依次以前一层的输出作为本层的输入，第六层输出一方面展开为1*32*128*256尺度的形式后输出到神经元数目依次为32*128*256、128*256、1024、101个的全连接神经网络构成的神经网络分类器中，该分类器的输出作为该递归卷积神经网络的最终输出；第六层输出另一方面不经过展开，输送给该递归卷积神经网络在下一个视频帧的时候，作为下一时刻的状态数据；包括步骤如下：A、训练阶段(1)获取具有标注信息的视频数据集作为递归卷积神经网络的训练数据，标注信息是指视频中人类动作类...

【技术特征摘要】
2018.10.29 CN 20181126844481.一种基于递归卷积神经网络的视频内容语义理解的方法，其特征在于，所述递归卷积神经网络的第一层是数据输入层，第二层、第三层、第四层、第五层、第六层都是依次级联的卷积层，卷积核大小均为3*3，卷积核数目依次是64、256、512、128、32个；所述数据输入层，接收原始视频数据，将该输入与一个长宽相同的32通道全零状态数据在通道维度上级联，作为数据输入层的输出；第二层、第三层、第四层、第五层、第六层采用周围零填充的方式，获得与输入尺度相同的输出；第二层、第三层、第四层、第五层、第六层组成五层卷积神经网络，该五层卷积操作依次以前一层的输出作为本层的输入，第六层输出一方面展开为1*32*128*256尺度的形式后输出到神经元数目依次为32*128*256、128*256、1024、101个的全连接神经网络构成的神经网络分类器中，该分类器的输出作为该递归卷积神经网络的最终输出；第六层输出另一方面不经过展开，输送给该递归卷积神经网络在下一个视频帧的时候，作为下一时刻的状态数据；包括步骤如下：A、训练阶段(1)获取具有标注信息的视频数据集作为递归卷积神经网络的训练数据，标注信息是指视频中人类动作类别，对视频数据集进行结构化处理，并分割为训练集和测试集；(2)对步骤(1)得到的训练集进行随机采样，获得一批用于训练的样本，采用全零方式初始化所述递归卷积神经网络的隐藏层状态；(3)将视频的当前帧输入所述递归卷积神经网络，与隐藏层状态在图像的通道层进行连接，采用五层卷积神经网络进行特征提取，并以五层卷积神经网络的最后一层的输出作为新的隐藏层状态；(4)重复执行步骤(3)，直到视频输入结束；(5)将最终的隐藏层状态...

【专利技术属性】
技术研发人员：李玉军，冀先朋，邓媛洁，马宝森，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人