基于视觉感知与人工智能的动作提名方法技术

技术编号:21833838 阅读:24 留言:0更新日期:2019-08-10 18:26
本发明专利技术公开了基于视觉感知与人工智能的动作提名方法,所述方法包括以下步骤:步骤1、利用I3D网络提取视频的双流特征向量;步骤2、将双流特征向量输入至堆叠的残差因果卷积模块中,进行时序建模并进行动作概率评估;步骤3、根据边界决策分析获得待选动作提名片段及其集合ψp;步骤4、对待选动作提名片段的集合ψp进行联合概率动作密度排序处理,得到有效动作提名片段。本发明专利技术所述方法在动作提名过程中不需要滑动窗户或锚箱,同时,本发明专利技术所述方法设计了一个轻量的联合概率动作密度排序策略,不需要再构建复杂的神经网络,同时这个策略可解释性强,效果很好。

Action Nomination Method Based on Visual Perception and Artificial Intelligence

【技术实现步骤摘要】
基于视觉感知与人工智能的动作提名方法
本专利技术涉及动作提名技术,尤其涉及基于视觉感知与人工智能的动作提名方法。
技术介绍
随着相机、监控录像等录像设备的日益普及以及互联网的快速发展,视频资料繁多,同时,视频监控也越来越多地承担起了公共场所内的安全保障任务。如果需要对视频内容进行提取或查找时,单靠肉眼分析非常耗时耗力,而且其准确率不具有严格的客观性,尤其对于长视频、随着分析时间延长可能会出现审视疲劳而导致查找结果准确率降低。在现有技术中,也有一些公开的模型用于动作提名:SCNN网络采用了多尺度滑窗的策略,缺点是多尺度的方式计算量太大,而且滑窗策略无法覆盖任意长度的动作提名片段。DAPs和SST采用RNN取代多尺度滑窗的策略,计算量变小了,然而它们核心思想任然和滑窗策略一样,无法覆盖任意长度的动作提名片段,同时RNN难以训练,效果一般。TURN提出了多尺度锚窗的思想,TAL_Net使用了空洞卷积,这两个网络的核心思想仍然和滑窗企图直接输出一个完整的提名片段去覆盖真实提名片段一样,无法解决提名长度任意长的问题。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,构建的残余因果卷积模块对过去事件形成简短记忆,基于此联合概率行动密度排序机制得到有效动作片段,从而完成本专利技术。(1)本专利技术提供了基于视觉感知与人工智能的动作提名方法,所述方法包括以下步骤:步骤1、利用I3D网络提取视频的双流特征向量;步骤2、将双流特征向量输入至堆叠的残差因果卷积模块(RCCM)中,进行时序建模并进行动作概率评估;步骤3、根据边界决策分析获得待选动作提名片段及其集合ψp;步骤4、对待选动作提名片段的集合ψp进行联合概率动作密度排序处理,得到有效动作提名片段。(2)根据上述(1)所述的方法,其中,在步骤1中,所述双流特征向量包括空间流和时间流,所述空间流是由堆叠的RGB图像为输入得到的特征向量,所述时间流是由堆叠的光流图像为输入得到的特征向量;和/或在步骤2中,所述残差因果卷积模块包括空洞卷积层、层正则化层、dropout层、ReLU层和映射层。(3)根据上述(2)所述的方法,其中,在所述残差卷积模块(RCCM)中,设定卷积的步长为1,第i层神经元的感受野尺寸如式(1)所示:在式(1)中,F(i)表示第i层的感受野尺寸,F(i-1)表示第i-1层的感受野尺寸,ki、di分别代表第i层的卷积核尺寸和第i层的卷积空洞率;和/或设定顶层卷积层的感受野大小为K,则t时刻的顶层神经元接受该时刻前面的K个时刻的输入,对这K个时刻内的视频单元进行时序建模,构建短时记忆;和/或所述映射层为1*1的卷积层,在所述卷积层内设置有sigmoid激活函数,进行动作概率分数的分析,并输出3K维的向量,所述向量如式(2)所示:在式(2)中,分别表示t时刻的顶层神经元预测时刻m为动作开始、动作结束和动作正在进行的概率分数,相应地,分别表示t时刻的顶层神经元预测时刻t-K+1为动作开始、动作结束和动作正在进行的概率分数,分别表示t时刻的顶层神经元预测时刻t-K+2为动作开始、动作结束和动作正在进行的概率分数,分别表示t时刻的顶层神经元预测时刻t-1为动作开始、动作结束和动作正在进行的概率分数,分别表示t时刻的顶层神经元预测时刻t为动作开始、动作结束和动作正在进行的概率分数。(4)根据上述(3)所述的方法,其中,采用如式(3)所示损失函数对堆叠的残差因果卷积模块进行训练:L=Lstart+Lend+βLaction式(3),在式(3)中,Lstart、Lend、Laction分别表示动作开始、动作结束和动作正在进行的分数损失。β为平衡系数,用于动作开始、动作结束的分数损失与动作正在进行的分数损失之间的平衡;优选地,在式(3)中,Lstart、Lend、Laction分别通过交叉熵函数获得。(5)根据上述(1)至(4)之一所述的方法,其中,步骤3包括以下子步骤:步骤3-1、将步骤2得到概率分数调整为以当前时刻m时刻及其后面K个时刻的动作概率分数集合动作开始、动作结束和动作正在进行的概率分数集合Sm、Em、Am;步骤3-2、对概率分数集合进行边界策略分析,得到动作边界时刻,所述动作边界时刻包括动作开始时刻和动作结束时刻;步骤3-3、对动作边界进行组合,得到待选动作提名片段。(6)根据上述(5)所述的方法,其中,在步骤3-1中,以当前时刻为m时刻,得到m后面K个时刻分别为动作开始、动作结束和动作正在进行的概率分数集合Sm、Em、Am,如式(4-1)~式(4-3)所示:和/或在步骤3-2中,所述边界策略分析包括投票策略和峰值策略;优选地,所述投票策略如下进行:若Sm或Em中有3个以上(优选5个以上)的概率分数超过了0.5,那么m时刻为动作开始时刻或动作结束时刻;所述峰值策略如下进行:若或时,那么m时刻为动作开始时刻或动作结束时刻。(7)根据上述(6)所述的方法,其中,在步骤3-2中,当m时刻满足投票决策和峰值决策中的一项时,收集对应的时刻m作为动作开始时刻或动作结束时刻,分别得到动作开始时刻的集合CS和动作结束时刻CE的集合;在步骤3-3中,所述组合如下进行,设Cs中的任意元素为Ce中的任意元素为若满足则区间为一个待选动作提名片段,优选由多个待选动作提名片段集合形成待选动作提名片段的集合ψp。(8)根据上述(1)至(7)之一所述的方法,其中,在步骤4中,所述联合概率动作密度排序进行如式(5)所示处理:在式(5)中,表示表示mi时刻后面K个时刻的顶层神经元预测mi时刻为动作正在进行的概率分数的平均值,表示动作密度指标,代表了待选动作提名片段的评价动作分数密度;表示ms时刻后面K个时刻的顶层神经元预测ms时刻为动作开始的概率分数的平均值,表示me时刻后面K个时刻的顶层神经元预测me时刻为动作结束的概率分数的平均值,代表了当前待选动作提名片段拥有正确动作边界的置信度。(9)根据上述(8)所述的方法,其中,如式(5-1)所示:在式(5-1)中,表示未来j时刻的顶层神经元预测mi时刻为动作正在进行的概率分数,K表示顶层卷积层的感受野大小。(10)根据上述(9)所述的方法,其中,在联合概率动作密度排序之后,利用非极大值抑制对时间有重复的动作片段进行处理,筛选出其中dc值最大的片段,即有效动作提名片段。附图说明图1示出本专利技术所述方法的流程示意图;图2示出普通卷积与因果卷积的示意图;图3示出残差因果卷积模型的结构示意图;图4示出动作的概率分数获得过程示意图;图5示出有效地动作区域获得过程示意图;图6~7分别示出实验例得到的AR-AN曲线和R@AN=100-IoU曲线。具体实施方式下面通过附图对本专利技术进一步详细说明。通过这些说明,本专利技术的特点和优点将变得更为清楚明确。本专利技术主要关注视频分析中的动作提名任务,即给定一段未裁剪的长视频,找出该长视频中所有目标行为的开始时间和结束时间点,而不关心每段时间内的动作类别。本专利技术提供了基于视觉感知与人工智能的动作提名方法,如图1所示,所述方法包括以下步骤:步骤1、利用I3D网络提取视频的双流特征向量。根据本专利技术一种优选的实时方式,所述双流特征向量包括空间流和时间流。在进一步优选的实施方式中,所述空间流是由堆叠的RGB图像为输入得到的特征向量,所本文档来自技高网...

【技术保护点】
1.基于视觉感知与人工智能的动作提名方法,所述方法包括以下步骤:步骤1、利用I3D网络提取视频的双流特征向量;步骤2、将双流特征向量输入至堆叠的残差因果卷积模块(RCCM)中,进行时序建模并进行动作概率评估;步骤3、根据边界决策分析获得待选动作提名片段及其集合ψp;步骤4、对待选动作提名片段的集合ψp进行联合概率动作密度排序处理,得到有效动作提名片段。

【技术特征摘要】
1.基于视觉感知与人工智能的动作提名方法,所述方法包括以下步骤:步骤1、利用I3D网络提取视频的双流特征向量;步骤2、将双流特征向量输入至堆叠的残差因果卷积模块(RCCM)中,进行时序建模并进行动作概率评估;步骤3、根据边界决策分析获得待选动作提名片段及其集合ψp;步骤4、对待选动作提名片段的集合ψp进行联合概率动作密度排序处理,得到有效动作提名片段。2.根据权利要求1所述的方法,其特征在于,在步骤1中,所述双流特征向量包括空间流和时间流,所述空间流是由堆叠的RGB图像为输入得到的特征向量,所述时间流是由堆叠的光流图像为输入得到的特征向量;和/或在步骤2中,所述残差因果卷积模块包括空洞卷积层、层正则化层、dropout层、ReLU层和映射层。3.根据权利要求2所述的方法,其特征在于,在所述残差卷积模块中,设定卷积的步长为1,第i层神经元的感受野尺寸如式(1)所示:在式(1)中,F(i)表示第i层的感受野尺寸,F(i-1)表示第i-1层的感受野尺寸,ki、di分别代表第i层的卷积核尺寸和第i层的卷积空洞率;和/或设定顶层卷积层的感受野大小为K,则t时刻的顶层神经元接受该时刻前面的K个时刻的输入,对这K个时刻内的视频单元进行时序建模,构建短时记忆;和/或所述映射层为1*1的卷积层,在所述卷积层内设置有sigmoid激活函数,进行动作概率分数的分析,并输出3K维的向量,所述向量如式(2)所示:在式(2)中,分别表示t时刻的顶层神经元预测时刻m为动作开始、动作结束和动作正在进行的概率分数,相应地,分别表示t时刻的顶层神经元预测时刻t-K+1为动作开始、动作结束和动作正在进行的概率分数,分别表示t时刻的顶层神经元预测时刻t-K+2为动作开始、动作结束和动作正在进行的概率分数,分别表示t时刻的顶层神经元预测时刻t-1为动作开始、动作结束和动作正在进行的概率分数,分别表示t时刻的顶层神经元预测时刻t为动作开始、动作结束和动作正在进行的概率分数。4.根据权利要求3所述的方法,其特征在于,采用如式(3)所示损失函数对堆叠的残差因果卷积模块进行训练:L=Lstart+Lend+βLaction式(3),在式(3)中,Lstart、Lend、Laction分别表示动作开始、动作结束和动作正在进行的分数损失。β为平衡系数,用于动作开始、动作结束的分数损失与动作正在进行的分数损失之间的平衡;优选地,在式(3)中,Lstart、Lend、Laction分别通过...

【专利技术属性】
技术研发人员:王田陈阳单光存
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1