一种端到端的基于深度决策森林的人群计数方法技术

技术编号：18861513 阅读：33 留言：0更新日期：2018-09-05 14:42

本发明专利技术提供一种端到端的基于深度决策森林的人群计数方法，将视频帧图像与人数标签分布联系起来，标签分布反映了不同标签对该视频帧的贡献程度。采用深度回归森林来学习人数标签分布模型，输入测试数据便可得到对应的分布预测，其中描述程度最大的标记便是该图像数据对应的人数。本发明专利技术定义了一个基于分布的森林损失函数，使所有的树能够共同学习，并且通过变分边界可以导出叶节点预测的更新函数，从而保证了损失函数的严格下降。

An end-to-end population counting method based on deep decision forest

The invention provides an end-to-end population counting method based on depth decision forest, which associates the video frame image with the number label distribution, which reflects the contribution of different labels to the video frame. The depth regression forest is used to learn the number label distribution model, and the corresponding distribution prediction can be obtained by inputting test data. The most descriptive label is the number of people corresponding to the image data. The invention defines a forest loss function based on distribution, so that all trees can learn together, and the update function of leaf node prediction can be derived through the variational boundary, thus ensuring the strict decline of loss function.

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端的基于深度决策森林的人群计数方法
本专利技术涉及行人检测领域，更具体地，涉及一种端到端的基于深度决策森林的人群计数方法。
技术介绍
视频人群计数问题是计算机视觉领域中一个重要组成部分。目前的技术算法可以分为基于行人检测的方法，基于轨迹聚类的方法和基于特征回归的方法。基于检测的方法一般适用于人群较为稀疏的场景，不能很好解决人群拥挤遮挡问题。视觉特征轨迹聚类算法对于视频监控，一般用KLT跟踪器和聚类的方法，通过轨迹聚类得到的数目来估计人数。而基于特征的回归:建立图像特征和图像人数的回归模型，通过测量图像特征从而估计场景中的人数。由于拥挤情况下采用直接法容易受到遮挡等难点问题的影响，而间接法从人群的整体特征出发，具有大规模人群计数的能力。传统方法在提取图像特征时，往往使用手工设计特征进行提取的方法，如SIFT，HOG，LBP等，这些手工提取特征过于依赖设计者的先验知识，难以利用大数据的优势，在特征提取的效果方面也受限于各种因素的影响，深度学习与传统方法的最大不同在于，通过大量数据的训练，神经网络能够自动学习特征，相比于人工特征对人群有更好的表述能力。同时，传统特征回归算法提取的特征往往只考虑了每幅视频帧上特征的空间信息，而忽略了视频帧序列之间的时序特性。在判断确切人数的时候，人们总是习惯将猜测帧和大脑已存的视频帧相比较，然后综合比较结果估计出确切的人数。每个视频帧的人数总与相邻帧相关联。所以人群计数问题也可以转化为标记分布学习问题求解，达到信息的复用，学习出视频帧特征和标记分布之间的函数关系。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷，...

【技术保护点】
1.一种端到端的基于深度决策森林的人群计数方法，其特征在于，包括以下步骤：S1：利用深度学习框架caffe建立卷积神经网络，对视频帧图像进行深度特征提取；S2：利用卷积神经网络全连接层输出，将决策森林替代卷积神经网络的softmax层训练深度回归森林；S3：对视频帧图像按角度旋转、图像的多尺度缩放、图像的镜像以及图像金字塔缩放的操作实现图像数据增强；S4：将视频人群图片输入给卷积神经网络训练，通过反向传播不断地优化最终得到训练好的卷积神经网络模型；S5：输入测试图像得到的分布预测，其中描述程度最大的标记便是该图像对应的人数，最终预测结果是森林中所有决策树的均值。

【技术特征摘要】
1.一种端到端的基于深度决策森林的人群计数方法，其特征在于，包括以下步骤：S1：利用深度学习框架caffe建立卷积神经网络，对视频帧图像进行深度特征提取；S2：利用卷积神经网络全连接层输出，将决策森林替代卷积神经网络的softmax层训练深度回归森林；S3：对视频帧图像按角度旋转、图像的多尺度缩放、图像的镜像以及图像金字塔缩放的操作实现图像数据增强；S4：将视频人群图片输入给卷积神经网络训练，通过反向传播不断地优化最终得到训练好的卷积神经网络模型；S5：输入测试图像得到的分布预测，其中描述程度最大的标记便是该图像对应的人数，最终预测结果是森林中所有决策树的均值。2.根据权利要求1所述的端到端的基于深度决策森林的人群计数方法，其特征在于，步骤S1中，所述卷积神经网络有5个卷积层和3个全连接层，卷积神经网络中所有的卷积层都是同样大小的滤波器，尺寸为3*3，卷积步长为1，填充为1；有5个步长为2的最大池化层，最终的特征图大小只有输入图像尺寸的1/32，同时在VGG-16结构的基础上将最终全连接层的输出从1000个改为128个输出单元，对于一个输入样本x，第n个输出单元输出fn(x；θ)＝θTx，其中n∈[1,128]，θ是卷积神经网络参数。3.根据权利要求2所述的端到端的基于深度决策森林的人群计数方法，其特征在于，步骤S2中，利用决策森林来代替卷积神经网络的softmax层包括以下步骤：S21:决策森林由5棵决策树组成，记为森林中所有树都共享卷积神经网络的网络参数θ，对于第i颗树而言：(1)深度为7层，包括分裂节点和预测节点；(2)索引函数将S1的输出单元映射到决策树的分裂节点上；S22:分裂节点即决策树的非叶子节点，分裂节点集合记为每个分裂节点都定义了一个分裂函数γ是sigmod函数，使分裂函数的输出映射到[0,1]，表示分裂节点n通过该决策树的索引函数对应的神经网络的输出单元值，通过分裂函数结果得出一个样本x分类为该节点左孩子的概率tn(x；θ)；以及分类为右孩子的概率：1-tn(x；θ)；S23:预测节点是决策树的叶子节点，预测节点集合记为每个叶子节点都定义了一个概率分布函数作为预测结果输出，为了计算简便，初始设定是一个高斯分布，据上，一个样本x落入某个预测节点的概率为：其中和分别表示S22中定义的分裂节点n的左子树和右子树；Ι(·)是指示函数；tn(x；θ)为该叶子节点与决策树根节点之间路径上的分裂节点上的分裂函数，所以一个样本x在一棵决策树下最终预测对应的标记分布y的概率为：所以对于训练集定义森林的loss函数是所有树的loss函数和的均值，记为定义如下：其中N为森林中决策树的数量，其余变量如前文所示，预测节点的概率分布q和网络参数θ...

【专利技术属性】
技术研发人员：纪庆革，马天俊，朱婷，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人