当前位置: 首页 > 专利查询>清华大学专利>正文

一种获取视频中人群空间位置的方法技术

技术编号:23558714 阅读:24 留言:0更新日期:2020-03-25 04:11
本发明专利技术提出一种获取视频中人群空间位置的方法,属于城市空间分析技术领域。该方法首先获取待分析空间视频,并提取相应的图像;利用卷积神经网络模型对每张图像进行目标检测;对目标检测结果中保留识别结果为人的目标识别框,利用几何算法将每张图像中人的位置还原为平面图或俯视图中的坐标,得到视频中人群空间位置信息。本发明专利技术具有能够快速、准确的获取人群的实际地理位置信息的优点,且在城市空间分析和城乡规划评估等方面有较好的应用前景。

A method to get the spatial position of people in video

【技术实现步骤摘要】
一种获取视频中人群空间位置的方法
本专利技术属于城市空间分析
,特别提出一种获取视频中人群空间位置的方法。
技术介绍
信息
的不断发展为大规模的数据处理提供了条件,特别是近年来深度学习技术的发展极大地推动了计算机视觉领域的研究,使得从常见的录影设备中获得的数据,如照片、视频等,有了新的分析手段。视频图像中蕴含了非常丰富的环境特征和人群行为信息,利用视频分析人群行为可以帮助我们更直观地理解人群的行为特征。如果能够获取视频中人群空间位置,将极大的提升城市空间分析的精度和效率。现有的通过视频获取人群信息的方法为,在研究区域内布置监控摄像头,并使用卷积神经网络中的目标检测算法,对监控摄像头所录视频内人群行为进行分析。在此基础上通过将人群信息使用热力图形式进行可视化,可获取人群对于空间的使用情况。目前通过视频获取的人群信息仅能在显示视频中人群位置,而无法将人群信息精确转换至实际的地理空间中。这是由于目前图像处理中使用的透视法无法还原因为透视导致的空间变形。以现有的图像变现方法为例,对于一个形状为正方形的广场,其四个顶点A、B、C、D的投影坐标分别为[0,0]、[0,1]、[1,1]和[1,0],其中点E的坐标为[0.5,0.5]。假设在使用摄像设备对广场进行拍摄后,正方形的广场根据单点透视的原理变形为梯形,顶点A、B、C、D在图像上的坐标变为[0,0]、[0,1]、[0.8,0.6]和[0.2,0.6],通过对角线交点法可知中点E的坐标变为[0.5,0.375]。现在Photoshop等图像软件使用的拉伸复原法为将图像的边框与原空间进行匹配,及保持A、B点位置不变,将C、D点的纵坐标增大66.7%,横坐标至0.5的距离增加66.7%,使A、B、C、D在图像上从[0,0]、[0,1]、[0.8,0.6]和[0.2,0.6]复原为[0,0]、[0,1]、[1,1]和[1,0]。但此时中的E的坐标为[0.5,0.625],而不是正确的[0.5,0.5]。因此使用此方法获取人群位置会存在很大误差。而空间规划和设计所需要的人群信息均是依托于地理坐标系或投影坐标系,无法获取图像或视频中人群在空间中的准确位置,将导致视频中的人群信息难以被用于支撑相关工作。
技术实现思路
本专利技术的目的是为克服已有技术的不足之处,提出一种获取视频中人群空间位置的技术。本专利技术具有能够快速、准确的获取人群的实际地理位置信息的优点,且在城市空间分析和城乡规划评估等方面有较好的应用前景。本专利技术提出一种获取视频中人群空间位置的方法,其特征在于,包括以下步骤:1)获取待分析空间视频;获取反映待分析空间中人群活动的待分析空间视频,所述视频无镜头失真、拍摄视角固定、视频覆盖完整的待分析空间、视频中在待分析空间中活动的人为完整图像且视频中人的像素值大于2像素;视频长度不小于15分钟;2)从步骤1)获取的视频中提取图像;按照设定的帧数间隔从步骤1)获取的视频中提取图像;所述帧数间隔计算表达式如下:TI=GW/AS*FN其中,TI为帧数间隔;GW为待分析空间对应的平面图或俯视图中分析网格的边长,AS为人平均运动速度,FN为视频拍摄帧率;3)利用卷积神经网络模型对步骤2)得到的每张图像进行目标检测;利用ssd_resnet_50_fpn作为目标检测的卷积神经网络模型,所述模型的输入是步骤2)得到的每张图像,模型的输出包括:输入图像对应的识别范围,该图像中每个识别范围的置信度,每个识别范围中目标的类别以及该图像对应的帧数序号;其中每个识别范围对应一个目标识别框,每个识别范围包含四个数值,分别代表在输入图像目标识别平面直角坐标系下该识别范围对应的目标识别框的左下角X坐标、左下角Y坐标、右上角X坐标和右上角Y坐标,记为(Xa,Ya,Xc,Yc),每个坐标值取值范围均为0至1;其中,所述目标识别平面直角坐标系的原点为图像左上角顶点,X轴从上至下取值范围为0到1,Y轴从左至右取值范围为0到1;4)利用几何算法将每张图像中人的位置还原为平面图或俯视图中的坐标,得到步骤1)获取的视频中人群空间位置信息;具体步骤如下:4-1)利用步骤3)的结果,对每张图像,保留卷积神经网络模型输出中目标类别为1的目标识别框;4-2)获取待分析空间的平面图或俯视图,在平面图或俯视图中,建立待分析空间最小包络正方形,该正方形的四个顶点分别记为左下角顶点PA、右下角顶点PB、右上角顶点PC和左上角顶点PD;采用平面图或俯视图的分析网格平面直角坐标系分别标记PA、PB、PC和PD的X、Y坐标;其中,所述平面图或俯视图的分析网格平面直角坐标系原点为该平面图或俯视图中最小包络正方形左下角顶点PA,水平从左到右为X轴正方向、垂直从下到上为Y轴正方向;4-3)任意选取一张步骤2)中获取的图像,在该图像中标记步骤4-2)中得到待分析空间最小包络正方形在该图像中对应的四边形的四个顶点,分别记为左下角顶点A、右下角顶点B、右上角顶点C和右上角顶点D,并获取A、B、C、D在以该图像左下角作为坐标原点、水平从左到右为X轴正方向、垂直从下到上为Y轴正方向的该图像分析网格平面直角坐标系中X、Y坐标;4-4)使用几何算法按照待分析空间的真实面积将步骤2)得到的每张图像中的待分析空间划分为4n个分析网格;获取该图像中每个分析网格的四个顶点在图像分析网格平面直角坐标系中的坐标;其中,n的计算表达式如下:n=|(L/GW)^0.25|-1式中,L为每张图像中待分析空间最小包络正方形的边长;4-5)对步骤2)获取的每张图像,计算经过步骤4-1)保留的每个识别框中底边中点在该图像目标识别平面直角坐标系中的坐标,并将该坐标转换为图像分析网格平面直角坐标系对应的坐标;其中,目标识别平面直角坐标系中目标识别框底边中点坐标为:[Xc,(Ya+Yc)/2]转换后,图像分析网格平面直角坐标系中目标识别框底边中点坐标为:[(Ya+Yc)/2,1-Xc]4-6)统计所有图像中每个识别框底边中点在各个分析网格中出现的次数,得到每个分析网格对应的统计结果;4-7)在平面图或俯视图分析网格平面直角坐标系中,根据PA、PB、PC和PD的X、Y坐标,使用几何算法将平面图或俯视图中的最小包络正方形化分为4n个分析网格;4-8)将步骤4-6)得到的每个分析网格对应的统计结果赋值到步骤4-7)得到的平面图或俯视图中的4n个分析网格中;4-9)按照各分析网格中底边中点数量从低到高的顺序利用从浅到深的颜色分别对步骤4-4)和步骤4-8)获得的分析网格进行填色,得到视频中人群空间位置的可视化结果;步骤4-6)获得的统计结果和步骤4-9)获得的可视化结果即为从视频中获取的人群空间位置信息。本专利技术的特点及有益效果:相比于现有获取视频内空间技术的有偏性,使用本专利技术不存在图像中透视变形导致的位置偏差,有效的弥补了现有方法的缺点,其优点体现在以下三个方面:本专利技术使本文档来自技高网
...

【技术保护点】
1.一种获取视频中人群空间位置的方法,其特征在于,包括以下步骤:/n1)获取待分析空间视频;/n获取反映待分析空间中人群活动的待分析空间视频,所述视频无镜头失真、拍摄视角固定、视频覆盖完整的待分析空间、视频中在待分析空间中活动的人为完整图像且视频中人的像素值大于2像素;视频长度不小于15分钟;/n2)从步骤1)获取的视频中提取图像;/n按照设定的帧数间隔从步骤1)获取的视频中提取图像;所述帧数间隔计算表达式如下:/nTI=GW/AS*FN/n其中,TI为帧数间隔;GW为待分析空间对应的平面图或俯视图中分析网格的边长,AS为人平均运动速度,FN为视频拍摄帧率;/n3)利用卷积神经网络模型对步骤2)得到的每张图像进行目标检测;/n利用ssd_resnet_50_fpn作为目标检测的卷积神经网络模型,所述模型的输入是步骤2)得到的每张图像,模型的输出包括:输入图像对应的识别范围,该图像中每个识别范围的置信度,每个识别范围中目标的类别以及该图像对应的帧数序号;其中每个识别范围对应一个目标识别框,每个识别范围包含四个数值,分别代表在输入图像目标识别平面直角坐标系下该识别范围对应的目标识别框的左下角X坐标、左下角Y坐标、右上角X坐标和右上角Y坐标,记为(Xa,Ya,Xc,Yc),每个坐标值取值范围均为0至1;其中,所述目标识别平面直角坐标系的原点为图像左上角顶点,X轴从上至下取值范围为0到1,Y轴从左至右取值范围为0到1;/n4)利用几何算法将每张图像中人的位置还原为平面图或俯视图中的坐标,得到步骤1)获取的视频中人群空间位置信息;具体步骤如下:/n4-1)利用步骤3)的结果,对每张图像,保留卷积神经网络模型输出中目标类别为1的目标识别框;/n4-2)获取待分析空间的平面图或俯视图,在平面图或俯视图中,建立待分析空间最小包络正方形,该正方形的四个顶点分别记为左下角顶点PA、右下角顶点PB、右上角顶点PC和左上角顶点PD;采用平面图或俯视图的分析网格平面直角坐标系分别标记PA、PB、PC和PD的X、Y坐标;其中,所述平面图或俯视图的分析网格平面直角坐标系原点为该平面图或俯视图中最小包络正方形左下角顶点PA,水平从左到右为X轴正方向、垂直从下到上为Y轴正方向;/n4-3)任意选取一张步骤2)中获取的图像,在该图像中标记步骤4-2)中得到待分析空间最小包络正方形在该图像中对应的四边形的四个顶点,分别记为左下角顶点A、右下角顶点B、右上角顶点C和右上角顶点D,并获取A、B、C、D在以该图像左下角作为坐标原点、水平从左到右为X轴正方向、垂直从下到上为Y轴正方向的该图像分析网格平面直角坐标系中X、Y坐标;/n4-4)使用几何算法按照待分析空间的真实面积将步骤2)得到的每张图像中的待分析空间划分为4...

【技术特征摘要】
1.一种获取视频中人群空间位置的方法,其特征在于,包括以下步骤:
1)获取待分析空间视频;
获取反映待分析空间中人群活动的待分析空间视频,所述视频无镜头失真、拍摄视角固定、视频覆盖完整的待分析空间、视频中在待分析空间中活动的人为完整图像且视频中人的像素值大于2像素;视频长度不小于15分钟;
2)从步骤1)获取的视频中提取图像;
按照设定的帧数间隔从步骤1)获取的视频中提取图像;所述帧数间隔计算表达式如下:
TI=GW/AS*FN
其中,TI为帧数间隔;GW为待分析空间对应的平面图或俯视图中分析网格的边长,AS为人平均运动速度,FN为视频拍摄帧率;
3)利用卷积神经网络模型对步骤2)得到的每张图像进行目标检测;
利用ssd_resnet_50_fpn作为目标检测的卷积神经网络模型,所述模型的输入是步骤2)得到的每张图像,模型的输出包括:输入图像对应的识别范围,该图像中每个识别范围的置信度,每个识别范围中目标的类别以及该图像对应的帧数序号;其中每个识别范围对应一个目标识别框,每个识别范围包含四个数值,分别代表在输入图像目标识别平面直角坐标系下该识别范围对应的目标识别框的左下角X坐标、左下角Y坐标、右上角X坐标和右上角Y坐标,记为(Xa,Ya,Xc,Yc),每个坐标值取值范围均为0至1;其中,所述目标识别平面直角坐标系的原点为图像左上角顶点,X轴从上至下取值范围为0到1,Y轴从左至右取值范围为0到1;
4)利用几何算法将每张图像中人的位置还原为平面图或俯视图中的坐标,得到步骤1)获取的视频中人群空间位置信息;具体步骤如下:
4-1)利用步骤3)的结果,对每张图像,保留卷积神经网络模型输出中目标类别为1的目标识别框;
4-2)获取待分析空间的平面图或俯视图,在平面图或俯视图中,建立待分析空间最小包络正方形,该正方形的四个顶点分别记为左下角顶点PA、右下角顶点PB、右上角顶点PC和左上角顶点PD;采用平面图或俯视图的分析网格平面直角坐标系分别标记PA、PB、PC和PD的X、Y坐标;其中,所述平面图或俯视图的分析网格平面直角坐标系原点为该...

【专利技术属性】
技术研发人员:侯静轩龙瀛陈龙
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1