【技术实现步骤摘要】
一种基于图像压缩的人体动作分析方法
本专利技术涉及人体运动动作分析
,特别是涉及一种基于图像压缩的人体动作分析方法。
技术介绍
近年来随着计算机技术与机器学习的发展和应用,基于视频的时间序列人体动作分析技术迅速兴起并得到了广泛的关注。图像和视频相对于文字所展示的信息具有直观,生动形象的特点,使得人们更加容易获取信息。然而图像和视频本身具有巨大的数据量,使得其在网络传输过程中对网络带宽具有很高的要求,同时也大大增加了存储成本。当前基于视频的时间序列的人体动作分析仍是计算机视觉中一个极具挑战性的课题,涉及图像处理、模式识别、机器学习等多个学科,在智能监控、人机交互、康复运动、体育训练评估等领域有着广泛的应用前景。图像压缩的目的是为了减少图像的冗余信息和不相关信息,以低比特率存储或传输图像。对于图像来说,低频分量比高频分量重要的多,低频分量代表着图像中亮度或者灰度值变化缓慢的区域,也就是图像中大片平坦的区域,描述了图像的主要部分。高频分量对应着图像变化剧烈的部分,也就是图像的边缘或者噪声以及细节部分。通常来说,图像压 ...
【技术保护点】
1.一种基于图像压缩的人体动作分析方法,其特征在于,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建,具体步骤1:通过手机采集人体正面正摇双脚跳过程中的视频流数据,记录并保存目标对象的基本信息,包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据;/n步骤2:对不同设备采集的视频流数据进行高和宽的统一设定,将视频高设定为530cm,宽设定为460cm,构建深度学习的端到端的图像压缩框架,用以对视频的每一帧进行压缩,其步骤为:/n步骤A1:获取手机或摄像机拍摄的视频数据,转换成统一的尺度 ...
【技术特征摘要】
1.一种基于图像压缩的人体动作分析方法,其特征在于,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建,具体步骤1:通过手机采集人体正面正摇双脚跳过程中的视频流数据,记录并保存目标对象的基本信息,包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据;
步骤2:对不同设备采集的视频流数据进行高和宽的统一设定,将视频高设定为530cm,宽设定为460cm,构建深度学习的端到端的图像压缩框架,用以对视频的每一帧进行压缩,其步骤为:
步骤A1:获取手机或摄像机拍摄的视频数据,转换成统一的尺度;
步骤A2:在编码器端构建第一块卷积神经网络,来获得原始图像帧的特征表示信息,然后构建第二块卷积神经网络,对解码后的图像帧的特征表示信息进行复原,最终得到复原图像;
视频帧的压缩过程分为编码层和解码层,其中所述的编码层为三层卷积层并且第二层和第三层加入了批归一化,激活函数选择Relu,编码层的最后一层加入了Squeeze-and-Excituatuin块;解码层第一层使用了卷积层,第二层和第四层使用了subpixel层,第三层加入了Squeeze-and-Excituatuin块;
其中所述的Squeeze-and-Excitation块是一个计算单元,可以为任何给定的变换构建:Ftr:X→U,X∈RW′×H′×C′,U∈RW×H×C,Ftr为一个标准的卷子算子,V=[v1,v2,...,vC]表示学习到的一组滤波器核,vc指的是第c个滤波器的参数U=[u1,u2,...,uC],其中*代表卷积,X=[x1,x2,...,xC′],是2D空间核表示vc的一个通道作用于对应的通道X,W′,H′,C′为原始图像的长和宽以及通道数,W,H,C为经过一次变化的得到的新的长和宽以及通道数;
其中所述的subpixel层是一种巧妙的图像及特征图上采样的方法;
步骤3:对视频数据进行预处理,并对视频中每一帧的人体进行姿态估计,得到关键点坐标,其步骤如下:
步骤B1:获取压缩后的图像帧;
步骤B2:利用Open-pose方法对获得视频中每帧人体的鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝这14个关节点的坐标位置,坐标表示为Ci=(cxi,cyi),其中i从1到14;
步骤B3:Open-pose利用预测的关键点和真实值之间的高斯距离来定义关键点的置信度,并将置信度归一化到[0,1]的范围,在此定义为关键点的得分score并得到输出结果inputsi=(xi,yi,scorei);
步骤B4:对14个关键点得分求均值和方差,并将均值和方差的和作为整体关键点的得分结果,其中:
score总=score平均+score标准差;
步骤4:利用图像开窗的技术对关键点预测低的位置进行开窗并重新识别,利用全局信息和局部提升关键点的预测准确度,其步骤为:
步骤C1:利用Open-pose得到inputsi=(xi,yi,scorei),并对score设置阈值th,并找出小于阈值th的关键点;
步骤C2:对小于阈值的关键点,在关键点周围进行开窗,并将窗内的图像帧放入修改了输入的Open-pose网络中;
步骤C3:利用全局信息来更新局部帧中获得的关键点坐标,其中所述的图像开窗技术即,在原始图像中突出需要的目标信息,目的是为了检测此窗口内的关键点坐标位置;
步骤5:为了进一步提升算法对拍摄角度、目标远近、录制过程抖动等因素的鲁棒性,分别将关键点坐标进行归一化、转化为相对坐标以及标准化处理;关键点坐标的大小范围是相对于视频分辨率的,将坐标值(x,y)分别比视频分辨率(vw,vh)归一化到(0,1)范围,减小了不同视频分辨率以及不同肢体关键点的数值差异;然后选取脖颈部位的关键点(x0,y0)作为原点,则采用如下公式对其它坐标...
【专利技术属性】
技术研发人员:崔莉亚,刘皓东,赵红领,李润知,王菁,
申请(专利权)人:郑州大学,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。