【技术实现步骤摘要】
一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
本专利技术属于视频处理
,尤其涉及一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法。
技术介绍
随着计算机技术的高速发展,深度学习在计算机领域的应用越来越广泛。其中,通过对摄像头采集的视频流中的人体姿态进行估计拥有广泛的应用价值。通过对视频流中每帧图像中人体的姿态进行估计,可以进一步进行行为识别,从而判断人的行为,可用于智能监控;此外,也可以通过人体姿态估计进行人机交互,开发各种人机交互应用程序。而目前基于深度学习的人体姿态估计算法由于网络模型结构庞大、后处理流程复杂等因素,导致算法耗时非常多,难以做到实时处理,这就限制了人体姿态估计的应用。
技术实现思路
本专利技术提供一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法,能够在嵌入式终端或服务器端进行快速准确的多人人体姿态估计,从而进行进一步的行为识别或人机交互。本专利技术是这样实现的,一种基于人工智能深度学习技术的计算机视觉的实时多人 ...
【技术保护点】
1.一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法,其特征在于:包括以下步骤:/n获取摄像头采集的当前帧图像,并进行归一化操作;/n使用预训练的神经网络模型与后处理算法对当前帧图像进行多人姿态估计,得到图像中所有人的人体关键点和人体骨架。/n
【技术特征摘要】
1.一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法,其特征在于:包括以下步骤:
获取摄像头采集的当前帧图像,并进行归一化操作;
使用预训练的神经网络模型与后处理算法对当前帧图像进行多人姿态估计,得到图像中所有人的人体关键点和人体骨架。
2.如权利要求1所述的一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法,其特征在于:所述获取摄像头采集的当前帧图像,并进行归一化操作,具体为:
从摄像头获取当前帧的RGB图片;
对所述图片使用预设参数进行归一化处理;
将所述图片缩放到宽576*高320。
3.如权利要求2所述的一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法,其特征在于:所述神经网络模型与后处理算法对当前帧图像进行多人姿态估计,具体为:
所述神经网络模型的主干网络为ResNet50结构,输入大小为宽576、高320,使用ResNet50的卷积部分提取多尺度特征,分别从ResNet50的四个残差组结构获得四种大小的featuremaps;接着将第一组featuremaps进行2倍上采样后与第二组featuremaps按通道拼接,前两组拼接后的featuremaps经过卷积层与2倍上采样层后与第三组featuremaps按通道拼接,前三组拼接后的featuremaps经过卷积层与2倍上采样层后与第四组featuremaps按通道拼接;将第一组featuremaps经过四个bottleneck结构后进行8倍上采样,将上述前两组拼接后的featuremaps经过卷积层融合后再经过三个bottleneck结构后进行4倍上采样,将上述前三组拼接后的featuremaps经过卷积层融合后再经过两个bottleneck结构后进行2倍上采样,将前四组拼接后的featuremaps经过卷积层融合后再经过一个bottleneck结构,最后将8倍上采样、4倍上采样、2倍上采样和最后一个bottleneck结构输出的featuremaps按照通道进行拼接,经过卷积层后得到输出featuremaps,通道数为35,宽为144,高为80;
使用后处理算法对神经网络模型输出的featuremaps进行后处理;取输出featuremaps第一个通道的144*80个数据,对每个值求sigmoid函数值,根据提前设定的阈值,找到144*80个sigmoid输出值中大于阈值的值及其位置,并将所有满足条件的点进行点的非极大值抑制,经过非极大值抑制以后剩余的满足条件的点为输入图像中每个人体的中心点;取featuremaps第二通道的144*80个数据,将人体中心点作为第一个人体关键点的父节点,找到该二维矩阵中每个父节点坐标处的值,该值与人体中心点的横坐标值相加得出第一个人体关键点的横坐标;从featuremaps第三个通道的144*80个数据,找到该二维矩阵中第一个人体关键点父节点坐标...
【专利技术属性】
技术研发人员:徐邵凯,
申请(专利权)人:厦门瑞为信息技术有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。