【技术实现步骤摘要】
一种基于YOLOv5、TFLite量化和移动端部署的引体向上视觉识别计数系统
[0001]本专利技术涉及人工智能领域,具体涉及一种基于YOLOv5、TFLite量化和移动端部署的引体向上视觉识别计数系统。
技术介绍
[0002]引体向上,作为体育运动中的常见运动,在小学、中学甚至是大学测试中,都是学生们的必修内容。中国许多地区的中考体育考试和大学里的体能测试中都有引体向上这一项,但是引体向上计数大部分靠人工计数实现,比较费时费力。虽然前些年出现了一些智能计数器,但是大部分是依靠一些传感器进行分析,如红外线传感器、压力传感器和超声波传感器等,不仅需要安装在单杠上,而且还需要电脑等智能设备进行分析处理,操作比较繁琐。
[0003]目前,随着计算机视觉的发展,许多基于计算机视觉的引体向上计数系统涌现,大部分是基于人体关键点进行视觉识别计数的系统,通过手部弯曲度进行计数和通过膝盖弯曲度来判断是否违规。因为视角问题,有时候摄像头要斜着放才能看到角度,而且或多或少有些误差。许多计数的系统理论逻辑很清晰,但是实际拿来用,会出现各种 ...
【技术保护点】
【技术特征摘要】
1.一种基于YOLOv5、TFLite量化和移动端部署的引体向上视觉识别计数系统,其特征在于,包括:S1:引体向上的图像数据集制作。S2:使用YOLOv5s网络结构进行训练,得到训练好的权重文件。S3:将训练好的权重文件进行TFLite量化,得到量化文件。S4:使用Android Studio将量化文件进行Android移动端部署,生成应用程序APP。2.根据权利要求1所述的方法,其特征在于,步骤S1包括:S11:寻找做引体向上的视频或者图片,视频最终也会通过ffmpeg工具包转化成图片。图片素材应该包括许多个场景、多个角度和多个背景光线,素材内容越丰富和数量越多,训练得到的模型泛化能力就越好。图片素材中必须包括正手握单杠、反手握单杠、头部、伸直的膝盖和弯曲的膝盖等5种目标图像的图片,但不是每张图片中都要包含有这5种目标图像。S12:采集的图片要尽可能地多,为了保证识别效果,数量最起码不低于5000张。然后使用精灵标注助手(一个数据集制作标签的软件)进行数据集标注。我这里设定的五种目标图像对应的英文标签分别为:
①
正手握单杠:forehand、
②
反手握单杠:backhand、
③
头部:head、
④
伸直的膝盖:normal_knee、
⑤
弯曲的膝盖:abnormal_knee。然后用鼠标画一个方框将图片中出现的这五种目标图像框住,每个方框对应一个前面提到的5种英文标注中的一种。全部标注完后,导出格式选择为pascal
‑
voc,每张图片都生成了一个后缀为xml格式的标注文件。S13:我们训练使用的是后缀为txt的标注文件,于是要将标注文件进行格式转换。我们使用Python程序脚本进行批量转换。首先导入os和xml.etree.ElementTree等相关库文件,将xml文件中的像素坐标转换为txt文件中的归一化坐标,以上五种目标图像用0,1,2,3,4这5个数字表示。转换公式如公式1、公式2、公式3和公式4所示。这5个数字表示。转换公式如公式1、公式2、公式3和公式4所示。这5个数字表示。转换公式如公式1、公式2、公式3和公式4所示。这5个数字表示。转换公式如公式1、公式2、公式3和公式4所示。式中(x
min
,y
min
)——方框左上角的坐标(x
max
,y
max
)——方框右下角的坐标width,height——整张图片的宽度和高度(x,y)——归一化后的方框中心点坐标w,h——归一化后的方框的宽度和高度。3.根据权利要求2所述的方法,其特征在于,步骤S2包括:
S21:我们为了在识别准确率高的情况下保证了其检测速度,我们选取了目标检测算法YOLOv5中的YOLOv5s网络结构。YOLOv5s网络结构主要由Input、BackBone、Neck和Head四部分组成。在网络结构的Input部分,使用了Mosaic数据增强算法、自适应图片缩放算法、自适应锚框计算算法等。在网络结构的BackBone部分,在Focus结构中,将图片进行切片,然后进行Concat操作,通过卷积操作后,变成一个易于处理的特征图。在网络结构的Neck部分,使用了FPN
‑
PAN结构进行了多维度的特征提取。在网络结构的Head部分,使用CIOU Loss损失函数作为边界框的回归损失函数。S22:在确定了网络结构后,我们将数据集送到网络结构中进行训练。根据实际情况,设置好迭代次数、优化方式、批次大小、学习率和图片输入尺寸...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。