【技术实现步骤摘要】
本专利技术涉及计算机视觉,尤其是一种基于改进yolov12的手语识别方法及装置。
技术介绍
1、在公共场所部署手语识别设备能够有效提升在公共服务中手语交流的体验,为构建无障碍交流环境提供支撑。然而,现有的静态手语识别研究多集中于算法模型的性能提升,对于系统在真实复杂环境中的部署问题关注较少。一方面,公共场合的部署数量大、覆盖面广,若采用云端计算方案,会造成高昂的传输延迟与计算资源成本;在此背景下,将手语识别模型部署至边缘设备成为一种更具可行性的路径选择。边缘计算具备低延迟、低能耗与隐私保护等优势,能够有效支撑实时手语识别的需求。但与此同时,深度神经网络庞大的参数量对边缘设备运算能力要求高。尽管已有研究针对yolo结构提出了多种轻量化改进方法,然而这些方法往往牺牲了模型的计算效率,以推理时间的增加换取更小的参数规模,在资源受限的边缘平台上仍难以满足高实时性要求。另一方面,现有的手语识别研究所使用的数据集多为背景单一、手势区域突出、环境干扰较小的静态图像,缺乏对遮挡、动态人流、光照变化等现实复杂背景因素的建模,导致模型在实际场景泛化能力较差
【技术保护点】
1.一种基于改进YOLOv12的手语识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述获取目标手语视频,并将所述目标手语视频转化为目标图像,包括以下步骤:
3.根据权利要求1所述的方法,其特征在于,所述通过高效多尺度大核注意力机制以及可变形空洞卷积,对YOLOv12模型进行改进,得到手语识别模型,包括以下步骤:
4.根据权利要求1所述的方法,其特征在于,所述通过高效多尺度大核注意力机制以及可变形空洞卷积,对YOLOv12模型进行改进,得到手语识别模型,还包括以下步骤:
5.根据权利要求1
...【技术特征摘要】
1.一种基于改进yolov12的手语识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述获取目标手语视频,并将所述目标手语视频转化为目标图像,包括以下步骤:
3.根据权利要求1所述的方法,其特征在于,所述通过高效多尺度大核注意力机制以及可变形空洞卷积,对yolov12模型进行改进,得到手语识别模型,包括以下步骤:
4.根据权利要求1所述的方法,其特征在于,所述通过高效多尺度大核注意力机制以及可变形空洞卷积,对yolov12模型进行改进,得到手语识别模型,还包括以下步骤:
5.根据权利要求1所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:杨健敏,高俊伟,杜龙森,郭栩,龚明,钟健锋,汤钰琳,罗雅蔓,彭志鸿,黄滢,沈悦,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。