训练类脑手势识别模型、手势类别识别的方法及相关装置制造方法及图纸

技术编号：40950120 阅读：3 留言：0更新日期：2024-04-18 20:24

本发明专利技术公开一种训练类脑手势识别模型、手势类别识别的方法及相关装置，涉及手势识别技术领域，训练类脑手势识别模型的方法包括：利用事件相机对手势动作进行采集；对采集的数据进行预处理；以预处理后的数据为输入，以预处理后的数据对应的手势类别为输出，对类脑手势识别模型进行训练，得到训练好的类脑手势识别模型；类脑手势识别模型为基于LIF神经元的自适应多级阈值脉冲发放神经元模型和残差网络结构构建的脉冲神经网络模型。本发明专利技术通过设定可学习的阈值，实现对神经元模型层级数的自适应调整，缓解了直接训练深度脉冲神经网络产生的梯度消失的问题，从而将SNN网络训练得更深，进而可以提高手势特征提取和识别能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及手势识别，特别是涉及一种训练类脑手势识别模型、手势类别识别的方法及相关装置。

技术介绍

1、脉冲神经网络(spiking neural networks，snn)作为新一代神经网络，通过事件驱动的异步脉冲传递，多尺度的神经动力学以及多种可塑性协同调控，将空间和时间的概念结合起来，具有在空间域(sd)和时间域(td)处理信息的能力，模拟了大脑的脉冲计算机制与认知过程，在复杂的时空信号处理方面具有显著优势。与传统的人工神经网络(ann)相比，snn基于离散脉冲事件的信息通信，本质上接近于硬件平台中的二进制处理，这有利于在硬件上实现低功耗、高能效的实时计算。例如，snn在神经形态硬件上传输尖峰信号所消耗的能量只有nj或pj。snn凭借其高能效、低延迟以及生物可解释等优势，成为了现下一种有吸引力的人工智能解决方案。

2、在高度鲁棒且高能效的人工智能应用背景下，基于事件的摄像机或动态视觉传感器(dvs)已经崭露头角，成为计算机视觉领域中备受关注的创新解决方案。相较于传统的基于帧的摄像机，事件摄像机以独立方式捕获像素的光强变化，从而产生异步的二进制事件流。所捕获的事件特征具有二进制像素和时间分辨率，形成高度稀疏且节能的视觉表示。这种时空信息的二值化特性天然地符合脉冲神经网络(snn)的计算机制，为构建计算机视觉与神经形态计算之间的桥梁提供了独特的机遇。

3、然而，由于非线性和不可微的脉冲活动，传统的基于梯度的优化方法难以直接应用于snn。这种不可微性限制了snn在复杂任务和大规模数据集上的应用，尤其是在

4、基于转换的方法将预先训练的卷积神经网络(cnn)转换为具有相同结构的snn，这通常需要相当长的时间来获得相似的信息表示，并且与原始cnn相比存在不可避免的精度损失。尽管能够使snn获得与ann相当的性能，但对大量时间步长的需求导致了较大的推理延迟和高能耗的问题，且不能充分利用snn的时间动态特性。

5、而使用代理梯度的直接训练方法中，snn被视为循环神经网络(rnn)的一种特殊形式，并通过时间反向传播(bptt)算法进行训练。这种方法允许snn在保持其时间动态特性的同时，通过迭代地在空间和时间域传播梯度来进行优化。直接训练方法的发展使得snn能够在超低延迟下获得与cnn相当的性能。然而，近似梯度和精确梯度之间的差异对于大规模模型而言，很大程度上制约了训练的稳定性。

6、然而，这些方法并没有解决二值脉冲信号近似导数宽度有限、表达能力弱的问题。代理梯度的有限宽度导致大量神经元的膜电位落入近似导数为零或极小的饱和区，从而阻塞梯度传播导致梯度消失问题，使得直接训练深度snn的效率较低。此外，直接训练方法中的网络退化问题也非常严重，即使采用残差结构，在直接训练的深度snn中，这一问题也非常显著。梯度消失和网络退化严重制约了直接训练的snn的深入。

7、为了解决梯度消失和网络退化的问题，zheng等人提出了stbp-tdbn方法，引入了批时间归一化，用于平衡脉冲神经元的动力学，以调整发放速率，在一定程度上避免了梯度消失或爆炸。feng等人提出了一种基于stbp方法的多层级发放方法，以实现更有效的梯度传播和神经元的增量表达能力。解决退化问题最成功的方法之一是残差结构。它引入了一种快捷连接，增加了网络的恒等映射能力，使网络在不退化的情况下可以达到数百层，大大扩展了网络的深度。与此同时，fang等人通过设计的残差结构直接传递梯度，提出了sew-resnet，以弥补近似梯度和精确梯度之间的差异。此外，还提出了各种正则化技术来稳定snn训练，如纠正膜电位分布和带时空调整的反向传播。

8、神经系统通过其高度复杂的动力学特征取得了显著的性能。基于神经科学中发现的自适应发放过程中的脉冲产生机制，fang等人根据大型模型的需求，通过在整个训练过程中优化膜时间常数，实现了对神经元动力学的精细调控。与此同时，dsr则通过将二进制输出脉冲与阈值相乘的方式优化了训练期间的膜电位阈值。这一方法中，发放范围和阈值之间的关系受到确定性比率的限制。然而，固定的阈值经常导致膜电位超调，从而限制了深度脉冲神经网络在高度稳定的训练过程中的表现。

9、因此，如何设计一种具有可学习阈值的自适应snn训练算法，以提高手势特征提取和识别能力，成为本领域技术人员亟需解决的技术问题。

技术实现思路

1、本专利技术的目的是提供一种训练类脑手势识别模型、手势类别识别的方法及相关装置，通过设定可学习的阈值，实现对神经元模型层级数的自适应调整，缓解了直接训练深度脉冲神经网络产生的梯度消失的问题，从而将snn网络训练得更深，进而可以提高手势特征提取和识别能力。

2、为实现上述目的，本专利技术提供了如下方案：

3、第一方面，本专利技术提供了一种训练类脑手势识别模型的方法，包括：

4、利用事件相机对手势动作进行采集，得到采集的数据；所述采集的数据为包括手势类别的图像。

5、对所述采集的数据进行预处理，得到预处理后的数据。

6、以所述预处理后的数据为输入，以所述预处理后的数据对应的手势类别为输出，对类脑手势识别模型进行训练，得到训练好的类脑手势识别模型；所述类脑手势识别模型为基于lif神经元的自适应多级阈值脉冲发放神经元模型和残差网络结构构建的脉冲神经网络模型。

7、可选地，对所述采集的数据进行预处理，得到预处理后的数据，具体包括：

8、确定一个时间窗口大小，读取所述时间窗口内的所有事件。

9、以(x，y，p)为坐标统计所述时间窗口内落在(x，y，p)内的事件个数；其中，(x，y)为事件点的空间位置，p为事件点的极性。

10、对每个位置的事件个数除以所有位置中最大的事件个数后进行归一化，得到归一化后的数据。

11、将所述归一化后的数据乘以255灰度级，获得以事件频率确定的2通道灰度帧图像。

12、利用平均池化对所述2通道灰度帧图像进行降采样，得到预处理后的数据。

13、可选地，所述类脑手势识别模型的构建过程为：

14、构建神经元模型；所述神经元模型为基于lif神经元的自适应多级阈值脉冲发放神经元模型；所述神经元模型能够自适应更新阈值和层级数。

15、基于残差网络结构和所述神经元模型，构建所述类脑手势识别模型；所述残差网络结构为和快捷连接做加法之前先做脉冲激活的结构；所述类脑手势识别模型由若干个基本块组成，所述基本块由两个卷积层、两个处理时序数据的批归一化层和两个基于lif神经元的自适应多级阈值脉冲发放神经元模型组成。

16、可选地，以所述预处理后的数据为输入，以所述预处理后的数据对应的手势类别为输出，对类脑手势识别模型进行训练本文档来自技高网...

【技术保护点】

1.一种训练类脑手势识别模型的方法，其特征在于，包括：

2.根据权利要求1所述的一种训练类脑手势识别模型的方法，其特征在于，对所述采集的数据进行预处理，得到预处理后的数据，具体包括：

3.根据权利要求1所述的一种训练类脑手势识别模型的方法，其特征在于，所述类脑手势识别模型的构建过程为：

4.根据权利要求1所述的一种训练类脑手势识别模型的方法，其特征在于，以所述预处理后的数据为输入，以所述预处理后的数据对应的手势类别为输出，对类脑手势识别模型进行训练，得到训练好的类脑手势识别模型，具体包括：

5.根据权利要求4所述的一种训练类脑手势识别模型的方法，其特征在于，根据所述损失值对所述类脑手势识别模型的参数进行优化，具体包括：

6.一种手势类别识别的方法，其特征在于，包括：

7.一种训练类脑手势识别模型的装置，其特征在于，包括：

8.一种手势类别识别的装置，其特征在于，包括：

9.一种电子设备，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执

...

【技术特征摘要】

1.一种训练类脑手势识别模型的方法，其特征在于，包括：

2.根据权利要求1所述的一种训练类脑手势识别模型的方法，其特征在于，对所述采集的数据进行预处理，得到预处理后的数据，具体包括：

3.根据权利要求1所述的一种训练类脑手势识别模型的方法，其特征在于，所述类脑手势识别模型的构建过程为：

5.根据权...

【专利技术属性】
技术研发人员：唐华锦，齐浩淞，连爽，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人