当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于双声道音频多普勒效应的手势识别方法及系统技术方案

技术编号:16754765 阅读:15 留言:0更新日期:2017-12-09 01:39
本发明专利技术涉及一种基于双声道音频多普勒效应的手势识别方法及系统。该方法使用一对扬声器播放不同频率的高频声波信号,同时麦克风采集运动反射的信号,并提取引起的多普勒频移,将每帧有效的数据量化,形成一个多维特征向量;将采集的手势训练样本作为输入,生成HMM分类器,并通过分类器识别测试样本,输出得分最高的手势。本发明专利技术充分利用一对扬声器的硬件设备,通过量化提取更多的特征值,在组合判断手势分割部分更加严谨有效,可以增加识别手势的种类,提升识别准确度,具有广泛的普及性和应用性。

A gesture recognition method and system based on dual channel audio Doppler effect

The present invention relates to a gesture recognition method and system based on the dual channel audio Doppler effect. The method uses a pair of speakers of different frequency acoustic signal acquisition signal at the same time the microphone motor reflex, and extract the Doppler frequency shift of each frame, effective data quantization, the formation of a multi-dimensional feature vector; the gesture training sample as input, generating HMM classifier, and the recognition of the test sample the highest scoring output, gesture. The invention makes full use of the hardware devices of a pair of loudspeakers, and quantitatively extracts more eigenvalues, which is more rigorous and effective in the combination judgment of hand gesture segmentation, and it can increase the kinds of gesture recognition and improve the recognition accuracy, and has wide popularity and application.

【技术实现步骤摘要】
一种基于双声道音频多普勒效应的手势识别方法及系统
:本专利技术涉及一种声波手势识别方法,属于人机交互
,特别涉及一种基于双声道音频多普勒效应的手势识别方法及系统。
技术介绍
:人机交互(HumanComputerInteraction,HCI)已经成为我们日常生活中的重要部分,而基于声波的空中裸手手势识别方法能够在没有特殊的可穿戴设备的情况下,通过低计算来做到姿势识别,同时该方法也不受普通噪声或光的干扰,因此提供了更宽广的操作范围和角度。基于声波的手势识别技术已经在不少的专利技术中被使用,比如CN106693361A,公开了一种基于超声波手势识别的AR换装游戏投影方法及系统,利用超声波的频率变化识别手势动作并发送相应的指令驱动换装,增强了人机交互性;CN106446801A提出了一种基于超声主动探测的微手势识别方法及系统,根据接收时间延迟与频率分辨变化量,得到信号时序的距离和速度信息并识别微手势动作;CN105807923A提供了一种基于超声波的凌空手势识别方法及系统,利用预先训练好的手势识别模型,对采集到的手掌运动趋势时序序列进行手势识别。但是以上提到的这些方法系统以及装置中,涉及到的声波信号都是单频声波信号,不仅识别手势有限制,而且手势的流畅度和精确度均有待提高。
技术实现思路
:本专利技术的目的在于针对现有声波手势识别技术存在的缺陷,实现一个高精度,多手势,稳定的手势识别系统。考虑双声道音频,使用一对扬声器播放不同频率的声波,提取更多有效的特征属性,增加了不同手势之间的辨识度。本专利技术是通过以下技术方案完成的:一种基于双声道音频多普勒效应的手势识别方法,其特征在于,包括以下步骤:步骤1、音频信号采集:系统控制一对扬声器分别播放不同频率的高频声波信号,麦克风同时采集被运动反射的信号。步骤2、多普勒频移提取:手势运动反射声波信号,导致麦克风接收数据发生多普勒频移;对采集得到的信号进行加窗处理以及快速傅里叶变换,提取运动引起的左右双声道每一帧数据的多普勒频移,量化为一组特征属性。步骤3、特征基元预判断:基于组合特征属性作为判断条件,将数据划分为不同方向和速度的特征基元。步骤4、确定手势的起始:通过特征基元的预判断,分割确定每个手势的开始与完成。步骤5、建立各类手势的HMM模型:每个手势分割得到一组特征基元序列作为训练样本,将全部手势的特征基元序列样本作为输入,采用HMM分类器,建立各类手势的HMM模型。步骤6、确定手势类别:将分割得到的测试样本导入HMM模型,输出概率最大的手势类别。在上述的一种基于双声道音频多普勒效应的手势识别方法,其特征在于,在步骤2中提取有效量化多普勒频移特征的14种特征属性,即特征向量为P={λ1,λ2,...,λ14},P包含左声道属性PL={λ1,λ2,...,λ6}和右声道属性PR={λ7,λ8,...,λ12}以及基元序列长度λ13和中部带宽比λ14,其中PL和PR分别表示左右声道的以下属性:幅值λ1/λ7、左瓣能量λ2/λ8、右瓣能量λ3/λ9、中部带宽λ4/λ10、能量差λ5/λ11、上部带宽λ6/λ12。其中:中部带宽比λ14为左右双声道的中部带宽的比值,用于区分左右手执行的相似手势动作,带宽大小和手势运动的距离和速度均成正比关系。在上述的一种基于双声道音频多普勒效应的手势识别方法,步骤2中包括以下子步骤:步骤21)加窗处理声波信号经过麦克风的数字化采集后,系统选取左声道的数据执行加窗处理(Hamming窗),相应的窗函数为其中N=L-1,L为窗体的长度,本实施例采用2048点海明窗,通过加窗对信号进行截断,减少频谱能量泄漏。步骤22)快速傅里叶变换加窗后的数据进行FFT变换,将时域信号转换为频域信号,主要利用频谱的幅值特性,在计算过程中,舍弃相位信息。声源左声道频率为fL,右声道频率为fR,采样频率为fsample,频率设置满足采样定理,因此频谱图上拥有N/2个点的幅值向量,用来表示不超过fsample/2的频率范围,频率分辨率为fsample/N。步骤23)多普勒特征提取量化多普勒效应的计算公式如下:其中Δf=f-f0,f为观测到的频率,f0为波源频率,c是声波在空气中的传播速度,Δv是观测者相对波源的速度(本实施例中麦克风和扬声器均静止不懂,本身不会引起多普勒频移,因此Δv即为手势运动的速度)。由于手臂运动速度最快约为vmax,得到最大频移量为Δfmax,即设置两段主频音附近的多普勒频移有效区间分别为(fL-Δfmax,fL+Δfmax)和(fR-Δfmax,fR+Δfmax),并对两段有效区间的幅值向量进行分析提取。分析多普勒频移数据,提取有效量化多普勒频移特征的14种特征属性,即特征向量为P={λ1,λ2,...,λ14},P包含左声道属性PL={λ1,λ2,...,λ6}和右声道属性PR={λ7,λ8,...,λ12}以及基元序列长度λ13和中部带宽比λ14,其中PL和PR分别表示左右声道的以下属性:幅值λ1/λ7、左瓣能量λ2/λ8、右瓣能量λ3/λ9、中部带宽λ4/λ10、能量差λ5/λ11、上部带宽λ6/λ12。针对左声道PL属性以及基元序列长度λ13和中部带宽比λ14的计算,下面进行简要介绍:其中,幅值属性λ1=A(fL),A为上一步提取的多普勒频移特征向量,A(xi)为频率xi的幅值强度;左瓣能量其中a=fL-Δfmax,b=fL;右瓣能量c=fL+Δfmax,其他变量同上;中部带宽其中左边界α满足能量约束条件且α∈(fL-Δfmax,fL);右边界β满足能量约束条件A(xi)≤θv且α∈(fL,fL+Δfmax);θv为特定阈值,由经验值和实验确定最优取值;这里取值为峰值幅度的60%。相对能量其中ε是能被检测到的最小速度,通过对ε值的合理设置,可以有效地规避噪声,提高用户执行手势时的灵敏度;这里取ε值为0.25m/s。右声道PR特征属性的计算方法与左声道PL类似。上部带宽λ6在多普勒频移特征中往往呈现为峰值频率附近频率的幅值变化,该属性主要分析提取相似手势动作所带来的微量频移差别。计算方法同中部带宽相似,本实施例取值为峰值幅度的90%处的带宽值。基元序列长度λ13为一个手势包含的特征基元的个数,用来评估一个手势的持续时间。中部带宽比λ14=λ4/λ10,即为左右双声道的中部带宽的比值,用于区分左右手执行的相似手势动作,带宽大小和手势运动的距离和速度均成正比关系。在上述的一种基于双声道音频多普勒效应的手势识别方法,在步骤3中,对特征基元进行预判断,将其分为5种特征基元:静止基元、快速左移基元,慢速左移基元、快速右移基元和慢速右移基元,划分方法如下:步骤31)确定手势移动的方向:设定最小能量阈值emin,若λ3>emin且λ8<-emin,为左移基元;若λ2<-emin并且λ9>emin,判定特征基元为右移基元;若以上两种情况均不符合,表示为静止基元;步骤32)判断运动基元:设定最小速度阈值vmin,根据中部带宽判断是静止基元还是运动基元。若λ4>vmin或者λ10>vmin,表示为运动基元;否则,λ4<vmin且λ10<vmin,判定为静止基元;步骤33)划分不同速度的运动基元:设定快速移动阈值vfa本文档来自技高网...
一种基于双声道音频多普勒效应的手势识别方法及系统

【技术保护点】
一种基于双声道音频多普勒效应的手势识别方法,其特征在于,包括以下步骤:步骤1、音频信号采集:系统控制一对扬声器分别播放不同频率的高频声波信号,麦克风同时采集被运动反射的信号;步骤2、多普勒频移提取:手势运动反射声波信号,导致麦克风接收数据发生多普勒频移;对采集得到的信号进行加窗处理以及快速傅里叶变换,提取运动引起的左右双声道每一帧数据的多普勒频移,量化为一组特征属性;步骤3、特征基元预判断:基于组合特征属性作为判断条件,将数据划分为不同方向和速度的特征基元;步骤4、确定手势的起始:通过特征基元的预判断,分割确定每个手势的开始与完成;步骤5、建立各类手势的HMM模型:每个手势分割得到一组特征基元序列作为训练样本,将全部手势的特征基元序列样本作为输入,采用HMM分类器,建立各类手势的HMM模型;步骤6、确定手势类别:将分割得到的测试样本导入HMM模型,输出概率最大的手势类别。

【技术特征摘要】
1.一种基于双声道音频多普勒效应的手势识别方法,其特征在于,包括以下步骤:步骤1、音频信号采集:系统控制一对扬声器分别播放不同频率的高频声波信号,麦克风同时采集被运动反射的信号;步骤2、多普勒频移提取:手势运动反射声波信号,导致麦克风接收数据发生多普勒频移;对采集得到的信号进行加窗处理以及快速傅里叶变换,提取运动引起的左右双声道每一帧数据的多普勒频移,量化为一组特征属性;步骤3、特征基元预判断:基于组合特征属性作为判断条件,将数据划分为不同方向和速度的特征基元;步骤4、确定手势的起始:通过特征基元的预判断,分割确定每个手势的开始与完成;步骤5、建立各类手势的HMM模型:每个手势分割得到一组特征基元序列作为训练样本,将全部手势的特征基元序列样本作为输入,采用HMM分类器,建立各类手势的HMM模型;步骤6、确定手势类别:将分割得到的测试样本导入HMM模型,输出概率最大的手势类别。2.根据权利要求1所述的一种基于双声道音频多普勒效应的手势识别方法,其特征在于,在步骤2中提取有效量化多普勒频移特征的14种特征属性,即特征向量为P={λ1,λ2,...,λ14},P包含左声道属性PL={λ1,λ2,...,λ6}和右声道属性PR={λ7,λ8,...,λ12}以及基元序列长度λ13和中部带宽比λ14,其中PL和PR分别表示左右声道的以下属性:幅值λ1/λ7、左瓣能量λ2/λ8、右瓣能量λ3/λ9、中部带宽λ4/λ10、能量差λ5/λ11、上部带宽λ6/λ12;其中:中部带宽比λ14为左右双声道的中部带宽的比值,用于区分左右手执行的相似手势动作,带宽大小和手势运动的距离和速度均成正比关系。3.根据权利要求1所述的一种基于双声道音频多普勒效应的手势识别方法,其特征在于,步骤2中包括以下子步骤:步骤21)加窗处理声波信号经过麦克风的数字化采集后,系统选取左声道的数据执行加窗处理(Hamming窗),相应的窗函数为其中N=L-1,L为窗体的长度,通过加窗对信号进行截断,减少频谱能量泄漏;步骤22)快速傅里叶变换加窗后的数据进行FFT变换,将时域信号转换为频域信号,主要利用频谱的幅值特性,在计算过程中,舍弃相位信息;声源左声道频率为fL,右声道频率为fR,采样频率为fsample,频率设置满足采样定理,因此频谱图上拥有N/2个点的幅值向量,用来表示不超过fsample/2的频率范围,频率分辨率为fsample/N;步骤23)多普勒特征提取量化多普勒效应的计算公式如下:其中Δf=f-f0,f为观测到的频率,f0为波源频率,c是声波在空气中的传播速度,Δv是观测者相对波源的速度(本实施例中麦克风和扬声器均静止不懂,本身不会引起多普勒频移,因此Δv即为手势运动的速度);由于手臂运动速度最快约为vmax,得到最大频移量为Δfmax,即设置两段主频音附近的多普勒频移有效区间分别为(fL-Δfmax,fL+Δfmax)和(fR-Δfmax,fR+Δfmax),并对两段有效区间的幅值向量进行分析提取;分析多普勒频移数据,提取有效量化多普勒频移特征的14种特征属性,即特征向量为P={λ1,λ2,...,λ14},P包含左声道属性PL={λ1,λ2,...,λ6}和右声道属性PR={λ7,λ8,...,λ12}以及基元序列长度λ13和中部带宽比λ14,其中PL和PR分别表示左右声道的以下属性:幅值λ1/λ7、左瓣能量λ2/λ8、右瓣能量λ3/λ9、中部带宽λ4/λ10、能量差λ5/λ11、上部带宽λ6/λ12;针对左声道PL属性以及基元序列长度λ13和中部带宽比λ14的计算,下面进行简要介绍:其...

【专利技术属性】
技术研发人员:艾浩军王壹丰李铮
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1