多用户运动手势控制方法、装置、智能音箱和介质制造方法及图纸

技术编号:30092664 阅读:22 留言:0更新日期:2021-09-18 08:55
本申请提供的一种多用户运动手势控制方法、装置、智能音箱和介质,通过获取由扬声器阵列发射的超声信号经一或多名用户运动手势反射而回并由麦克风阵列采集到的反射信号;对反射信号进行预处理;依据超声信号与预处理后的反射信号,利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,以供得到定位结果;根据定位结果提取手势轨迹,据以响应不同手势轨迹对应预设的指令。本申请能够在无额外硬件要求,也不影响智能音箱语音控制功能的情况下,实现多用户运动手势控制,为智能音箱增添了新的交互方式,可广泛应用于无声控制、多用户控制等场景;并且可适用于任意形状与间距的麦克风阵列,以及任意速度下的用户运动手势。势。势。

【技术实现步骤摘要】
多用户运动手势控制方法、装置、智能音箱和介质


[0001]本专利技术涉及人机交互
,特别是涉及一种多用户运动手势控制方法、装置、智能音箱和介质。

技术介绍

[0002]智能音箱与用户之间的交互多采用语音控制,这种交互方式更加适合精确控制或智能语音聊天应用。但许多场景下,用户希望用非语音的方式控制智能音箱。比如,有语言障碍的用户,或者在被要求安静无声的场景下,以及用户需要快速传达一些常用的简洁控制指令等等场景。
[0003]已有一些研究工作提出利用类似声纳雷达的超声定位技术来实现运动手势控制手机,但目前还没有关于多名用户通过运动手势控制智能音箱的成熟解决方案。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本申请的目的在于提供一种多用户运动手势控制方法、装置、智能音箱和介质,以解决现有技术中存在的至少一个问题。
[0005]为实现上述目的及其他相关目的,本申请提供一种多用户运动手势控制方法,应用于智能音响,该智能音响包括用于发射超声信号的扬声器阵列和用于采集反射信号的麦克风阵列;所述方法包括:获取由扬声器阵列发射的超声信号经一或多名用户运动手势反射而回并由麦克风阵列采集到的反射信号;依据所述超声信号与预处理后的反射信号,利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,以供得到对应一或多名用户运动手势的定位结果;其中,基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列;和/ 或,基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势;根据所述定位结果提取对应一或多名用户的手势轨迹,据以响应不同手势轨迹对应预设的指令。
[0006]于本申请的一实施例中,对所述反射信号进行预处理以消除自干扰和静态反射,并得到包含有限数量的运动手势的反射信号。
[0007]于本申请的一实施例中,所述基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列,包括:利用正交频分复用将超声信号设置为具有K个子载波的宽频信号,以构建宽频字典;根据反射信号的稀疏性在不同子载波各自所对应的字典之间是相同的特性,当所发射的超声信号设置为具有K个频率分量的宽频信号时,利用包含K个分别对应K个频率分量的子字典的宽频字典,分别对每个频率分量进行稀疏恢复定位;将每个频率分量的定位结果交叠,将K个频率分量的混叠定位结果的共同交集作为定位结果,以供可在任意形状的麦克风阵列上解决因空间采样率不足而导致的定位结果空间混叠问题,从而适用于任意形状与间距的麦克风阵列。
[0008]于本申请的一实施例中,所述基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势,包括:根据各子载波在不同速度下因多普勒效应造成的频率偏移情
况,基于宽频字典构建与速度匹配的速度感知字典;利用各个速度下对应的字典分别进行稀疏恢复定位,将具有最大反射强度的定位结果对应字典的速度作为对运动速度的估计,并将该定位结果作为最终定位结果,可以解决因多普勒效应而导致的定位误差问题,以适用于任意速度下的用户运动手势。
[0009]于本申请的一实施例中,所述反射信号定位模型,包括:A= [a(d1,θ1),

,a(d
D

D
)];其中,X为麦克风阵列采集的反射信号;S为扬声器阵列发射的超声信号;为噪声信号;A为用于表达发射情况的制导矩阵;a(d
D

D
)表示反射源位置D的制导向量;d
D

D
分别表示第D个反射源位置相对智能音箱的距离和角度。
[0010]于本申请的一实施例中,所述利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,包括:将所述制导矩阵A扩展为具有N个维度的超完备矩阵A

:A

= [a(d1,θ1),a(d2,θ2),

,a(d
N

N
)];其中,N>>D;a(d
N

N
)表示相对智能音箱距离d
N
和角度θ
N
处一个可能的反射源位置;相应地,将超声信号向量S扩展为一个N维的稀疏向量S

: S

=[0,0,

s1,0,

s2…
s
i

s
D

0]T
;其中,如果在a(d
N

N
)处真实存在一个反射信号,则S

中相应的系数为s
i
,否则为0;由此所述反射信号定位模型变为:此时,根据超声信号s0(t)是预知的,进一步将s0(t)合并到A

中得到:其中,Dic是一个预先计算的超完备矩阵,称为字典,其内每个元素vec
i
存储着从每个位置(d
N

N
)反射回来的延迟信号: Dic=[vec(d1,θ1,t),

,vec(d
N

N
,t)];C是一个稀疏向量,表示来自对应位置的反射信号强度,C=[0,0,

c1,0,

c2…
c
i

c
D

0]T
;当有效反射的数目D远小于字典Dic的维数N时,可找到一最稀疏的向量C表示组成反射信号向量X的反射信号在字典Dic中的分布情况: min||C||0s.t.||X

Dic
·
C||2≤ε;其中,||C||0表示向量C的0范数,即向量C中非零元素的个数;s.t.表示满足后者的约束条件;||X

Dic
·
C||2表示反射信号向量X与Dic
·
C之间的2范数;ε为一个接近0的极小数;求解出向量C后,可从向量C中非零元素c
i
的位置获得相对应的反射源位置,同时从非零元素c
i
的数值中得到反射强度。
[0011]于本申请的一实施例中,所述基于宽频字典的稀疏恢复算法包括:利用正交频分复用将超声信号设置为具有K个子载波的宽频信号,对于每个子载波f
k
都有各自的字典Dic
k
,根据 Dic
k
构建宽频字典wDic:根据子载波一起被共同发射与反射,反射信号的稀疏性在不同子载波的字典之间是相同的特性:C
k
=C
l for k≠l;即k≠l时C
k
=C
l
;此时,求解多字典联合优化问题等价如下:min||C
k
||0for k=1,2

K;s.t.||X
k
...

【技术保护点】

【技术特征摘要】
1.一种多用户运动手势控制方法,其特征在于,应用于智能音响,该智能音响包括用于发射超声信号的扬声器阵列和用于采集反射信号的麦克风阵列;所述方法包括:获取由扬声器阵列发射的超声信号经一或多名用户运动手势反射而回并由麦克风阵列采集到的反射信号;依据所述超声信号与预处理后的反射信号,利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,以供得到对应一或多名用户运动手势的定位结果;其中,基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列;和/或,基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势;根据所述定位结果提取对应一或多名用户的手势轨迹,据以响应不同手势轨迹对应预设的指令。2.根据权利要求1所述的方法,其特征在于,对所述反射信号进行预处理以消除自干扰和静态反射,并得到包含有限数量的运动手势的反射信号。3.根据权利要求1所述的方法,其特征在于,所述基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列,包括:利用正交频分复用将超声信号设置为具有K个子载波的宽频信号,以构建宽频字典;根据反射信号的稀疏性在不同子载波各自所对应的字典之间是相同的特性,当所发射的超声信号设置为具有K个频率分量的宽频信号时,利用包含K个分别对应K个频率分量的子字典的宽频字典,分别对每个频率分量进行稀疏恢复定位;将每个频率分量的定位结果交叠,将K个频率分量的混叠定位结果的共同交集作为定位结果,以供可在任意形状的麦克风阵列上解决因空间采样率不足而导致的定位结果空间混叠问题,从而适用于任意形状与间距的麦克风阵列。4.根据权利要求3所述的方法,其特征在于,所述基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势,包括:根据各子载波在不同速度下因多普勒效应造成的频率偏移情况,基于宽频字典构建与速度匹配的速度感知字典;利用各个速度下对应的字典分别进行稀疏恢复定位,将具有最大反射强度的定位结果对应字典的速度作为对运动速度的估计,并将该定位结果作为最终定位结果,可以解决因多普勒效应而导致的定位误差问题,以适用于任意速度下的用户运动手势。5.根据权利要求1所述的方法,其特征在于,所述反射信号定位模型,包括:A=[a(d1,θ1),

,aP(d
D

D
)];其中,X为麦克风阵列采集的反射信号向量;S为扬声器阵列发射的超声信号向量;为噪声信号;A为用于表达发射情况的制导矩阵;a(d
D

D
)表示反射源位置D的制导向量;d
D

D
分别表示第D个反射源位置相对智能音箱的距离和角度。6.根据权利要求5所述的方法,其特征在于,所述利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,包括:将所述制导矩阵A扩展为具有N个维度的超完备矩阵A

:A

=[aP(d1,θ1),aP(d2,θ2),

,a(d
N

N
)];其中,N>>D;a(d
N

N
)表示相对智能音箱距离d
N
和角度θ
N
处一个可能的反射源位置;相应
地,将超声信号向量S扩展为一个N维的稀疏向量S

:S

=[0,0,

s1,0,

s2…
s
i

s
D

0]
T
;其中,如果在a(d
N

N
)处真实存在一个反射信号,则S

中相应的系数为s
i
,否则为0;由此所述反射信号定位模型变为:此时,根据超声信号s0(t)是预知的,进一步将s0(t)合并到A

中得到:其中,Dic是一个预先计算的超完备矩阵,称为字典,其内每个元素vec
i
存储着从每个位置(d
N

N
)反射回来的延迟信号:Dic=[vec(d1,θ1,t),

,vec(d
N

N
,t)];C是一个稀疏向量,表示来自对应位置的反射信号强度,C=[0,0,

c1,0,

c2…
c
i

c
D

0]
T
;当有效反射的数目D远小于字典Dic的维数N时,可找到一最稀疏的向量C表示组成反射信号向量X的反射信号在字典Dic中...

【专利技术属性】
技术研发人员:杨智策祝宁之
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1