拾音方法、装置和电子设备制造方法及图纸

技术编号:30026253 阅读:11 留言:0更新日期:2021-09-15 10:13
本申请实施例提供一种拾音方法、装置和电子设备,在该方法中,获得用户相对电子设备的方位,所述电子设备设置有不少于3个的麦克风,在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束,当所述N个麦克风接收到声音信号时,使用所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述副波束的波束形成系数计算所述声音信号的副输出信号,使用所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号,从而缓解语音失真问题、以及人声干扰消除不彻底问题。以及人声干扰消除不彻底问题。以及人声干扰消除不彻底问题。

【技术实现步骤摘要】
拾音方法、装置和电子设备


[0001]本申请涉及智能终端
,特别涉及拾音方法、装置和电子设备。

技术介绍

[0002]市面上大多数终端类电子设备,比如智能手机、平板,都带有语音助手应用,它的主要作用是在用户不接触手机等电子设备的情况下,通过语音指令控制电子设备,完成一些低难度高频次的指令操作,比如播放音乐、查询天气、设置闹钟、拨打电话、地图导航等。
[0003]上述人机交互的流程一般包括:利用电子设备的麦克风拾取音频信号;通过前端增强算法从音频信号中估计出一路干净的语音信号;使用该语音信号进行语音唤醒和语音识别。前端增强算法主要通过噪声消除来提取干净的语音信号,噪声消除包括:回声消除、干扰抑制以及去除背景噪声等,回声消除中需要消除的回声一般是人机交互过程中电子设备的喇叭自发声,干扰抑制中的干扰一般是方向性噪声,比如客厅环境中的电视声音、车载环境中的车载喇叭声等。前端增强算法的性能直接影响到人机交互的成功率,最终影响用户体验。
[0004]以手机为例。前端增强算法主要利用手机上的麦克风进行噪声消除,考虑到功耗以及计算资源的限制,大多情况下只利用一个麦克风进行单麦降噪,该算法称之为单通道降噪算法。常见的单通道降噪算法有谱减法、维纳滤波算法、及深度学习法。单通道降噪算法对于不可预测的非平稳噪声没有效果,低信噪比条件下语音失真严重。
[0005]为了达到更好的降噪效果,基于两个麦克风的双通道降噪算法在电子设备上越来越普及,它主要应用于对功耗不敏感的场景,比如用户能够随时为电子设备充电的车载场景,利用位于手机顶部和底部的两个麦克风来进行噪声抑制。双通道降噪算法的主要思想是选取一个麦克风作为主麦,一个麦克风作为副麦,首先基于人声语音的谐波检测算法确定主麦数据中噪声的时频点信息,然后基于滤波的思想利用副麦噪声滤除主麦噪声,提高语音质量,达到降噪的思想。但是,谐波检测算法不能区分人声干扰和包含唤醒词的目标人声,对人声干扰基本很难消除。

技术实现思路

[0006]本申请实施例提供了一种拾音方法,缓解语音失真问题、以及人声干扰消除不彻底问题。
[0007]第一方面,本申请实施例提供了一种拾音方法,包括:
[0008]获得用户相对电子设备的方位;电子设备设置有N个麦克风;N为大于等于3的整数;上述电子设备可以包括移动终端(手机)、电脑、PAD、可穿戴设备、智慧屏、无人机、智能网联车(Intelligent Connected Vehicle;以下简称:ICV)、智能(汽)车(smart/intelligent car)或车载设备等设备;可选地,为了达到更好的拾音效果,N个麦克风在电子设备上可以分散设置,例如设置在电子设备的不同部位,每个麦克风设置的位置包括但不限于:电子设备的上部、下部、顶部、底部、屏幕所在的上表面、和/或背部等;
[0009]在电子设备的预设固定波束中,选择距离方位最近的固定波束作为主波束,按照距离方位从远到近的顺序选择至少一个固定波束作为副波束;预设固定波束的数量大于等于2;
[0010]当N个麦克风接收到声音信号时,使用主波束的波束形成系数计算声音信号的主输出信号,并且,使用副波束的波束形成系数计算声音信号的副输出信号;
[0011]使用副输出信号对主输出信号进行滤波处理,得到目标声音信号。
[0012]该方法中,获得用户相对电子设备的方位,通过该方位从电子设备的预设固定波束中选择主波束和副波束,从而能够更准确地从声音信号中获得目标声源的声音信号,有效地减少目标声音信号中的人声干扰;使用至少3个麦克风接收声音信号,由于电子设备壳体的影响,可以更好的区分噪声,增强滤波处理的效果,缓解低信噪比条件下的语音失真问题以及人声干扰消除不彻底问题。
[0013]在一种可能的实现方式中,获得用户相对电子设备的方位,包括:
[0014]获取电子设备的摄像头捕捉到的图像;
[0015]如果从图像中识别出电子设备的用户的人脸信息,根据人脸信息在图像中的位置信息,获得用户相对电子设备的方位;
[0016]如果从图像中未识别出用户的人脸信息,获取电子设备的摆放位置;根据摆放位置,获得用户相对电子设备的方位。
[0017]通过获得用户相对电子设备的方位,可以获得更加准确的目标人说话信息,为后续信号处理带来更多先验信息。
[0018]在一种可能的实现方式中,在电子设备的预设固定波束中,选择距离方位最近的固定波束作为主波束,按照距离方位从远到近的顺序选择至少一个固定波束作为副波束,包括:
[0019]计算方位针对每个固定波束的比值K;K
k
=夹角Δ
k
/波束宽度其中,K
k
是方位针对固定波束k的比值,夹角Δ
k
是方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,

,M;M是固定波束的组数;
[0020]选择最小的比值对应的固定波束作为主波束,按照比值从大到小的顺序从最大的比值开始选择至少一个比值对应的固定波束作为副波束。
[0021]在一种可能的实现方式中,获得用户相对电子设备的方位之前,还包括:
[0022]获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
[0023]在一种可能的实现方式中,获得预设组数的固定波束的波束形成系数、方向、以及波束宽度,包括:
[0024]为电子设备建立三维笛卡尔坐标系;
[0025]获得N个麦克风在坐标系中的坐标;
[0026]根据N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
[0027]获得电子设备壳体对麦克风的频域响应矩阵;
[0028]根据理想条件下的导向矢量以及频域响应矩阵计算目标声源的真实导向矢量;
[0029]根据真实导向矢量计算预设组数的固定波束的波束形成系数、方向、以及波束宽度。
[0030]第二方面,本申请实施例提供一种拾音装置,包括:
[0031]方位获得单元,用于获得用户相对电子设备的方位;电子设备设置有N个麦克风;N为大于等于3的整数;
[0032]波束选择单元,用于在电子设备的预设固定波束中,选择距离方位获得单元获得的方位最近的固定波束作为主波束,按照距离方位从远到近的顺序选择至少一个固定波束作为副波束;
[0033]信号计算单元,用于当N个麦克风接收到声音信号时,使用波束选择单元选择的主波束的波束形成系数计算声音信号的主输出信号,并且,使用波束选择单元选择的副波束的波束形成系数计算声音信号的副输出信号;
[0034]滤波单元,用于使用信号计算单元计算的副输出信号对主输出信号进行滤波处理,得到目标声音信号。
[0035]在一种可能的实现方式中,方位获得单元包括:
[0036]图像获取子单元,用于获取电子设备的摄像头捕捉到的图像;
[0037]方位获得子单元,用于如果从图像子单元获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拾音方法,其特征在于,包括:获得用户相对电子设备的方位;所述电子设备设置有N个麦克风;N为大于等于3的整数;在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束;当所述N个麦克风接收到声音信号时,使用所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述副波束的波束形成系数计算所述声音信号的副输出信号;使用所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号。2.根据权利要求1所述的方法,其特征在于,所述获得用户相对电子设备的方位,包括:获取所述电子设备的摄像头捕捉到的图像;如果从所述图像中识别出所述电子设备的用户的人脸信息,根据所述人脸信息在所述图像中的位置信息,获得所述用户相对电子设备的方位;如果从所述图像中未识别出所述用户的人脸信息,获取所述电子设备的摆放位置;根据所述摆放位置,获得所述用户相对所述电子设备的方位。3.根据权利要求1或2所述的方法,其特征在于,所述在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束,包括:计算所述方位针对每个固定波束的比值K;K
k
=夹角Δ
k
/波束宽度其中,K
k
是所述方位针对固定波束k的比值,夹角Δ
k
是所述方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,

,M;M是固定波束的组数;选择最小的所述比值对应的固定波束作为主波束,按照所述比值从大到小的顺序从最大的所述比值开始选择至少一个所述比值对应的固定波束作为副波束。4.根据权利要求1或2所述的方法,其特征在于,所述获得用户相对电子设备的方位之前,还包括:获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。5.根据权利要求4所述的方法,其特征在于,所述获得预设组数的固定波束的波束形成系数、方向、以及波束宽度,包括:为电子设备建立三维笛卡尔坐标系;获得所述N个麦克风在所述坐标系中的坐标;根据所述N个麦克风的坐标计算目标声源在理想条件下的导向矢量;获得电子设备壳体对所述麦克风的频域响应矩阵;根据所述理想条件下的导向矢量以及所述频域响应矩阵计算所述目标声源的真实导向矢量;根据所述真实导向矢量计算所述预设组数的固定波束的波束形成系数、方向、以及波束宽度。6.一种拾音装置,其特征在于,包括:方位获得单元,用于获得用户相对电子设备的方位;所述电子设备设置有N个麦克风;N为大于等于3的整数;
波束选择单元,用于在所述电子设备的预设固定波束中,选择距离所述方位获得单元获得的所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束;信号计算单元,用于当所述N个麦克风接收到声音信号时,使用所述波束选择单元选择的所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述波束选择单元选择的所述副波束的波束形成系数计算所述声音信号的副输出信号;滤波单元,用于使用所述信号计算单元计算的所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号。7.根据权利要求6所述的装置,其特征在于,所述方位获得单元包括:图像获取子单元,用于获取所述电子设备的摄像头捕捉到的图像;方位获得子单元,用于如果从所述图像子单元获取到的所述图像中识别出所述电子设备的用户的人脸信息,根据所述人脸信息在所述图像中的位置信息,获得所述用户相对电子设备的方位;如果从所述图像子单元获取到的所述图像中未识别出所述用户的人脸信息,获取所述电子设备的摆放位置;根据所述摆放位置,获得所述用户相对所述电子设备的方位。8.根据权利要求6或7所述的装置,其特征在于,所述波束选择单元包括:比值计算子单元,用于计算所述方位针对每个固定波束的比值K;K
k
=夹角Δ
k
/波束宽度其中,K
k
是所述方位针对固定波束k的比值,夹角Δ
k
是所述方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,

【专利技术属性】
技术研发人员:黄磊鲍光照缪海波
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1