复杂场景下的分布式麦克风拾音系统及方法技术方案

技术编号:24173673 阅读:130 留言:0更新日期:2020-05-16 03:49
本发明专利技术公开了一种复杂场景下的分布式麦克风拾音系统及方法,采用分布式结构对多个麦克风进行阵列布局,拾取应用场景下的语音信息;再通过降噪、回声消除、去混响等音频算法对拾取的语音信号进行处理,提升拾音效果,能够得到平滑干净的语音信号;最后,将处理后的语音信号输出来控制设备执行相应的操作。

Distributed microphone pickup system and method in complex scene

【技术实现步骤摘要】
复杂场景下的分布式麦克风拾音系统及方法
本专利技术涉及分布式麦克风阵列、声源定位、噪声抑制、回声消除、去混响、混音等
,具体涉及一种复杂场景下的分布式麦克风拾音系统及方法。
技术介绍
麦克风阵列是由一定数量的麦克风按照某种特定的空间几何分布排列而成的一种信号拾取装置。阵列参数包括:麦克风数目,阵列-孔径,麦克风阵元间距,麦克风空间分布形式等几何参数。麦克风阵列信号处理,是对麦克风阵列采集到的目标声音信号,利用阵元信号之间的统计特性,进行相关性分析和混合处理,从而实现声源定向、声源分离和信号增强等需求。所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享。分布式麦克风阵列是麦克风阵列与分布式系统相结合的产物,在系统特点上与无线传感网络类似,同时又具有麦克风阵列语音拾取的功能,所以相比常规麦克风阵列,分布式麦克风阵列的应用更广泛、灵活。目前已经发展得较为完善的室内声源定位算法有SRP(SteeredResponsePower)方法,多重信号分类(MUSIC,MUtipleSIgnalClassification)方法,和基于时延估计的定位方法等。基于时延估计的声源定位算法复杂度较低,定位精度较高,抗干扰能力强,在实时系统中有较广泛的应用。时延估计主要的算法有广义互相关、自适应特征值分解、最大似然估计等,声源定位算法有球面相交估计器、球面差值估计器、线性修正最小二乘估计器等。降噪又称噪声抑制。现实生活中,实际采集到的音频通常会有一定强度的背景音,这些背景音一般是背景噪音,当背景噪音强度较大时,会对语音应用的效果产生明显的影响,比如语音识别率降低,端点检测灵敏度下降等,因此,在语音的前端处理中,进行噪声抑制是很有必要的。常用的降噪算法有:自适应滤波器、谱减法、维纳滤波法等。回声就是指说话者通过通信设备发送给其他人的语音又重新又回到自己的听筒里的现象。声学回声消除算法(AcousticEchoCancellation,AEC)是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的。去混响算法:声波在室内传播时,要被墙壁、天花板、地板等障碍物反射,每反射一次都要被障碍物吸收一些。这样,当声源停止发声后,声波在室内要经过多次反射和吸收,最后才消失,我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发生后仍然存在的声延续现象)。这种现象叫做混响,这段时间叫做混响时间。混响的存在会对其它算法的实现产生影响,如广义互相关算法在混响较强的室内环境中往往不能得到准确的估计结果,进而影响声源定位的准确度,因此有必要去除混响。混音是把多个声源的声音,整合至一个立体声轨或者单音音轨中。混音最显著的特点即为提供一个多输入单输出的信道,线性叠加是多路音频信号进行混音的基础,但经叠加运算后会造成结果溢出,从而引入噪声干扰,因此,解决混音后采样值的溢出问题是混音算法的难点。对混音结果溢出处理的基本思想是对音频信号的振幅做平滑处理,这样就可以在避免溢出的同时保证基本不破坏音频信号原来的频率。目前处理混音溢出的方法有箝位法、平均权重法、自适应加权法等。随着人工智能技术的发展,通过人机交互的方式来控制设备的技术也越来越普遍,由于语音交互的便捷性,因此成为了人机交互入口的第一选择,如智能音箱、智能家居等。这些设备工作的前提是必须能够获得清晰的语音信号,才能进行后续的语音识别、语音信号处理等环节。但是我们日常所处的环境往往伴随各种噪声,如他人的交谈声、汽车行驶声及喇叭声、餐厅内嘈杂的声音等等。在噪声场景下,想要获取清晰的语音就比较困难,此外,拾音距离也会影响语音信号的采集质量,当麦克风与信号源距离太远(比如10m,20m距离)时,录制信号的信噪比会很低,对于算法处理和语音识别都比较困难。传统的几何麦克风阵列技术虽然已经达到相当的技术水平,但在应用灵活性上明显不足,而且受设备尺寸及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大;另外,当麦克风与信号源距离太远(比如10m,20m距离)时,录制信号的信噪比会很低,对于算法处理和语音识别都比较困难。复杂场景下拾取清晰的语音信号非常困难,但拾音又是语音交互系统的唯一关键入口。若将复杂场景下拾取的语音不经处理直接送入语音识别系统,则语音识别率非常低,甚至使识别系统完全失效,影响语音交互的体验感。
技术实现思路
本专利技术的目的在于一种复杂场景下的分布式麦克风拾音系统及方法,以解决复杂场景下拾音困难的技术难点,本专利技术采用分布式麦克风阵列采集应用场景下的语音信息,再通过回声消除、声源定向、去混响、降噪、混音等音频算法处理,能够在存在噪声、混响、回声等场景下拾取清晰的期望语音信号,得到带位置信息的平滑干净的期望语音信号,保证语音交互系统中语音识别的准确率。为达到上述目的,本专利技术采用如下技术方案:复杂场景下的分布式麦克风拾音系统,包括分布式麦克风阵列模块、语音处理模块、MCU主控模块、语音输出模块和存储模块;所述分布式麦克风阵列拾音模块用于拾取语音信号;所述语音处理模块用于对拾取的语音信号进行回声消除、声源定向、去混响、降噪及混音的语音增强处理,得到带位置信息的干净平滑的语音信号;所述语音输出模块用于将增强后的语音信号发送至后台数据采集器,并根据声音信息控制目标设备;所述存储模块用于存储固件及需要保存的音频文件;所述MCU主控模块用于配置分布式麦克风阵列模块、语音处理模块、语音输出模块和存储模块,且MCU主控模块通过串口与外部的数据交互设备进行交互。复杂场景下的分布式麦克风拾音方法,包括以下步骤:步骤一:拾取语音信号;步骤二:对拾取的语音信号进行回声消除、声源定向、去混响、降噪及混音的语音增强处理,得到带位置信息的干净平滑的语音信号;步骤三:将增强后的语音信号发送至后台数据采集器,并根据声音信息控制目标设备。进一步地,步骤二中采用频域最小均方算法来实现回声消除,具体如下:设n时刻远端语音输入序列x(n)如下:x(n)=[x(n)x(n-1)…x(n-N+1)]T(5)其中,x(n)表示n时刻的信号采样值,N表示输入序列的长度,x(n)表示n时刻之前的N个采样序列,[·]T表示转置;对应于长度为N的FIR滤波器在n时刻的抽头权向量为:其中,表示滤波器的权值;根据FIR滤波器原理,n时刻回声信号的估计值如下:将式(7)用向量表示如下:下面对x(n)进行分块,设k表示块下标,它与原始样值时间n的关系为:n=kL+i,i=0,1,...,L-1;k=1,2,...其中,L是块的长度,i表示当前块中元素的下标,第k块的数据用向量表示形式如下:aT(k)=[x(kL)x(kL+本文档来自技高网
...

【技术保护点】
1.复杂场景下的分布式麦克风拾音系统,其特征在于,包括分布式麦克风阵列模块、语音处理模块、MCU主控模块、语音输出模块和存储模块;/n所述分布式麦克风阵列拾音模块用于拾取语音信号;所述语音处理模块用于对拾取的语音信号进行回声消除、声源定向、去混响、降噪及混音的语音增强处理,得到带位置信息的干净平滑的语音信号;所述语音输出模块用于将增强后的语音信号发送至后台数据采集器,并根据声音信息控制目标设备;所述存储模块用于存储固件及需要保存的音频文件;所述MCU主控模块用于配置分布式麦克风阵列模块、语音处理模块、语音输出模块和存储模块,且MCU主控模块通过串口与外部的数据交互设备进行交互。/n

【技术特征摘要】
1.复杂场景下的分布式麦克风拾音系统,其特征在于,包括分布式麦克风阵列模块、语音处理模块、MCU主控模块、语音输出模块和存储模块;
所述分布式麦克风阵列拾音模块用于拾取语音信号;所述语音处理模块用于对拾取的语音信号进行回声消除、声源定向、去混响、降噪及混音的语音增强处理,得到带位置信息的干净平滑的语音信号;所述语音输出模块用于将增强后的语音信号发送至后台数据采集器,并根据声音信息控制目标设备;所述存储模块用于存储固件及需要保存的音频文件;所述MCU主控模块用于配置分布式麦克风阵列模块、语音处理模块、语音输出模块和存储模块,且MCU主控模块通过串口与外部的数据交互设备进行交互。


2.复杂场景下的分布式麦克风拾音方法,采用权利要求1所述的复杂场景下的分布式麦克风拾音系统,其特征在于,包括以下步骤:
步骤一:拾取语音信号;
步骤二:对拾取的语音信号进行回声消除、声源定向、去混响、降噪及混音的语音增强处理,得到带位置信息的干净平滑的语音信号;
步骤三:将增强后的语音信号发送至后台数据采集器,并根据声音信息控制目标设备。


3.根据权利要求2所述的复杂场景下的分布式麦克风拾音方法,其特征在于,步骤二中采用频域最小均方算法来实现回声消除,具体如下:
设n时刻远端语音输入序列x(n)如下:
x(n)=[x(n)x(n-1)…x(n-N+1)]T(5)
其中,x(n)表示n时刻的信号采样值,N表示输入序列的长度,x(n)表示n时刻之前的N个采样序列,[·]T表示转置;
对应于长度为N的FIR滤波器在n时刻的抽头权向量为:



其中,表示滤波器的权值;
根据FIR滤波器原理,n时刻回声信号的估计值如下:



将式(7)用向量表示如下:



下面对x(n)进行分块,设k表示块下标,它与原始样值时间n的关系为:
n=kL+i,i=0,1,…,L-1;k=1,2,…
其中,L是块的长度,i表示当前块中元素的下标,第k块的数据用向量表示形式如下:
aT(k)=[x(kL)x(kL+1)…x(kL+L-1)](9)
将滤波器对输入块a(k)的响应表示如下:



其中,j=0,1,…,N-1,表示滤波器抽头权向量中元素的下标;
根据重叠存储方法,将滤波器N个抽头权值用等个数的零来填补,并采用2N点FFT进行计算得到滤波器向量的FFT结果为:



其中,01×N表示长度为N的一维零向量,表示补零后的滤波器权值向量,FFT[·]表示快速傅里叶变换;表示对补零后的滤波器权值向量的FFT结果,滤波器抽头权向量为频域权向量的长度是时域权向量长度的两倍,相应的:
Xf(k)=diag{FFT[x(kN-N),…,x(kN-1),x(kN),…,x(kN+N-1)]}(12)
其中,diag{·}表示对角变换;Xf(k)表示对输入数据的两个相继块进行傅里叶变换,再通过对角变换得到的一个2N*2N对角阵;
将重叠存储法用于式(10)得



其中,IFFT[·]表示快速傅里叶反变换,每处理一帧,式(13)只有最后的N个元素被保留,因为前面的N个元素是循环卷积的结果;
设第k块的N*1期望信号d(k)和误差信号e(k)分别如下:
d(k)=[d(kN)d(kN+1)…d(kN+N-1)]T(14)



其中,d(i)、e(i)分别表示向量d(k)和e(k)的第i个元素,i=kN,kN+1…,kN+N-1;
根据式(13),将e(k)变换到频域,即



则在更新权值的相关矩阵Φ(k)如下:



抽头系数更新过程在频域中表现如下:



其中,μ表示更新步长,其大小决定滤波器的收敛速度。


4.根据权利要求2所述的复杂场景下的分布式麦克风拾音方法,其特征在于,步骤二中采用广义互相关算法实现声源定向,具体如下:
假设声场中某方向上有一个未知声源,该声源在n时刻的信号采样值为s(n),麦克风阵列包括M个阵元,则麦克风阵列第m个阵元的输出信号表示如下:
xm(n)=αms(n-Dm)+bm(n),m=1,2,…,M(19)
其中,αm是声音传播衰减因子,并且满足0≤αm≤1;Dm对应于从未知声源到麦克风m的传播时间延迟;bm(n)为第m个麦克风接收到的加性噪声,假定bm(n)服从零均值的高斯分布,且与声源信号s(n),以及其他麦克风上接收的噪声信号均统计不相关;
该信号模型下,第i个与第j个麦克风之间的信号时延差表示为:
τij=Dj-Di(20)
其中,i,j=1,2,…,M,并且i≠j,时延估计的目标就是根据观测信号xm(n)得到τij的估计值
结合公式(19)中的信号模型,采用GCC方法估计x1(n)和x2(n)的相对到达时间差:



其中,是广义互相关函数,p表示时延,p∈[-τmax,τmax],τmax是最大可能时延,则






其中,ωk表示第k个频段的角频率,K表示频段的上限,k=0,1…,K-1;

是x1(n)和x2(n)的互功率谱,(·)*为复共轭,E[·]表示数学期望,Φ(ωk)为加权函数,因此加权互功率谱为:



实际系统中,互功率谱的估计是将瞬时值替代期望值来实现,即



通过式(21)能够计算出声源到不同麦克风对的相对时延差,通过时延差信息可实现声源定位。


5.根据权利要求2所述的复杂场景下的分布式麦克风拾音方法,其特征在于,步骤二中采用基于盲反卷积的在线加权预测误差算法去混响,具体如下:
考虑一个单声源M麦克风的语音接收系统,n时刻的语音信号s(n)经过传输通道到达第m个麦克风,Lh为hm的阶数x(m)(n)和v(m)(n)分别表示n时刻第m个麦克风的观测信号和噪...

【专利技术属性】
技术研发人员:刘佳黄海隆弢陈龙陈静
申请(专利权)人:声耕智能科技西安研究院有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1