复杂场景下的分布式麦克风拾音系统及方法技术方案

技术编号：24173673 阅读：207 留言：0更新日期：2020-05-16 03:49

本发明专利技术公开了一种复杂场景下的分布式麦克风拾音系统及方法，采用分布式结构对多个麦克风进行阵列布局，拾取应用场景下的语音信息；再通过降噪、回声消除、去混响等音频算法对拾取的语音信号进行处理，提升拾音效果，能够得到平滑干净的语音信号；最后，将处理后的语音信号输出来控制设备执行相应的操作。

Distributed microphone pickup system and method in complex scene

全部详细技术资料下载

【技术实现步骤摘要】
复杂场景下的分布式麦克风拾音系统及方法
本专利技术涉及分布式麦克风阵列、声源定位、噪声抑制、回声消除、去混响、混音等
，具体涉及一种复杂场景下的分布式麦克风拾音系统及方法。
技术介绍
麦克风阵列是由一定数量的麦克风按照某种特定的空间几何分布排列而成的一种信号拾取装置。阵列参数包括：麦克风数目，阵列-孔径，麦克风阵元间距，麦克风空间分布形式等几何参数。麦克风阵列信号处理，是对麦克风阵列采集到的目标声音信号，利用阵元信号之间的统计特性，进行相关性分析和混合处理，从而实现声源定向、声源分离和信号增强等需求。所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内，相互之间通过有线或者无线的方式进行数据的交换和共享。分布式麦克风阵列是麦克风阵列与分布式系统相结合的产物，在系统特点上与无线传感网络类似，同时又具有麦克风阵列语音拾取的功能，所以相比常规麦克风阵列，分布式麦克风阵列的应用更广泛、灵活。目前已经发展得较为完善的室内声源定位算法有SRP(SteeredResponsePower)方法，多重信号分类(MUSIC，MUtipleSI本文档来自技高网...

【技术保护点】
1.复杂场景下的分布式麦克风拾音系统，其特征在于，包括分布式麦克风阵列模块、语音处理模块、MCU主控模块、语音输出模块和存储模块；/n所述分布式麦克风阵列拾音模块用于拾取语音信号；所述语音处理模块用于对拾取的语音信号进行回声消除、声源定向、去混响、降噪及混音的语音增强处理，得到带位置信息的干净平滑的语音信号；所述语音输出模块用于将增强后的语音信号发送至后台数据采集器，并根据声音信息控制目标设备；所述存储模块用于存储固件及需要保存的音频文件；所述MCU主控模块用于配置分布式麦克风阵列模块、语音处理模块、语音输出模块和存储模块，且MCU主控模块通过串口与外部的数据交互设备进行交互。/n

【技术特征摘要】
1.复杂场景下的分布式麦克风拾音系统，其特征在于，包括分布式麦克风阵列模块、语音处理模块、MCU主控模块、语音输出模块和存储模块；
所述分布式麦克风阵列拾音模块用于拾取语音信号；所述语音处理模块用于对拾取的语音信号进行回声消除、声源定向、去混响、降噪及混音的语音增强处理，得到带位置信息的干净平滑的语音信号；所述语音输出模块用于将增强后的语音信号发送至后台数据采集器，并根据声音信息控制目标设备；所述存储模块用于存储固件及需要保存的音频文件；所述MCU主控模块用于配置分布式麦克风阵列模块、语音处理模块、语音输出模块和存储模块，且MCU主控模块通过串口与外部的数据交互设备进行交互。

2.复杂场景下的分布式麦克风拾音方法，采用权利要求1所述的复杂场景下的分布式麦克风拾音系统，其特征在于，包括以下步骤：
步骤一：拾取语音信号；
步骤二：对拾取的语音信号进行回声消除、声源定向、去混响、降噪及混音的语音增强处理，得到带位置信息的干净平滑的语音信号；
步骤三：将增强后的语音信号发送至后台数据采集器，并根据声音信息控制目标设备。

3.根据权利要求2所述的复杂场景下的分布式麦克风拾音方法，其特征在于，步骤二中采用频域最小均方算法来实现回声消除，具体如下：
设n时刻远端语音输入序列x(n)如下：
x(n)＝[x(n)x(n-1)…x(n-N+1)]T(5)
其中，x(n)表示n时刻的信号采样值，N表示输入序列的长度，x(n)表示n时刻之前的N个采样序列，[·]T表示转置；
对应于长度为N的FIR滤波器在n时刻的抽头权向量为：

其中，表示滤波器的权值；
根据FIR滤波器原理，n时刻回声信号的估计值如下：

将式(7)用向量表示如下：

下面对x(n)进行分块，设k表示块下标，它与原始样值时间n的关系为：
n＝kL+i,i＝0,1,…,L-1；k＝1,2,…
其中，L是块的长度，i表示当前块中元素的下标，第k块的数据用向量表示形式如下：
aT(k)＝[x(kL)x(kL+1)…x(kL+L-1)](9)
将滤波器对输入块a(k)的响应表示如下：

其中，j＝0,1,…,N-1，表示滤波器抽头权向量中元素的下标；
根据重叠存储方法，将滤波器N个抽头权值用等个数的零来填补，并采用2N点FFT进行计算得到滤波器向量的FFT结果为：

其中，01×N表示长度为N的一维零向量，表示补零后的滤波器权值向量，FFT[·]表示快速傅里叶变换；表示对补零后的滤波器权值向量的FFT结果，滤波器抽头权向量为频域权向量的长度是时域权向量长度的两倍，相应的：
Xf(k)＝diag{FFT[x(kN-N),…,x(kN-1),x(kN),…,x(kN+N-1)]}(12)
其中，diag{·}表示对角变换；Xf(k)表示对输入数据的两个相继块进行傅里叶变换，再通过对角变换得到的一个2N*2N对角阵；
将重叠存储法用于式(10)得

其中，IFFT[·]表示快速傅里叶反变换，每处理一帧，式(13)只有最后的N个元素被保留，因为前面的N个元素是循环卷积的结果；
设第k块的N*1期望信号d(k)和误差信号e(k)分别如下：
d(k)＝[d(kN)d(kN+1)…d(kN+N-1)]T(14)

其中，d(i)、e(i)分别表示向量d(k)和e(k)的第i个元素，i＝kN,kN+1…,kN+N-1；
根据式(13)，将e(k)变换到频域，即

则在更新权值的相关矩阵Φ(k)如下：

抽头系数更新过程在频域中表现如下：

其中，μ表示更新步长，其大小决定滤波器的收敛速度。

4.根据权利要求2所述的复杂场景下的分布式麦克风拾音方法，其特征在于，步骤二中采用广义互相关算法实现声源定向，具体如下：
假设声场中某方向上有一个未知声源，该声源在n时刻的信号采样值为s(n)，麦克风阵列包括M个阵元，则麦克风阵列第m个阵元的输出信号表示如下：
xm(n)＝αms(n-Dm)+bm(n),m＝1,2,…,M(19)
其中，αm是声音传播衰减因子，并且满足0≤αm≤1；Dm对应于从未知声源到麦克风m的传播时间延迟；bm(n)为第m个麦克风接收到的加性噪声，假定bm(n)服从零均值的高斯分布，且与声源信号s(n)，以及其他麦克风上接收的噪声信号均统计不相关；
该信号模型下，第i个与第j个麦克风之间的信号时延差表示为：
τij＝Dj-Di(20)
其中，i,j＝1,2,…,M，并且i≠j，时延估计的目标就是根据观测信号xm(n)得到τij的估计值
结合公式(19)中的信号模型，采用GCC方法估计x1(n)和x2(n)的相对到达时间差：

其中，是广义互相关函数，p表示时延，p∈[-τmax,τmax]，τmax是最大可能时延，则

其中，ωk表示第k个频段的角频率，K表示频段的上限，k＝0,1…,K-1；

是x1(n)和x2(n)的互功率谱，(·)*为复共轭，E[·]表示数学期望，Φ(ωk)为加权函数，因此加权互功率谱为：

实际系统中，互功率谱的估计是将瞬时值替代期望值来实现，即

通过式(21)能够计算出声源到不同麦克风对的相对时延差，通过时延差信息可实现声源定位。

5.根据权利要求2所述的复杂场景下的分布式麦克风拾音方法，其特征在于，步骤二中采用基于盲反卷积的在线加权预测误差算法去混响，具体如下：
考虑一个单声源M麦克风的语音接收系统，n时刻的语音信号s(n)经过传输通道到达第m个麦克风，Lh为hm的阶数x(m)(n)和v(m)(n)分别表示n时刻第m个麦克风的观测信号和噪...

【专利技术属性】
技术研发人员：刘佳，黄海，隆弢，陈龙，陈静，
申请(专利权)人：声耕智能科技西安研究院有限公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人