一种基于矢量语音传感器阵列的语音增强方法及装置制造方法及图纸

技术编号：31738983 阅读：17 留言：0更新日期：2022-01-05 16:17

本发明专利技术公开了一种基于矢量语音传感器阵列的语音增强方法及装置，通过利用两个相互正交的矢量语音传感器组成阵列，可以利用麦克风阵列语音增强技术进行语音增强，且由于阵元可以同点布置，因此具有小型化的特点。此外，矢量语音传感器本身即具有天然的抑制漫反射噪声的能力，可以进一步提升拾音效果。因此，采用矢量语音传感器阵列来进行拾音，结合对应的语音增强技术，可以在小型化的前提下降低噪声干扰，有效提升拾音效果。有效提升拾音效果。有效提升拾音效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于矢量语音传感器阵列的语音增强方法及装置

[0001]本专利技术涉及信号处理
，特别是涉及一种基于矢量语音传感器阵列的语音增强方法及装置。

技术介绍

[0002]自然界中存在各种各样的噪声，包括环境噪声、干扰语音以及设备内部的噪声等，在拾音过程中，这些噪声不可避免的会被引入到拾音结果中，影响拾音效果，降低目标语音的质量以及可懂度。为减小噪声对拾音结果的影响，需要采用语音增强技术对各类噪声予以去除。语音增强技术包括单麦克风语音增强技术，麦克风阵列语音增强技术可以充分利用语音和噪声信号的空间信息，相对于单麦克风语音增强技术具有更优的效果。但是麦克风阵列语音增强技术需要采用多个麦克风同时进行拾音，同时这些麦克风之间的间距不可过小，因此麦克风阵列一般具有较大的尺寸，不利于开发低功耗、小型化的拾音设备。

技术实现思路

[0003]本专利技术提供了一种基于矢量语音传感器阵列的语音增强方法及装置，以解决现有技术中不能在小型化的前提下实现语音增强技术的问题。
[0004]第一方面，本专利技术提供了一种基于矢量语音传感器阵列的语音增强方法，该方法包括：利用两个相互正交的矢量语音传感器和一个全向麦克风作为原始声信号采集单元进行带噪语音信号采集，其中，所述矢量语音传感器和所述全向麦克风是同点布置的；对所述带噪语音信号进行分帧与加窗，并进行单帧信号快速傅里叶变换FFT，然后计算各频点信号来向，对空间噪声进行去除，最后进行快速傅里叶逆变换IFFT与时域增强语音生成，得到增强的语音信号。
[0005]

【技术保护点】

【技术特征摘要】
1.一种基于矢量语音传感器阵列的语音增强方法，其特征在于，包括：利用两个相互正交的矢量语音传感器和一个全向麦克风作为原始声信号采集单元进行带噪语音信号采集，其中，所述矢量语音传感器和所述全向麦克风是同点布置的；对所述带噪语音信号进行分帧与加窗，并进行单帧信号快速傅里叶变换FFT，然后计算各频点信号来向，对空间噪声进行去除，最后进行快速傅里叶逆变换IFFT与时域增强语音生成，得到增强的语音信号。2.根据权利要求1所述的方法，其特征在于，所述两个相互正交的矢量语音传感器分别是第一矢量语音传感器v1和第二矢量语音传感器v2，所述第一矢量语音传感器v1的敏感方向为0
°
，所述第二矢量语音传感器v2的敏感方向为90
°
，所述第一矢量语音传感器v1和所述第二矢量语音传感器v2所在平面的角度范围为[
‑
180,180]；所述第一矢量语音传感器v1采集到第一声矢量信号x，所述第二矢量语音传感器v2采集到第二声矢量信号y，其中，所述第一矢量语音传感器v1与所述第二矢量语音传感器所采集到的声矢量信号是正交的，所述全向麦克风采集到声标量信号p。3.根据权利要求2所述的方法，其特征在于，对所述带噪语音信号进行分帧与加窗，包括：对所述第一矢量语音传感器v1采集到第一声矢量信号x、所述第二矢量语音传感器v2采集到第二声矢量信号y，以及所述全向麦克风采集到的声标量信号p进行分帧加窗，得到第一声矢量时域单帧信号x
win
(l)、第二声矢量时域单帧信号y
win
(l)、声标量时域单帧信号p
win
(l)，其中，l＝1,2,
…
,L，L为单帧时域带噪语音信号长度。4.根据权利要求3所述的方法，其特征在于，所述分帧加窗的帧长为20ms，帧移为10ms，窗函数为汉宁窗。5.根据权利要求3所述的方法，其特征在于，所述进行单帧信号快速傅里叶变换，包括：对第一声矢量时域单帧信号x
win
(l)、第二声矢量时域单帧信号y
win
(l)、声标量时域单帧信号p
win
(l)进行如下处理，(l)进行如下处理，(l)进行如下处理，其中，ceil表示向上取整，x
fwin
(l)，y
fwin
(l)，p
fwin
(l)分别为对应v1、v2、u的第一声矢量待变换时域单帧信号、第二声矢量待变换时域单帧信号、声标量待变换时域单帧信号；得到x
fwin
(l)，y
fwin
(l)，p
fwin
(l)后，利用FFT将其转换到频域，得到频域单帧信号，X
win
(k)＝fft(x
fwin
(l))
ꢀꢀꢀꢀ
(4)Y
win
(k)＝fft(y
fwin
(l))
ꢀꢀꢀꢀꢀꢀꢀ
(5)P
win
(k)＝fft(p
fwin
(l))
ꢀꢀꢀꢀꢀ
(6)其中，X
win
(k),Y
win
(k),P
win
(k)分别为对应v1、v2、u的第一声矢量频域单帧信号、第二声矢量频域单帧信号、声标量频域单帧信号，k为频点序号，fft为快速傅里叶变换算子。6.根据权利要求5所述的方法，其特征在于，所述计算...

【专利技术属性】
技术研发人员：钟华森，刘云飞，周瑜，王笑楠，冯杰，
申请(专利权)人：中国电子科技集团公司第三研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人