一种语音增强交互方法及系统、存储介质及电子设备技术方案

技术编号：19554059 阅读：30 留言：0更新日期：2018-11-24 22:29

本发明专利技术提供一种语音增强交互方法及系统、存储介质及电子设备，将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号，并进行混响抑制和平稳噪声抑制；基于去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向；在主方向和唤醒方向基于去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向。本发明专利技术的语音增强交互方法及系统、存储介质及电子设备有效地提高了语音交互的稳定性和可靠性。

A Speech Enhancement Interactive Method and System, Storage Media and Electronic Equipment

The invention provides a voice enhancement interaction method and system, storage medium and electronic equipment, which converts the time domain signal of each microphone in the ring microphone array into the frequency domain signal of each microphone, and carries out reverberation suppression and stable noise suppression; frequency domain signal of each microphone based on removing reverberation and stable noise The wake-up direction source is located to obtain the wake-up direction; the main direction and the wake-up direction acquire the time-domain signal of the main direction beam and the time-domain signal of the wake-up direction beam based on the frequency-domain signal of each microphone which removes reverberation and stable noise; the speech recognition of the time-domain signal of the main direction beam; and the wake-up direction. Beam time domain signals are used to recognize wake-up words, and if they are recognized as wake-up words, the main direction is changed to the acquired wake-up direction. The voice enhancement interaction method and system, storage medium and electronic equipment of the invention effectively improve the stability and reliability of voice interaction.

全部详细技术资料下载

【技术实现步骤摘要】
一种语音增强交互方法及系统、存储介质及电子设备
本专利技术涉及语音处理的
，特别是涉及一种语音增强交互方法及系统、存储介质及电子设备。
技术介绍
随着信息科技的发展，人工智能技术越来越走进人们的生活当中。而在众多的人机交互中，语音交互是一种最自然且最符合人类行为的一种交互方式。语音识别技术的不断发展，也使得语音交互成为现实。在使用过程中，通常使用特定唤醒词触发语音交互系统。然而，在实际生活场景中，语音交互环境较为复杂，容易受到环境噪声、混响、人声干扰等影响，使得麦克风采集的语音信号信噪比较差，严重影响了语音交互的准确性。现有技术中，采用各种语音增强方法来提高语音信噪比，其中包括单麦克风语音增强技术和麦克风阵列语音增强技术。单麦克风语音增强技术为比较传统的语音增强技术，包括谱减法、维纳滤波法等方法。麦克风阵列语音增强相比单麦克风语音增强技术，引入了声源信号的空间信息。现有语音增强麦克风阵列通常采用均匀线形阵列，并使用自适应波束形成语音增强方法，例如广义旁瓣相消器(GSC)，同时还需要声源定位功能来确定目标声源位置，以使得波束方向指向目标声源方向。现有声源定位方...

【技术保护点】
1.一种基于环形麦克风阵列的语音增强交互方法，其特征在于：包括以下步骤：将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号；在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制，得到去除混响和平稳噪声的各个麦克风的频域信号；基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向；在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；所述主方向为当前正在拾音的目标方向；对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤...

【技术特征摘要】
1.一种基于环形麦克风阵列的语音增强交互方法，其特征在于：包括以下步骤：将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号；在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制，得到去除混响和平稳噪声的各个麦克风的频域信号；基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向；在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；所述主方向为当前正在拾音的目标方向；对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向，并基于更改后的主方向对应的主方向波束时域信号进行语音识别。2.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：对环形麦克风阵列中各个麦克风的时域信号xi(n)进行分帧加窗以及短时傅里叶变换，得到各个麦克风的频域信号Xi(k，l)，其中i表示第i个麦克风，n表示时域样点索引号，k表示频域样点索引号，l表示当前帧号，i取值为1～M的自然数，M为麦克风的个数。3.根据权利要求2所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：对所述各个麦克风的频域信号Xi(k，l)进行混响抑制和平稳噪声抑制时，以交互空间的混响时间为先验知识，建立统计模型，进行后混响方差估计，同时采用最小值跟踪算法进行噪声估计；然后将估计得到的后混响方差和噪声方差作为输入，采用改进型最小均方误差方法计算语音增强增益Gi(k，l)，最后根据X′i(k，l)＝Xi(k，l)×Gi(k，l)得到去除混响和平稳噪声的各个麦克风的频域信号X′i(k，l)。4.根据权利要求2所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：获取所述唤醒方向包括以下步骤：设定扫描方向θj及扫描频段[Kl，Kh]，其中Sn为扫描个数；基于去除混响和平稳噪声的各个麦克风的频域信号X′i(k，l)，在各个扫描方向θj的扫描频段上进行波束滤波，并计算各个扫描方向对应的扫描频段上波束滤波后的能量值其中为扫描方向θj对应的超增益固定波束滤波器；计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和其中L为一定时间片T所对应的帧数，L＝floor(T×Fs/N)，N为帧长，Fs为麦克风信号的采样率，floor()表示向下取整运算；搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θj，l)中前三个能量大值对应的扫描方向；其中θm1、θm2和θm3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向；对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向θW。5.根据权利要求4所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向θW包括以下步骤：根据对θm1和θm2进行平滑操作，得到θ12，其中θΔ为预设最大误差角；根据对θ12和θm3进行平滑操作，得到唤醒方向θW，其中α为预设平滑系数。6.根据权利要求2所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：获取主方向波束时域信号xI(n，l)和唤醒方向波束时域信号xW(n，l)时，包括以下步骤：根据对主方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k，l)进行频域波束滤波，得到滤波后的主方向波束频域信号YI(k，l)；根据对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k，l)进行频域波束滤波，得到滤波后的唤醒方向波束频域信号YW(k，l)；其中，和分别表示主方向θI和唤醒方向θW对应的超增益固定波束滤波器；分别对主方向波束频域信号YI(k，l)和唤醒方向波束频域信号YW(k，l)进行短时反傅里叶变换，得到主方向波束时域信号xI(n，l)和唤醒方向波束时域信号xW(n，l)。7.根据权利要求4或6所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：所述超增益固定波束滤波器的系数预先通过仿真计算获得，其中干扰噪声假设为散射噪声，白噪声的增益根据需求进行设定。8.一种基于环形麦克风阵列的语音增强交互系统，其特征在于：包括转换模块、抑制模块、第一获取模块、第二获取模块和语音识别模块；转换模块用于将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号；抑制模块用于在频域对所述各个麦克风...

【专利技术属性】
技术研发人员：金剑，张益萍，
申请(专利权)人：福州瑞芯微电子股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人