语音处理方法和装置、电子设备以及存储介质制造方法及图纸

技术编号：24802264 阅读：34 留言：0更新日期：2020-07-07 21:30

本公开实施例公开了语音处理方法和装置、电子设备以及存储介质。该方法的一具体实施方式包括：对于麦克风阵列采集的待处理语音数据中的每帧语音数据，计算该帧语音数据对应的到来角；基于待处理语音数据中各帧语音数据对应的到来角，对高斯混合模型和目标声源标识集合进行估计更新，确定待处理语音数据中各帧语音数据对应的到来角对应的声源标识；将目标声源标识集合的各目标声源标识和环境噪声声源标识中对应的到来角数量最多的声源标识确定为主声源标识；响应于确定主声源标识不是环境噪声声源标识，对待处理语音数据进行自动增益控制后输出。该实施方式实现了针对目标声源动态调整增益，环境噪声声源不会影响自动增益控制的效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法和装置、电子设备以及存储介质
本公开实施例涉及计算机
，具体涉及语音处理方法和装置、电子设备以及存储介质。
技术介绍
自动增益控制(AGC，AutomaticGainControl)是一种常用的技术，通过动态的增益变换把信号的幅度控制在目标幅度范围内。自动增益控制即跟踪信号幅度均值，当信号幅度均值大于给定范围上限时压低信号，小于范围下限时增大信号。传统的AGC是基于时域能量，用于手持通话尚可，但是用于免提通话或者识别场景存在以下缺陷：当用户在远场讲话时，麦克风采集的声音比较小，信噪比比较低。此时AGC通常会工作在放大模式，加较大的增益。然而此时近场微小的噪声(比如点击鼠标声，翻书声)也会被放得很大，声音信号经AGC处理输出后会产生不期望的巨大噪声。反之，如果麦克风近场有较大的背景噪声存在，AGC会倾向于压缩信号幅度，此时远场区的说话人声音也会受到压缩导致在声音信号输出后远场区说话人的声音不可辨识。同样地，在多个用户处于与麦克风距离不同的位置说话时，也存在类似问题。这主要是由传统AGC无法区分不同的目...

【技术保护点】
1.一种语音处理方法，包括：/n对于麦克风阵列采集的待处理语音数据中的每帧语音数据，计算该帧语音数据对应的到来角；/n基于所述待处理语音数据中各帧语音数据对应的到来角，对高斯混合模型的模型参数进行估计更新，对目标声源标识集合进行相应更新，以及确定所述待处理语音数据中各帧语音数据对应的到来角对应的声源标识，其中，所述高斯混合模型中的各高斯模型与所述目标声源标识集合中各目标声源标识一一对应，所述高斯混合模型中每个高斯模型用于表征所述目标声源标识集合中与该高斯模型对应的目标声源标识所指示的目标声源相对于所述麦克风阵列的到来角分布，到来角对应的声源标识为所述目标声源标识集合中的目标声源标识或者用于指示...

【技术特征摘要】
1.一种语音处理方法，包括：
对于麦克风阵列采集的待处理语音数据中的每帧语音数据，计算该帧语音数据对应的到来角；
基于所述待处理语音数据中各帧语音数据对应的到来角，对高斯混合模型的模型参数进行估计更新，对目标声源标识集合进行相应更新，以及确定所述待处理语音数据中各帧语音数据对应的到来角对应的声源标识，其中，所述高斯混合模型中的各高斯模型与所述目标声源标识集合中各目标声源标识一一对应，所述高斯混合模型中每个高斯模型用于表征所述目标声源标识集合中与该高斯模型对应的目标声源标识所指示的目标声源相对于所述麦克风阵列的到来角分布，到来角对应的声源标识为所述目标声源标识集合中的目标声源标识或者用于指示非目标声源的环境噪声声源标识；
将所述目标声源标识集合的各目标声源标识和所述环境噪声声源标识中对应的到来角数量最多的声源标识确定为所述待处理语音数据对应的主声源标识，其中，所述目标声源标识集合中目标声源标识或者所述环境噪声声源标识对应的到来角数量为所述待处理语音数据对应的各帧语音数据对应的各到来角中对应的声源标识为该目标声源标识或所述环境噪声声源标识的到来角数量；
响应于确定所述主声源标识不是所述环境噪声声源标识，对所述待处理语音数据进行自动增益控制后输出。

2.根据权利要求1所述的方法，其中，所述方法还包括：
响应于确定所述主声源标识是所述环境噪声声源标识，输出所述待处理语音数据；或者
响应于确定所述主声源标识是所述环境噪声声源标识，将所述待处理数据增益预设常量后输出。

3.根据权利要求2所述的方法，其中，所述对于麦克风阵列采集的待处理语音数据中的每帧语音数据，计算该帧语音数据对应的到来角，包括：
对于麦克风阵列采集的待处理语音数据中的每帧语音数据，计算该帧语音数据对应的到来角和相应的到来角置信度；以及
所述基于所述待处理语音数据中各帧语音数据对应的到来角，对高斯混合模型的模型参数进行估计更新，对目标声源标识集合进行相应更新，以及确定所述待处理语音数据中各帧语音数据对应的到来角对应的声源标识，包括：
响应于确定满足预设环境噪声条件，将所述待处理语音数据中各帧语音数据对应的到来角对应的声源标识确定为所述环境噪声声源标识，所述预设环境噪声条件包括以下至少一项：所述待处理语音数据的各帧语音数据对应的到来角置信度平均值小于预设置信度阈值，噪声到来角数量与总到来角数量的比值大于预设比值阈值以及所述待处理语音数据中各帧语音数据对应的各到来角的方差大于预设到来角方差阈值，其中，所述噪声到来角数量为所述待处理语音数据的各帧语音数据对应的到来角中相应的到来角置信度小于所述预设置信度阈值的到来角数量，所述总到来角数量为所述待处理语音数据的各帧语音数据对应的到来角之和；
响应于确定不满足所述预设环境噪声条件，基于所述待处理语音数据中各帧语音数据对应的到来角，对高斯混合模型的模型参数进行估计更新，对目标声源标识集合进行相应更新，以及确定所述待处理语音数据中各帧语音数据对应的到来角对应的声源标识。

4.根据权利要求1-3中任一所述的方法，其中，所述对所述待处理语音数据进行自动增益控制后输出，包括：
根据所述主声源标识所指示的目标声源的平均语音幅度，对所述待处理语音数据进行自动增益控制后输出。

5.根据权利要求4所述的方法，其中，所述基于所述待处理语音数据中各帧语音数据对应的到来角，对高斯混合模型的模型参数进行估计更新，包括：
利用最大期望算法，基于...

【专利技术属性】
技术研发人员：张铖，
申请(专利权)人：深圳市未艾智能有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人