用于语音识别系统的增益处理方法及装置制造方法及图纸

技术编号：12906726 阅读：73 留言：0更新日期：2016-02-24 14:14

本申请提出一种用于语音识别系统的增益处理方法和装置，其中，该方法包括：从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，音频期望幅值与语音识别系统中的训练数据匹配；从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；应用期望增益对第一音频数据进行幅度调整。实现了对音频数据进行自动的增益调整，使得接收到的音频信号的幅值大于语音识别系统的门限值，且与训练数据相匹配，提高了语音识别系统的稳健性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音识别处理
，尤其涉及一种用于语音识别系统的增益处理方法及装置。
技术介绍
随着语音识别技术的发展，语音识别系统的应用领域越来越广。现有的语音识别系统通常利用海量的音频数据来训练一个通用的模型用于语音识别。然而，在实际使用语音识别系统时，待识别的音频数据的统计特性和训练数据不可避免的会出现不匹配，这种不匹配尤其体现在音频信号的幅度上。另外，语音识别系统通常要求麦克风接收到的音频幅值高于一定的门限，一旦音频幅值低于该门限，则识别系统的性能大大降低。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的第一个目的在于提出一种用于语音识别系统的增益处理方法，该方法实现了对音频数据进行自动的增益调整，使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值，而且与语音识别系统中的训练数据相匹配，提高了语音识别系统的稳健性。本申请的第二个目的在于提出一种用于语音识别系统的增益处理装置。为达上述目的，本申请第一方面实施例提出了一种用于语音识别系统的增益处理方法，包括：从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，所述音频期望幅值与语音识别系统中的训练数据匹配；从所有分块增益中从小到大选择预设的Μ个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；应用所述期望增益对所述第一音频数据进行幅度调整。本申请实施例的用于语音识别系统的增益处理方法，首先从输入的预设帧...

【技术保护点】
一种用于语音识别系统的增益处理方法，其特征在于，包括以下步骤：从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，所述音频期望幅值与语音识别系统中的训练数据匹配；从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；应用所述期望增益对所述第一音频数据进行幅度调整。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐杨飞，魏建强，崔玮玮，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人