一种音频处理方法、装置及可读存储介质制造方法及图纸

技术编号：20727833 阅读：30 留言：0更新日期：2019-03-30 18:29

本发明专利技术公开一种音频处理方法、装置及可读存储介质，涉及数据处理技术领域。一种音频处理方法包括：获取第一音频文件的第一特征向量；通过预先训练好的第一神经网络模型对第一特征向量进行反失真处理，获得第二特征向量；对第二特征向量进行编码，获得第二音频文件；其中，第二音频文件经播放设备向语音识别系统播放，语音识别系统对第二音频文件的识别结果和对第一音频文件的识别结果相同。因此，第二音频文件在不同环境、不同距离和不同音量的条件下播放，语音识别系统能够准确识别出第二音频文件中的内容，并且该内容与第一音频文件的内容相同。换言之，对于语音识别系统，第二音频文件不是失真的音频文件。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频处理方法、装置及可读存储介质
本专利技术涉及数据处理
，具体而言，涉及一种音频处理方法、装置及可读存储介质。
技术介绍
随着语音识别技术的推广，现有技术中的语音识别系统能够识别出用户输入的语音消息中的内容。但是应用在实际场景中的语音识别系统，对于不同环境、不同距离和不同音量的音频，存在不能够准确识别出音频中的内容的现象。
技术实现思路
本申请在于提供一种音频处理方法、装置及可读存储介质，以改善语音识别系统能够正确识别失真音频。为了解决上述技术问题，本申请实施例通过如下方式实现：本申请实施例第一方面提供一种音频处理方法，包括：获取第一音频文件的第一特征向量；通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理，获得第二特征向量；对所述第二特征向量进行编码，获得第二音频文件；其中，所述第二音频文件经播放设备向语音识别系统播放，所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。因此，第二音频文件在不同环境、不同距离和不同音量的条件下播放，语音识别系统能够准确识别出第二音频文件中的内容，并且该内容与第一音频文件的内容相同。换言之，对于语音识别系统，第二音频文件不是失真的音频文件。结合第一方面，本申请实施例提供第一方面的第一种可能的实施方式，通过以下步骤生成所述第一神经网络模型：获取多个原始音频文件的失真音频样本，所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本；使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练，直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文...

【技术保护点】
1.一种音频处理方法，其特征在于，包括：获取第一音频文件的第一特征向量；通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理，获得第二特征向量；对所述第二特征向量进行编码，获得第二音频文件；其中，在所述第二音频文件经播放设备播放后输入语音识别系统后，所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：获取第一音频文件的第一特征向量；通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理，获得第二特征向量；对所述第二特征向量进行编码，获得第二音频文件；其中，在所述第二音频文件经播放设备播放后输入语音识别系统后，所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。2.根据权利要求1所述的方法，其特征在于，通过以下步骤生成所述第一神经网络模型：获取多个原始音频文件的失真音频样本，所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本；使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练，直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。3.根据权利要求1或2所述的方法，其特征在于，在获取第一音频文件的第一特征向量之前，所述方法还包括：获取初始音频文件及所述初始音频文件的初始特征向量；通过预设第二神经网络模型对所述初始特征向量进行加扰处理，获得加扰特征向量；确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度；当所述差异度大于预设数值时，根据所述差异度对所述预设第二神经网络模型进行训练，直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量对应的音频文件为所述第一音频文件。4.根据权利要求1所述的方法，其特征在于，在获取第一音频文件的第一特征向量之前，所述方法还包括：获取初始音频文件及所述初始音频文件的初始特征向量；通过预设第二神经网络模型对所述初始特征向量进行加扰处理，获得加扰特征向量；确定所述加扰特征向量与所述初始特征向量的差距值；当所述差距值大于预设差距值时，根据所述差距值对所述预设第二神经网络模型进行训练，直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量对应的音频文件为所述第一音频文件。5.根据权利要求4所述的音频处理方法，其特征在于，获取所述初始音频文件的初始特征向量，包括：根据傅立叶变换器和梅尔滤波器处理所述初始音频文件，获得梅尔系数特征值向量；其中，所述梅尔系数特征值向量为所述初始特征向...

【专利技术属性】
技术研发人员：彭凝多，魏华强，李锐，唐博，彭恒进，
申请(专利权)人：四川虹微技术有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人