一种音频处理方法、装置及可读存储介质制造方法及图纸

技术编号:20727833 阅读:30 留言:0更新日期:2019-03-30 18:29
本发明专利技术公开一种音频处理方法、装置及可读存储介质,涉及数据处理技术领域。一种音频处理方法包括:获取第一音频文件的第一特征向量;通过预先训练好的第一神经网络模型对第一特征向量进行反失真处理,获得第二特征向量;对第二特征向量进行编码,获得第二音频文件;其中,第二音频文件经播放设备向语音识别系统播放,语音识别系统对第二音频文件的识别结果和对第一音频文件的识别结果相同。因此,第二音频文件在不同环境、不同距离和不同音量的条件下播放,语音识别系统能够准确识别出第二音频文件中的内容,并且该内容与第一音频文件的内容相同。换言之,对于语音识别系统,第二音频文件不是失真的音频文件。

【技术实现步骤摘要】
一种音频处理方法、装置及可读存储介质
本专利技术涉及数据处理
,具体而言,涉及一种音频处理方法、装置及可读存储介质。
技术介绍
随着语音识别技术的推广,现有技术中的语音识别系统能够识别出用户输入的语音消息中的内容。但是应用在实际场景中的语音识别系统,对于不同环境、不同距离和不同音量的音频,存在不能够准确识别出音频中的内容的现象。
技术实现思路
本申请在于提供一种音频处理方法、装置及可读存储介质,以改善语音识别系统能够正确识别失真音频。为了解决上述技术问题,本申请实施例通过如下方式实现:本申请实施例第一方面提供一种音频处理方法,包括:获取第一音频文件的第一特征向量;通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;对所述第二特征向量进行编码,获得第二音频文件;其中,所述第二音频文件经播放设备向语音识别系统播放,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。因此,第二音频文件在不同环境、不同距离和不同音量的条件下播放,语音识别系统能够准确识别出第二音频文件中的内容,并且该内容与第一音频文件的内容相同。换言之,对于语音识别系统,第二音频文件不是失真的音频文件。结合第一方面,本申请实施例提供第一方面的第一种可能的实施方式,通过以下步骤生成所述第一神经网络模型:获取多个原始音频文件的失真音频样本,所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本;使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练,直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。因此,多个失真音频样本可以为训练集,预设第一神经网络的初始模型对训练集进行训练后,获得第一神经网络模型,其中,第一神经网络模型可以称为反向模拟模型。另一方面,在失真音频样本足够多,能够包含尽可能多的情况下,训练获得的第一神经网络模型能够含括尽可能多的处理失真的措施,即反失真处理的方式。从而在对第一特征向量进行反失真处理时,能够将第一特征向量高度还原成无损的第二特征向量。结合第一方面或第一方面的第一种可能的实现方式,本申请实施例提供第一方面的第二种可能的实施方式,在获取第一音频文件的第一特征向量之前,所述方法还包括:获取初始音频文件及所述初始音频文件的初始特征向量;通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度;当所述差异度大于预设数值时,根据所述差异度对所述预设第二神经网络模型进行训练,直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量为所述第一音频文件。因此,通过语音识别系统获得的识别结果为技术切入点,从而在结果侧对预设第二神经网络模型进行反馈调节,能够训练预设第二神经网络模型,使得预设第二神经网络模型输出的加扰特征向量能够被语音识别系统准确识别,并且该加扰特征向量对应的音频文件能够作为第一音频文件。结合第一方面,本申请实施例提供第一方面的第三种可能的实施方式,在获取第一音频文件的第一特征向量之前,所述方法还包括:获取初始音频文件及所述初始音频文件的初始特征向量;通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定所述加扰特征向量与所述初始特征向量的差距值;当所述差距值大于预设差距值时,根据所述差距值对所述预设第二神经网络模型进行训练,直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量为所述第一音频文件。因此,通过确定差距值以及将差距值与预设差距值比较,即从预设第二神经网络的输入侧对预设第二神经网络模型进行调整,能够训练预设第二神经网络模型,使得预设第二神经网络模型输出的加扰特征向量能够被语音识别系统准确识别,并且该加扰特征向量能够作为第一音频文件。结合第一方面或第一方面的第三种可能的实现方式,本申请实施例提供第一方面的第二种可能的实施方式,获取初始音频文件及所述初始音频文件的初始特征向量,包括:根据傅立叶变换器和梅尔滤波器处理所述初始音频文件,获得梅尔系数特征值向量;其中,所述梅尔系数特征值向量为所述初始特征向量。因此,通过使用傅立叶变换器能够使初始音频文件中振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号。通过使用梅尔滤波器能够初始音频文件的梅尔频率倒谱系数,根据梅尔频率倒谱系数能够将初始音频文件中高维的音频特征向量转化为低维的梅尔系数特征值向量,从而实现降维,以便于机器进行运算。本申请实施例第二方面提供一种音频处理装置,包括:第一获取单元,用于获取第一音频文件的第一特征向量;处理单元,用于通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;以及对所述第二特征向量进行编码,获得第二音频文件;其中,所述第二音频文件经播放设备向语音识别系统播放,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。结合第二方面,本申请实施例提供第二方面的第一种可能的实施方式,所述装置还包括:第二获取单元,用于获取多个原始音频文件的失真音频样本,所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本;所述处理单元还用于使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练,直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。结合第二方面或第二方面的第一种可能的实现方式,本申请实施例提供第二方面的第二种可能的实施方式,所述装置还包括:所述第一获取单元还用于获取初始音频文件及所述初始音频文件的初始特征向量;所述处理单元还用于通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度;以及当所述差异度大于预设数值时,根据所述差异度对所述预设第二神经网络模型进行训练,直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量为所述第一音频文件。结合第二方面,本申请实施例提供第二方面的第三种可能的实施方式,所述装置还包括:所述第一获取单元还用于获取初始音频文件及所述初始音频文件的初始特征向量;所述处理单元还用于通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定所述加扰特征向量与所述初始特征向量的差距值;以及当所述差距值大于预设差距值时,根据所述差距值对所述预设第二神经网络模型进行训练,直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量为所述第一音频文件。本申请实施例第三方面提供一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请实施例第一方面或第一方面的任意一种可能的实施方式所述的一种音频处理本文档来自技高网...

【技术保护点】
1.一种音频处理方法,其特征在于,包括:获取第一音频文件的第一特征向量;通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;对所述第二特征向量进行编码,获得第二音频文件;其中,在所述第二音频文件经播放设备播放后输入语音识别系统后,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取第一音频文件的第一特征向量;通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;对所述第二特征向量进行编码,获得第二音频文件;其中,在所述第二音频文件经播放设备播放后输入语音识别系统后,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。2.根据权利要求1所述的方法,其特征在于,通过以下步骤生成所述第一神经网络模型:获取多个原始音频文件的失真音频样本,所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本;使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练,直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。3.根据权利要求1或2所述的方法,其特征在于,在获取第一音频文件的第一特征向量之前,所述方法还包括:获取初始音频文件及所述初始音频文件的初始特征向量;通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度;当所述差异度大于预设数值时,根据所述差异度对所述预设第二神经网络模型进行训练,直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量对应的音频文件为所述第一音频文件。4.根据权利要求1所述的方法,其特征在于,在获取第一音频文件的第一特征向量之前,所述方法还包括:获取初始音频文件及所述初始音频文件的初始特征向量;通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定所述加扰特征向量与所述初始特征向量的差距值;当所述差距值大于预设差距值时,根据所述差距值对所述预设第二神经网络模型进行训练,直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量对应的音频文件为所述第一音频文件。5.根据权利要求4所述的音频处理方法,其特征在于,获取所述初始音频文件的初始特征向量,包括:根据傅立叶变换器和梅尔滤波器处理所述初始音频文件,获得梅尔系数特征值向量;其中,所述梅尔系数特征值向量为所述初始特征向...

【专利技术属性】
技术研发人员:彭凝多魏华强李锐唐博彭恒进
申请(专利权)人:四川虹微技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1