【技术实现步骤摘要】
一种语音识别方法、装置、电子设备及可读存储介质
[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、装置、电子设备及可读存储介质。
技术介绍
[0002]语音识别(Automatic Speech Recognition,ASR)是一项研究如何将人类说话的声音识别转换为文本的技术,可应用于语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等服务中。
[0003]然而,在语音识别的过程中,会遇到经过MP3压缩过的音频数据,由于MP3对频谱压缩太多,若将经过MP3压缩过的音频数据直接利用通用模型进行识别,会造成语音识别的整体识别率下降的问题。
技术实现思路
[0004]为克服相关技术中存在的问题,本申请提供一种语音识别方法、装置、电子设备及可读存储介质。
[0005]根据本申请实施例的第一方面,提供一种语音识别的方法,所述方法包括:
[0006]根据预先生成的目标音频格式自动检测模型对若干音频数据的音频格式进行检测;
[0007]在若干所述音频数据的音 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别的方法,其特征在于,所述方法包括:根据预先生成的目标音频格式自动检测模型对若干音频数据的音频格式进行检测;在若干所述音频数据的音频格式中检测到所述目标音频格式的情况下,根据预先生成的频谱补偿模型对音频格式为所述目标音频格式的音频数据进行处理,得到待处理音频数据;对所述待处理音频数据利用通用模型进行语音识别。2.根据权利要求1所述的方法,其特征在于,在所述根据预先生成的目标音频格式自动检测模型对若干音频数据的音频格式进行检测的步骤之前,还包括:预先生成目标音频格式自动检测模型;预先生成频谱补偿模型。3.根据权利要求2所述的方法,其特征在于,所述预先生成目标音频格式自动检测模型,包括:获取第一训练样本,其中,所述第一训练样本包括音频格式为非所述目标音频格式的音频数据的频谱和所述音频格式为所述目标音频格式的音频数据的频谱;将所述音频格式为非所述目标音频格式的音频数据的频谱和所述音频格式为所述目标音频格式的音频数据的频谱作为输入,将所述音频格式为所述目标音频格式的音频数据的频谱作为输出的目标,对预设的第一初始模型进行训练,将训练完成的模型确定为目标音频格式自动检测模型。4.根据权利要求2所述的方法,其特征在于,所述预先生成频谱补偿模型,包括:获取第二训练样本,其中,所述第二训练样本包括模拟的非压缩音频数据的频谱和所述音频格式为所述目标音频格式的音频数据的频谱;将所述音频格式为所述目标音频格式的音频数据的频谱作为输入,将所述模拟的非压缩音频数据的频谱作为输出的目标,对预设的第二初始模型进行训练,将训练完成的模型确定为频谱补偿模型。5.根据权利要求1所述的方法,其特征在于,所述根据预先生成的频谱补偿模型对音频格式为所述目标音频格式的音频数据进行处理,得到待处理音频数据,包括:将所述音频格式为所述目标音频格式的音频数据的频谱输入预先生成的所述频谱补偿模型,根据所述频谱补偿模型的输出得到所述待处理音频数据。6.一种语音识别的装置,其特征在于,所述装置包括:检测模块,用于根据预先生成的目标音频格式自动检测模型对若干音频数据的音频格式进行检测;频谱补偿模块,用于在若干所述音频数据的音频格式中检测到所述目标音频格式的情况下,根据预...
【专利技术属性】
技术研发人员:郑晓明,李健,武卫东,陈明,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。