音频识别方法、装置、设备及存储介质制造方法及图纸

技术编号:37141848 阅读:11 留言:0更新日期:2023-04-06 21:47
本公开关于一种音频识别方法、装置、设备及存储介质,涉及计算机技术领域,用于解决通用技术中存在的音频识别模型进行识别处理时效率较低的问题。该音频识别方法包括:获取待识别音频数据;将待识别音频数据输入至预先训练得到的目标识别模型中,得到识别结果;目标识别模型包括多个目标音频识别模块;目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元,对输入音频数据进行验证得到目标验证结果;目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理;输入音频数据为基于待识别音频数据的音频特征数据;目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。频信号特征是否符合目标特征范围。频信号特征是否符合目标特征范围。

【技术实现步骤摘要】
音频识别方法、装置、设备及存储介质


[0001]本公开涉及计算机
,尤其涉及一种音频识别方法、装置、设备及存储介质。

技术介绍

[0002]方言识别技术是指从人类话语中识别出具体的方言类别,通常应用在语音处理系统的前端。例如,自动语音识别技术(automatic speech recognition,ASR)、多语言翻译系统和生物特征认证等。目前,主流的方言识别技术是通过有监督的形式训练深度学习模型,进而基于训练得到的模型实现对音频的语种或方言属性的判别。这类模型在处理音频数据时,通常是基于既定的多个处理模块对音频数据进行处理。
[0003]然而,音频数据的质量参差不齐,一些音频数据较清晰易于进行区分,一些音频数据的背景音嘈杂难以进行区分。若对这些数据均采用相同的处理流程,则容易造成计算资源和存储资源等资源的浪费,且效率较低。

技术实现思路

[0004]本公开提供一种音频识别方法、装置、设备及存储介质,用于解决通用技术中存在的音频识别模型进行识别处理时效率较低的问题。本公开实施例的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种音频识别方法,包括:获取待识别音频数据;将待识别音频数据输入至预先训练得到的目标识别模型中,得到识别结果;目标识别模型包括多个目标音频识别模块;目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元,对输入音频数据进行验证得到目标验证结果;目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理;输入音频数据为基于待识别音频数据的音频特征数据;目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。
[0006]可选地,目标音频识别模块还用于在目标验证结果表征跳过目标音频识别模块对输入音频数据的识别处理时,将输入音频数据输入至与目标音频识别模块相邻、且位于目标音频识别模块之后的下一音频识别模块;
[0007]或者,在目标验证结果表征不跳过目标音频识别模块对输入音频数据的识别处理时,对输入音频数据进行识别处理得到输出音频数据,将输出音频数据输入至与目标音频识别模块相邻、且位于目标音频识别模块之后的下一音频识别模块。
[0008]可选地,该音频识别方法,还包括:获取多个样本音频数据和初始识别模型;初始识别模型包括多个初始音频识别模块;不同的初始音频识别模块用于执行不同的音频识别任务;对多个初始音频识别模块中的预设类型模块执行更新操作,得到更新后识别模型;更新操作用于为预设类型模块添加初始验证单元得到初始目标音频识别模块;初始验证单元用于验证输入初始目标音频识别模块中的音频数据是否符合初始特征范围;根据预设损失函数和多个样本音频数据对更新后识别模型进行训练,得到目标识别模型;预设损失函数
为基于期望通过率生成的;期望通过率用于表示在更新后识别模型包括的多个预设类型模块中,期望跳过的预设类型模块的占比。
[0009]可选地,预设类型模块包括卷积类型模块、激活类型模块和残差类型模块中的至少一种;对多个初始音频识别模块中的预设类型模块执行更新操作,得到更新后识别模型的方法,具体包括:将多个初始音频识别模块中的预设类型模块确定为待更新识别模块,得到多个待更新识别模块;分别将各待更新识别模块的处理逻辑,更新为并行执行初始验证单元和待更新识别模块对应的音频识别任务的处理过程,得到包括多个初始目标音频识别模块的更新后识别模型;初始目标音频识别模块用于基于初始验证单元对待处理音频数据进行验证得到初始验证结果,并对待处理音频数据进行识别处理得到处理后音频数据,基于初始验证结果对待处理音频数据和处理后音频数据进行加权求和,得到输出结果,将输出结果输入至与初始目标音频识别模块相邻、且位于初始目标音频识别模块之后的下一音频识别模块。
[0010]可选地,根据预设损失函数和多个样本音频数据对更新后识别模型进行训练,得到目标识别模型的方法,具体包括:获取包括预设数量的样本音频数据的样本子集合;样本子集合为基于多个样本音频数据划分得到的;将样本子集合输入至更新后识别模型中进行识别处理,确定样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量;基于样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量、初始目标音频识别模块的总数量和期望通过率,确定样本子集合对应的损失值;在损失值小于或等于预设阈值时,分别将各初始目标音频识别模块的处理逻辑,更新为串行执行初始验证单元和初始目标音频识别模块对应的音频识别任务的处理过程,得到包括多个目标音频识别模块的目标识别模型。
[0011]可选地,获取待识别音频数据的方法,具体包括:接收终端发送的待识别内容数据;待识别内容数据包括至少一段语音内容;对待识别内容数据中的至少一段语音内容进行拼接处理,得到待识别音频数据。
[0012]可选地,对待识别内容数据中的至少一段语音内容进行拼接处理,得到待识别音频数据的方法,具体包括:分别确定至少一段语音内容对应的开始时刻和终止时刻;基于各段语音内容对应的开始时刻和终止时刻进行拼接,得到待识别音频数据。
[0013]可选地,在将待识别音频数据输入至预先训练得到的目标识别模型中,得到识别结果之后,该音频识别方法,还包括:确定与识别结果对应的待推荐内容数据;向终端发送待推荐内容数据。
[0014]根据本公开实施例的第二方面,提供一种音频识别装置,包括:获取单元和处理单元;获取单元,被配置为执行获取待识别音频数据;处理单元,被配置为执行将待识别音频数据输入至预先训练得到的目标识别模型中,得到识别结果;目标识别模型包括多个目标音频识别模块;目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元,对输入音频数据进行验证得到目标验证结果;目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理;输入音频数据为基于待识别音频数据的音频特征数据;目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。
[0015]可选地,目标音频识别模块还用于在目标验证结果表征跳过目标音频识别模块对输入音频数据的识别处理时,将输入音频数据输入至与目标音频识别模块相邻、且位于目
标音频识别模块之后的下一音频识别模块;
[0016]或者,在目标验证结果表征不跳过目标音频识别模块对输入音频数据的识别处理时,对输入音频数据进行识别处理得到输出音频数据,将输出音频数据输入至与目标音频识别模块相邻、且位于目标音频识别模块之后的下一音频识别模块。
[0017]可选地,获取单元,还被配置为执行获取多个样本音频数据和初始识别模型;初始识别模型包括多个初始音频识别模块;不同的初始音频识别模块用于执行不同的音频识别任务;处理单元,还被配置为执行对多个初始音频识别模块中的预设类型模块执行更新操作,得到更新后识别模型;更新操作用于为预设类型模块添加初始验证单元得到初始目标音频识别模块;初始验证单元用于验证输入初始目标音频识别模块中的音频数据是否符合初始特征范围;处理单元,还被配置为执行根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频识别方法,其特征在于,包括:获取待识别音频数据;将所述待识别音频数据输入至预先训练得到的目标识别模型中,得到识别结果;所述目标识别模型包括多个目标音频识别模块;所述目标音频识别模块用于基于与所述目标音频识别模块对应的目标验证单元,对输入音频数据进行验证得到目标验证结果;所述目标验证结果用于表征是否跳过所述目标音频识别模块对所述输入音频数据的识别处理;所述输入音频数据为基于所述待识别音频数据的音频特征数据;所述目标验证单元用于验证所述输入音频数据的音频信号特征是否符合目标特征范围。2.根据权利要求1所述的音频识别方法,其特征在于,所述目标音频识别模块还用于在所述目标验证结果表征跳过所述目标音频识别模块对所述输入音频数据的识别处理时,将所述输入音频数据输入至与所述目标音频识别模块相邻、且位于所述目标音频识别模块之后的下一音频识别模块;或者,在所述目标验证结果表征不跳过所述目标音频识别模块对所述输入音频数据的识别处理时,对所述输入音频数据进行识别处理得到输出音频数据,将所述输出音频数据输入至与所述目标音频识别模块相邻、且位于所述目标音频识别模块之后的下一音频识别模块。3.根据权利要求1所述的音频识别方法,其特征在于,还包括:获取多个样本音频数据和初始识别模型;所述初始识别模型包括多个初始音频识别模块;不同的所述初始音频识别模块用于执行不同的音频识别任务;对多个所述初始音频识别模块中的预设类型模块执行更新操作,得到更新后识别模型;所述更新操作用于为所述预设类型模块添加初始验证单元得到初始目标音频识别模块;所述初始验证单元用于验证输入所述初始目标音频识别模块中的音频数据是否符合初始特征范围;根据预设损失函数和多个所述样本音频数据对所述更新后识别模型进行训练,得到所述目标识别模型;所述预设损失函数为基于期望通过率生成的;所述期望通过率用于表示在所述更新后识别模型包括的多个预设类型模块中,期望跳过的预设类型模块的占比。4.根据权利要求3所述的音频识别方法,其特征在于,所述预设类型模块包括卷积类型模块、激活类型模块和残差类型模块中的至少一种;所述对多个所述初始音频识别模块中的预设类型模块执行更新操作,得到更新后识别模型,包括:将多个所述初始音频识别模块中的预设类型模块确定为待更新识别模块,得到多个所述待更新识别模块;分别将各所述待更新识别模块的处理逻辑,更新为并行执行所述初始验证单元和所述待更新识别模块对应的音频识别任务的处理过程,得到包括多个所述初始目标音频识别模块的所述更新后识别模型;所述初始目标音频识别模块用于基于所述初始验证单元对待处理音频数据进行验证得到初始验证结果,并对待处理音频数据进行识别处理得到处理后音频数据,基于所述初始验证结果对所述待处理音频数据和所述处理后音频数据进行加权求和,得到输出结果,将所述输出结果输入至与所述初始目标音频识别模块相邻、且位于所述初始目标音频识别模块之后的下一音频识别模块。
5.根据权利要求4所述的音频识别...

【专利技术属性】
技术研发人员:姚鹏黄劲文谈建超邓峰王晓瑞宋成儒
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1