一种音频数据质检方法、装置、存储介质及设备制造方法及图纸

技术编号:36455701 阅读:11 留言:0更新日期:2023-01-25 22:53
本申请公开了一种音频数据质检方法、装置、存储介质及设备,该方法包括:首先基于预设期望文本,获取待质检的目标音频数据;并确定预设期望文本对应的标准音素,然后将目标音频数据输入至预先构建的音频质检模型,预测得到目标音频数据的音素预测结果;接着,计算目标音频数据的音素预测结果与预设期望文本对应的标准音素之间的相似度;进而可以根据该相似度,对目标音频数据进行质检,得到质检结果。可见,本申请是先利用预先构建的音频质检模型预测目标音频数据的音素,再将其与标准音素进行相似度对比,以根据对比结果对目标音频数据进行质检,相比人工以及利用声学模型和语言模型的质检方式,耗时更短、准确度更高,有效提高了质检效果。质检效果。质检效果。

【技术实现步骤摘要】
一种音频数据质检方法、装置、存储介质及设备


[0001]本申请涉及语音处理
,尤其涉及一种音频数据质检方法、装置、存储介质及设备。

技术介绍

[0002]随着人工智能技术的不断突破和各种智能终端设备的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高。语音作为最方便、快捷的交互方式之一,其相关模型(如语音识别模型等)的优化显得尤为重要,为了得到较好的模型优化效果,往往需要将在对语音相关模型优化过程中采用的大量音频数据提前进行有效的质检。
[0003]目前,对于音频数据进行质检的方法通常有两种:一种是人工质检,但这种质检方式是基于众包平台人员进行音频数据的质检,在涉及方言、小语种时,需要征集相关地区母语者或学习者,人员召集难度较大,成本较高,人员能力参差不齐,也可能会导致质检质量不高,且整个质检周期长,质检效率较低。而另一种常用的音频数据质检方法则是直接将音频输入到声学模型和语言模型,以输出文本进行识别,并将识别不通过的音频数据进行二次人工复核,但这种质检方式受限于模型的能力,对于部分语种在初始阶段也不能做到比较好的识别效果,会导致二次人工复核的工作量较大。

技术实现思路

[0004]本申请实施例的主要目的在于提供一种音频数据质检方法、装置、存储介质及设备,能够在进行音频数据质检时,有效提高质检结果的效率和准确率。
[0005]本申请实施例提供了一种音频数据质检方法,包括:
[0006]基于预设期望文本,获取待质检的目标音频数据;并确定所述预设期望文本对应的标准音素
[0007]将所述目标音频数据输入至预先构建的音频质检模型,预测得到所述目标音频数据的音素预测结果;
[0008]计算所述目标音频数据的音素预测结果与所述预设期望文本对应的标准音素之间的相似度;
[0009]根据所述相似度,对所述目标音频数据进行质检,得到质检结果。
[0010]一种可能的实现方式中,所述计算所述目标音频数据的音素预测结果与所述标准音素的相似度,包括:
[0011]按照最小编辑距离算法,计算所述目标音频数据的音素预测结果与所述标准音素的相似度。
[0012]一种可能的实现方式中,所述根据所述相似度,对所述目标音频数据进行质检,得到质检结果,包括:
[0013]判断所述相似度是否低于预设阈值,若是,则确定所述目标音频数据的质检结果为质检合格;若否,则确定所述目标音频数据的质检结果为质检不合格。
[0014]一种可能的实现方式中,所述预设阈值为0.5。
[0015]一种可能的实现方式中,所述将所述目标音频数据输入至预先构建的音频质检模型之前,所述方法还包括:
[0016]滤除所述目标音频数据中的噪音,得到预处理后的目标音频数据;
[0017]所述将所述目标音频数据输入至预先构建的音频质检模型,预测得到所述目标音频数据的音素预测结果,包括:
[0018]将所述预处理后的目标音频数据输入至预先构建的音频质检模型,预测得到所述目标音频数据的音素预测结果。
[0019]一种可能的实现方式中,所述音频质检模型的构建方式如下:
[0020]获取样本音频数据;
[0021]利用所述样本音频数据和CTC损失约束函数,对初始音频质检模型进行训练,得到所述音频质检模型。
[0022]一种可能的实现方式中,所述初始音频质检模型为长短期记忆网络LSTM。
[0023]一种可能的实现方式中,所述方法还包括:
[0024]获取验证音频数据;
[0025]将所述验证音频数据输入所述音频质检模型,获得所述验证音频数据对应的音素预测结果;
[0026]当所述验证音频数据的音素预测结果与所述音频数据对应的音素标准结果不一致时,将所述验证音频数据重新作为所述样本音频数据,对所述音频质检模型进行更新。
[0027]本申请实施例还提供了一种音频数据质检装置,包括:
[0028]第一获取单元,用于基于预设期望文本,获取待质检的目标音频数据;并确定所述预设期望文本对应的标准音素;
[0029]预测单元,用于将所述目标音频数据输入至预先构建的音频质检模型,预测得到所述目标音频数据的音素预测结果;
[0030]计算单元,用于计算所述目标音频数据的音素预测结果与所述预设期望文本对应的标准音素之间的相似度;
[0031]质检单元,用于根据所述相似度,对所述目标音频数据进行质检,得到质检结果。
[0032]一种可能的实现方式中,所述计算单元具体用于:
[0033]按照最小编辑距离算法,计算所述目标音频数据的音素预测结果与所述标准音素的相似度。
[0034]一种可能的实现方式中,所述质检单元具体用于:
[0035]判断所述相似度是否低于预设阈值,若是,则确定所述目标音频数据的质检结果为质检合格;若否,则确定所述目标音频数据的质检结果为质检不合格。
[0036]一种可能的实现方式中,所述预设阈值为0.5。
[0037]一种可能的实现方式中,所述装置还包括:
[0038]滤除所述目标音频数据中的噪音,得到预处理后的目标音频数据;
[0039]所述预测单元具体用于:
[0040]将所述预处理后的目标音频数据输入至预先构建的音频质检模型,预测得到所述目标音频数据的音素预测结果。
[0041]一种可能的实现方式中,所述装置还包括:
[0042]第二获取单元,用于获取样本音频数据;
[0043]训练单元,用于利用所述样本音频数据和CTC损失约束函数,对初始音频质检模型进行训练,得到所述音频质检模型。
[0044]一种可能的实现方式中,所述初始音频质检模型为长短期记忆网络LSTM。
[0045]一种可能的实现方式中,所述装置还包括:
[0046]第三获取单元,用于获取验证音频数据;
[0047]输入单元,用于将所述验证音频数据输入所述音频质检模型,获得所述验证音频数据对应的音素预测结果;
[0048]更新单元,用于当所述验证音频数据的音素预测结果与所述音频数据对应的音素标准结果不一致时,将所述验证音频数据重新作为所述样本音频数据,对所述音频质检模型进行更新。
[0049]本申请实施例还提供了一种音频数据质检设备,包括:处理器、存储器、系统总线;
[0050]所述处理器以及所述存储器通过所述系统总线相连;
[0051]所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述音频数据质检方法中的任意一种实现方式。
[0052]本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述音频数据质检方法中的任意一种实现方式。
[0053]本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据质检方法,其特征在于,包括:基于预设期望文本,获取待质检的目标音频数据;并确定所述预设期望文本对应的标准音素;将所述目标音频数据输入至预先构建的音频质检模型,预测得到所述目标音频数据的音素预测结果;计算所述目标音频数据的音素预测结果与所述预设期望文本对应的标准音素之间的相似度;根据所述相似度,对所述目标音频数据进行质检,得到质检结果。2.根据权利要求1所述的方法,其特征在于,所述计算所述目标音频数据的音素预测结果与所述标准音素的相似度,包括:按照最小编辑距离算法,计算所述目标音频数据的音素预测结果与所述标准音素的相似度。3.根据权利要求1所述的方法,其特征在于,所述根据所述相似度,对所述目标音频数据进行质检,得到质检结果,包括:判断所述相似度是否低于预设阈值,若是,则确定所述目标音频数据的质检结果为质检合格;若否,则确定所述目标音频数据的质检结果为质检不合格。4.根据权利要求3所述的方法,其特征在于,所述预设阈值为0.5。5.根据权利要求1所述的方法,其特征在于,所述将所述目标音频数据输入至预先构建的音频质检模型之前,所述方法还包括:滤除所述目标音频数据中的噪音,得到预处理后的目标音频数据;所述将所述目标音频数据输入至预先构建的音频质检模型,预测得到所述目标音频数据的音素预测结果,包括:将所述预处理后的目标音频数据输入至预先构建的音频质检模型,预测得到所述目标音频数据的音素预测结果。6.根据权利要求1所述的方法,其特征在于,所述音频质检模型的构建方式如下:获取样本音频数据;利用所述样本音频数据和CTC损失约束函数,...

【专利技术属性】
技术研发人员:吴莹雪雷琴辉黄竞王娜丁同
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1