用于音频识别的模型建构方法技术

技术编号：32891332 阅读：19 留言：0更新日期：2022-04-07 11:38

本发明专利技术实施例提供一种用于音频识别的模型建构方法。在这方法中。取得音频数据。利用分类模型决定音频数据的预测结果，这分类模型是基于机器学习算法所训练，且这预测结果包括这分类模型所定义的标签。根据预测结果的损失程度提供提示消息，这损失程度相关于预测结果与对应的实际结果之间的差异，且提示消息用于询问音频数据与标签的相关性。根据提示消息的确认响应修正分类模型，且这确认响应相关于确认音频数据与标签的相关性。藉此，可提升标记效率及预测正确性。率及预测正确性。率及预测正确性。

全部详细技术资料下载

【技术实现步骤摘要】
用于音频识别的模型建构方法

[0001]本专利技术涉及一种机器学习(machine learning)技术，尤其涉及用于音频识别的模型建构方法。

技术介绍

[0002]机器学习算法可通过分析大量数据以推论这些数据的规律，从而对未知数据进行预测。近年来，机器学习已广泛应用在图像识别、自然语言处理、医疗诊断、或语音识别等领域上。
[0003]值得注意的是，针对语音或其他音频类型的识别技术，在其模型的训练过程中，操作人员会标记(labeling)声音内容的类型(例如，女声、婴儿声、警铃声等)，以生成训练数据中的正确输出结果，其中声音内容作为训练数据中的输入数据。若是标记图像，操作人员可在短时间内认出对象，即可提供对应标签。然而，针对声音标签，操作人员可能需要听一长段声音文件才能开始标记，且声音文件可能受噪声干扰而难以识别内容。由此可知，现今训练作业对于操作人员而言是相当没有效率的。

技术实现思路

[0004]本专利技术实施例是针对一种用于音频识别的模型建构方法，提供简易的询问提示，以方便操作人员标记。
[0005]根据本专利技术的实施例，用于音频识别的模型建构方法包括(但不只限于)下列步骤：取得音频数据。利用分类模型决定音频数据的预测结果，这分类模型是基于机器学习算法所训练，且这预测结果包括这分类模型所定义的标签(label)。根据预测结果的损失(loss)程度提供提示消息，这损失程度相关于预测结果与对应的实际结果之间的差异，且提示消息用于询问音频数据与标签的相关性。根据提示消息的确认响应修...

【技术保护点】

【技术特征摘要】
1.一种用于音频识别的模型建构方法，包括：取得音频数据；利用分类模型决定所述音频数据的预测结果，其中所述分类模型是基于机器学习算法所训练，且所述预测结果包括所述分类模型所定义的标签；根据所述预测结果的损失程度提供提示消息，其中所述损失程度相关于所述预测结果与对应的实际结果之间的差异，且所述提示消息用于询问所述音频数据与所述标签的相关性；以及根据所述提示消息的确认响应修正所述分类模型，其中所述确认响应相关于确认所述音频数据与所述标签的相关性。2.根据权利要求1所述的用于音频识别的模型建构方法，其中所述提示消息包括所述音频数据及问题内容，所述问题内容是询问所述音频数据是否属于所述标签，且提供所述提示消息的步骤包括：播放所述音频数据并提供所述问题内容。3.根据权利要求2所述的用于音频识别的模型建构方法，其中根据所述提示消息的所述确认响应修正所述分类模型的步骤包括：接收输入操作，其中所述输入操作对应于所述问题内容的选项，且所述选项是所述音频数据属于所述标签、或所述音频数据不属于所述标签；以及根据所述输入操作决定所述确认响应。4.根据权利要求1所述的用于音频识别的模型建构方法，其中根据所述提示消息的所述确认响应修正所述分类模型的步骤包括：将所述确认响应对应的标签与所述音频数据作为所述分类模型的训练数据，并据以重新训练所述分类模型。5.根据权利要求1所述的用于音频识别的模型建构方法，其中取得所述音频数据的步骤包括：分析原始音频数据的特性，以决定所述原始音频数据的噪声分量；以及对所述原始音频数据抵消所述噪声分量以生成所述音频数据。6.根...

【专利技术属性】
技术研发人员：陈建芳，吴易万，许桓瑞，李建明，
申请(专利权)人：亚旭电子科技江苏有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人