用于音频识别的模型建构方法技术

技术编号:32891332 阅读:19 留言:0更新日期:2022-04-07 11:38
本发明专利技术实施例提供一种用于音频识别的模型建构方法。在这方法中。取得音频数据。利用分类模型决定音频数据的预测结果,这分类模型是基于机器学习算法所训练,且这预测结果包括这分类模型所定义的标签。根据预测结果的损失程度提供提示消息,这损失程度相关于预测结果与对应的实际结果之间的差异,且提示消息用于询问音频数据与标签的相关性。根据提示消息的确认响应修正分类模型,且这确认响应相关于确认音频数据与标签的相关性。藉此,可提升标记效率及预测正确性。率及预测正确性。率及预测正确性。

【技术实现步骤摘要】
用于音频识别的模型建构方法


[0001]本专利技术涉及一种机器学习(machine learning)技术,尤其涉及用于音频识别的模型建构方法。

技术介绍

[0002]机器学习算法可通过分析大量数据以推论这些数据的规律,从而对未知数据进行预测。近年来,机器学习已广泛应用在图像识别、自然语言处理、医疗诊断、或语音识别等领域上。
[0003]值得注意的是,针对语音或其他音频类型的识别技术,在其模型的训练过程中,操作人员会标记(labeling)声音内容的类型(例如,女声、婴儿声、警铃声等),以生成训练数据中的正确输出结果,其中声音内容作为训练数据中的输入数据。若是标记图像,操作人员可在短时间内认出对象,即可提供对应标签。然而,针对声音标签,操作人员可能需要听一长段声音文件才能开始标记,且声音文件可能受噪声干扰而难以识别内容。由此可知,现今训练作业对于操作人员而言是相当没有效率的。

技术实现思路

[0004]本专利技术实施例是针对一种用于音频识别的模型建构方法,提供简易的询问提示,以方便操作人员标记。
[0005]根据本专利技术的实施例,用于音频识别的模型建构方法包括(但不只限于)下列步骤:取得音频数据。利用分类模型决定音频数据的预测结果,这分类模型是基于机器学习算法所训练,且这预测结果包括这分类模型所定义的标签(label)。根据预测结果的损失(loss)程度提供提示消息,这损失程度相关于预测结果与对应的实际结果之间的差异,且提示消息用于询问音频数据与标签的相关性。根据提示消息的确认响应修正分类模型,且这确认响应相关于确认音频数据与标签的相关性。
[0006]基于上述,本专利技术实施例的用于音频识别的模型建构方法,可判断已训练的分类模型所得出的预测结果与实际结果的差异,并根据这差异提供简易的提示消息给操作人员。而操作人员只需对这提示消息响应即可完成标记,并据以进一步修正分类模型,从而提升分类模型的识别准确性及操作人员的标记效率。
附图说明
[0007]包含附图以便进一步理解本专利技术,且附图并入本说明书中并构成本说明书的一部分。附图说明本专利技术的实施例,并与描述一起用于解释本专利技术的原理。
[0008]图1是根据本专利技术一实施例的用于音频识别的模型建构方法的流程图;
[0009]图2是根据本专利技术一实施例的音频处理的流程图;
[0010]图3是根据本专利技术一实施例的噪声抵消的流程图;
[0011]图4A是一范例说明原始音频数据的波形图;
[0012]图4B是一范例说明本质模态函数(Intrinsic Mode Function,IMF)的波形图;
[0013]图4C是一范例说明经噪声抵消的音频数据的波形图;
[0014]图5是根据本专利技术一实施例的音频分段的流程图;
[0015]图6是根据本专利技术一实施例的模型训练的流程图;
[0016]图7是根据本专利技术一实施例的神经网络(Neural Network)的示意图;
[0017]图8是根据本专利技术一实施例的更新模型的流程图;
[0018]图9是根据本专利技术一实施例的智能门铃应用的流程示意图;
[0019]图10是根据本专利技术一实施例的服务器的组件方块图。
[0020]附图标号说明
[0021]S110~S170、S210~S230、S310~S350、S510~S530、S610~S630、S810~S870、S910~S980:步骤;
[0022]710:输入层;
[0023]730:隐藏层;
[0024]750:输出层;
[0025]10:云端服务器;
[0026]30:训练服务器;
[0027]31:通信接口;
[0028]33:存储器;
[0029]35:处理器;
[0030]50:智能门铃;
[0031]51:麦克风;
[0032]53:存储器。
具体实施方式
[0033]现将详细地参考本专利技术的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同组件符号在附图和描述中用来表示相同或相似部分。
[0034]图1是根据本专利技术一实施例的用于音频识别的模型建构方法的流程图。请参照图1,服务器取得音频数据(步骤S110)。具体而言,音频数据是指对对声波(例如,人声、环境声、机器运作声等音源所生成)收音而转换为模拟或数字形式的声音频号,或是通过处理器(例如,中央处理器(Central Processing Unit,CPU)、特殊应用集成电路(Application Specific Integrated Circuit,ASIC)、或数字信号处理器(Digital Signal Processor,DSP)等)设定声音的振福、频率、音色、节奏和/或旋律所生成的声音频号。换句而言,音频数据可以是通过麦克风录制或计算机编辑所生成。例如,通过智能手机录制婴儿哭声,或者用户在计算机上以音乐软件编辑音轨。在一实施例中,音频数据可以是经网络下载、无线或有线传输(例如,低功耗蓝牙(Bluetooth Low Energy,BLE)、Wi-Fi、光纤网络等)以实时性或非实时性的分组或串流模式传递、或者存取外部或内建存储媒介(例如,U盘、光盘、外接硬盘、存储器等)从而取得音频数据并供后续模型建构使用。例如,音频数据存储在云端服务器,而训练服务器经由FTS下载音频数据。
[0035]在一实施例中,音频数据是对原始音频数据(其实施方式及类型可参酌音频数据)
经音频处理后所得。图2是根据本专利技术一实施例的音频处理的流程图。请参照图2,服务器可对原始音频数据抵消其噪声分量(步骤S210),并对音频数据分段(步骤S230)。换句而言,原始音频数据经噪声抵消和/或音频分段即可取得音频数据。在一些实施例中,噪声抵消及音频分段的顺序可能根据实据需求而变更。
[0036]针对音频的噪声抵消方法有很多种。在一实施例中,服务器可分析原始音频数据的特性以决定原始音频数据的噪声分量(即,对信号的干扰)。音频相关特性例如是振幅、频率、能量或其他物理特性上的变化,且噪声分量通常具有特定特性。
[0037]举例而言,图3是根据本专利技术一实施例的噪声抵消的流程图。请参照图3,特性包括数个本质模态函数(IMF)。而满足以下条件的数据可被称为本质模态函数:第一,局部极大值(local maxima)及局部极小值(local minima)的数量总和与过零(zero crossing)的数量相等或是至多相差一;第二,在任何时间点,局部最大值的上包络线(upper envelope)与局部极小值的下包络线的平均接近零。服务器可分解原始音频数据(即,模态分解)(步骤S310),以生成原始音频数据的数个模态分量(作为基本(fundamental)信号)。而各模态分量即对应到一个本质模态函数。
[0038]在一实施例中,原始音频数据可通过经验模态分解(Empirical Mode Deco本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于音频识别的模型建构方法,包括:取得音频数据;利用分类模型决定所述音频数据的预测结果,其中所述分类模型是基于机器学习算法所训练,且所述预测结果包括所述分类模型所定义的标签;根据所述预测结果的损失程度提供提示消息,其中所述损失程度相关于所述预测结果与对应的实际结果之间的差异,且所述提示消息用于询问所述音频数据与所述标签的相关性;以及根据所述提示消息的确认响应修正所述分类模型,其中所述确认响应相关于确认所述音频数据与所述标签的相关性。2.根据权利要求1所述的用于音频识别的模型建构方法,其中所述提示消息包括所述音频数据及问题内容,所述问题内容是询问所述音频数据是否属于所述标签,且提供所述提示消息的步骤包括:播放所述音频数据并提供所述问题内容。3.根据权利要求2所述的用于音频识别的模型建构方法,其中根据所述提示消息的所述确认响应修正所述分类模型的步骤包括:接收输入操作,其中所述输入操作对应于所述问题内容的选项,且所述选项是所述音频数据属于所述标签、或所述音频数据不属于所述标签;以及根据所述输入操作决定所述确认响应。4.根据权利要求1所述的用于音频识别的模型建构方法,其中根据所述提示消息的所述确认响应修正所述分类模型的步骤包括:将所述确认响应对应的标签与所述音频数据作为所述分类模型的训练数据,并据以重新训练所述分类模型。5.根据权利要求1所述的用于音频识别的模型建构方法,其中取得所述音频数据的步骤包括:分析原始音频数据的特性,以决定所述原始音频数据的噪声分量;以及对所述原始音频数据抵消所述噪声分量以生成所述音频数据。6.根...

【专利技术属性】
技术研发人员:陈建芳吴易万许桓瑞李建明
申请(专利权)人:亚旭电子科技江苏有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1