模型训练方法、音频分类方法、装置、介质及程序产品制造方法及图纸

技术编号:35522634 阅读:17 留言:0更新日期:2022-11-09 14:42
本申请提供了一种模型训练方法、音频分类方法、装置、介质及程序产品,本申请主要涉及人工智能技术领域中的机器学习技术,该训练方法包括:获取第一音频、第一音频在多个分类维度上的实际分类结果和实际位置编码结果;将第一音频输入目标神经网络模型,得到第一音频在多个分类维度上的预测分类结果和预测位置编码结果;根据实际分类结果和预测分类结果得到分类损失;对第一音频在多个分类维度上的实际位置编码结果进行融合得到实际融合结果,对第一音频在多个分类维度上的预测位置编码结果进行融合得到预测融合结果;根据实际融合结果和预测融合结果得到位置编码损失;根据分类损失和位置编码损失训练目标神经网络模型,从而可以提高分类精度。以提高分类精度。以提高分类精度。

【技术实现步骤摘要】
模型训练方法、音频分类方法、装置、介质及程序产品


[0001]本申请实施例涉及人工智能(Artificial Intelligence,AI)
,尤其涉及一种模型训练方法、音频分类方法、装置、介质及程序产品。

技术介绍

[0002]通常有效的音频分类有利于更好的音频推荐。目前的音频分类方法基于神经网络模型实现。例如,图1为相关技术提供的一种音频分类方法的示意图,如图1所示,假设给定一段音频作为神经网络模型的输入,并且期望输出该音频关于人声、情绪、语种、风格和场景这五个维度的分类结果。其中,该神经网络模型的训练过程包括:首先通过神经网络模型中的神经网络层提取基础的特征向量0;接着再分别用对应于不同分类维度的检测头对特征向量0进行进一步的特征提取,得到特征向量1至特征向量5,以更加适合各个分类维度的特征表达;进一步地,再通过对应于不同分类维度的分类器对对应的特征向量进行处理,得到该音频关于各个分类维度的预测分类结果;最后计算该音频关于各个分类维度的预测分类结果和实际分类结果的损失,分别是损失1至损失5,通过梯度回传,来优化模型参数。
[0003]然而,目前的模型训练方法存在模型训练精度不高的问题,进而导致音频分类结果不准确,尤其对于分类维度较多的情况,很容易导致不同分类维度之间的混淆。

技术实现思路

[0004]本申请提供一种模型训练方法、音频分类方法、装置、介质及程序产品,从而可以提高音频分类结果。
[0005]第一方面,本申请实施例提供一种模型训练方法,包括:获取第一音频、第一音频在多个分类维度上的实际分类结果和第一音频在多个分类维度上的实际位置编码结果;将第一音频输入目标神经网络模型,得到第一音频在多个分类维度上的预测分类结果和第一音频在多个分类维度上的预测位置编码结果;根据第一音频在多个分类维度上的实际分类结果和预测分类结果得到分类损失;对第一音频在多个分类维度上的实际位置编码结果进行融合,得到实际融合结果,并对第一音频在多个分类维度上的预测位置编码结果进行融合,得到预测融合结果;根据实际融合结果和预测融合结果得到位置编码损失;根据分类损失和位置编码损失训练目标神经网络模型。
[0006]第二方面,本申请实施例提供一种音频分类方法,包括:获取第二音频;将第二音频输入如第一方面提供的方法所训练得到的目标神经网络模型,得到第二音频在多个分类维度上的预测分类结果。
[0007]第三方面,提供一种模型训练装置,包括:获取模块、输入模块、第一计算模块、融合模块、第二计算模块和训练模块,获取模块用于获取第一音频、第一音频在多个分类维度上的实际分类结果和第一音频在多个分类维度上的实际位置编码结果;输入模块用于将第一音频输入目标神经网络模型,得到第一音频在多个分类维度上的预测分类结果和第一音频在多个分类维度上的预测位置编码结果;第一计算模块用于根据第一音频在多个分类维
度上的实际分类结果和预测分类结果得到分类损失;融合模块用于对第一音频在多个分类维度上的实际位置编码结果进行融合,得到实际融合结果,并对第一音频在多个分类维度上的预测位置编码结果进行融合,得到预测融合结果;第二计算模块用于根据实际融合结果和预测融合结果得到位置编码损失;训练模块用于根据分类损失和位置编码损失训练目标神经网络模型。
[0008]第四方面,提供一种音频分类装置,包括:获取模块和输入模块,获取模块用于获取第二音频;输入模块用于将第二音频输入第一方面提供的方法所训练得到的目标神经网络模型,得到第二音频在多个分类维度上的预测分类结果。
[0009]第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面至第二方面中任一方面或其各实现方式中的方法。
[0010]第六方面,本申请实施例提供一种计算机可读存储介质,用于存储计算机程序,当该计算机程序在计算机上运行时,使得计算机执行如第一方面至第二方面中任一方面或其各实现方式中的方法。
[0011]第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令在计算机上运行时,使得计算机执行如第一方面至第二方面中任一方面或其各实现方式中的方法。
[0012]通过本申请提供的技术方案,使得目标神经网络模型可以学习第一音频在多个分类维度上的融合结果,进而使得神经网络模型在预测阶段,输出的音频在多个分类维度上的分类结果不再是相互孤立地,换句话讲,对于目标神经网络模型而言,相对于相关技术,它额外的学习到了第一音频在多个分类维度上的融合结果,使得分类精度更高。尤其对于分类维度较多的情况,由于音频在多个分类维度上的分类结果不再是相互孤立地,从而可以降低不同分类维度之间混淆的概率。
附图说明
[0013]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为相关技术提供的一种音频分类方法的示意图;
[0015]图2为本申请实施例涉及的一种系统架构示意图;
[0016]图3为本申请一实施例提供的模型训练方法的流程图;
[0017]图4为本申请实施例提供的一种目标神经网络模型的示意图;
[0018]图5为本申请实施例提供的一种位置编码模块的示意图;
[0019]图6为本申请实施例提供的一种音频分类方法的流程图;
[0020]图7为本申请实施例提供的一种模型训练装置700的示意图;
[0021]图8为本申请实施例提供的一种音频分类装置800的示意图;
[0022]图9是本申请实施例提供的电子设备900的示意性框图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0025]AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取第一音频、所述第一音频在多个分类维度上的实际分类结果和所述第一音频在所述多个分类维度上的实际位置编码结果;将所述第一音频输入目标神经网络模型,得到所述第一音频在所述多个分类维度上的预测分类结果和所述第一音频在所述多个分类维度上的预测位置编码结果;根据所述第一音频在所述多个分类维度上的实际分类结果和预测分类结果得到分类损失;对所述第一音频在所述多个分类维度上的实际位置编码结果进行融合,得到实际融合结果,并对所述第一音频在所述多个分类维度上的预测位置编码结果进行融合,得到预测融合结果;根据所述实际融合结果和所述预测融合结果得到位置编码损失;根据所述分类损失和所述位置编码损失训练所述目标神经网络模型。2.根据权利要求1所述的方法,其特征在于,所述对所述第一音频在所述多个分类维度上的实际位置编码结果进行融合,得到实际融合结果,并对所述第一音频在所述多个分类维度上的预测位置编码结果进行融合,得到预测融合结果,包括:按照所述多个分类维度的预设顺序对所述第一音频在所述多个分类维度上的实际位置编码结果进行拼接,得到所述实际融合结果;按照所述多个分类维度的所述预设顺序对所述第一音频在所述多个分类维度上的预测位置编码结果进行拼接,得到所述预测融合结果。3.根据权利要求1或2所述的方法,其特征在于,所述目标神经网络模型包括:神经网络层、所述多个分类维度分别对应的分类检测头、所述多个分类维度分别对应的分类器和所述多个分类维度分别对应的位置编码模块;所述神经网络层用于对所述第一音频进行特征提取,得到第一特征向量;每个所述分类检测头用于对所述第一特征向量进行特征提取,得到在对应的分类维度上的第二特征向量;每个所述分类器用于对对应的第二特征向量进行处理,得到在对应的分类维度上的预测分类结果;每个所述位置编码模块用于对对应的分类维度上的第二特征向量进行位置编码,得到在对应的分类维度上的预测位置编码结果。4.根据权利要求3所述的方法,其特征在于,每个所述位置编码模块依次包括:残差层、第一全连接层、第二全连接层。5.根据权利要求1或2所述的方法,其特征在于,所述根据所述分类损失和所述位置编码损失训练所述目...

【专利技术属性】
技术研发人员:贺思颖
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1