一种音频多模态分类方法、系统及计算机设备技术方案

技术编号：42111201 阅读：25 留言：0更新日期：2024-07-25 00:33

本发明专利技术涉及音频分类技术领域，具体涉及一种音频多模态分类方法、系统及计算机设备，包括以下步骤：获取音频数据；利用多个分类器，对音频数据进行多个模态特征的分类学习，得到多个音频模态分类模型；利用动量梯度对多个音频模态分类模型进行多模态融合，得到用于提高音频分类性能的音频多模态分类模型。本发明专利技术利用音频数据的多模态特征进行分类，增加特征量，使得分类结果取决于多样化特征数据，提升分类的准确性，而且在分类过程中利用动量梯度下降法进行各分类模型的融合，保证了各分类模型拟合能力和泛化能力的均衡，进一步提高多模态分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频分类，具体涉及一种音频多模态分类方法、系统及计算机设备。

技术介绍

1、音频分类可根据性质分类为语音、音乐、噪音、静音、环境音等，为了将音频类别区分开来，相关技术人员通常是基于相关性的后验决策方法对贝叶斯最大后验分类器的结果进行了处理来实现音频分类。或者，采用的盲分离技术，将混在一起的音频分离开来，分别采用不同的技术进行后处理。

2、但是，上述现有的技术是根据音频数据的单一数据特征和专家的经验来进行分类，特征量有限，从而导致依赖单一特征分类的准确性受限。

技术实现思路

1、本专利技术的目的在于提供一种音频多模态分类方法、系统及计算机设备，以解决现有技术中分类特征量有限，从而导致依赖单一特征分类的准确性受限的技术问题。

2、为解决上述技术问题，本专利技术具体提供下述技术方案：

3、在本专利技术的第一个方面，本专利技术提供了一种音频多模态分类方法，包括以下步骤：

4、获取音频数据；

5、利用多个分类器，对音频数据进行...

【技术保护点】

1.一种音频多模态分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种音频多模态分类方法，其特征在于：所述音频数据的模态特征包括：声道信号特征、音频声波特征、梅尔谱特征、MFCC特征。

3.根据权利要求2所述的一种基于深度学习的音频多模态分类方法，其特征在于：所述音频数据的模态特征提取的方法包括：

4.根据权利要求3所述的一种基于深度学习的音频多模态分类方法，其特征在于：多个音频模态分类模型的构建包括：

5.根据权利要求4所述的一种音频多模态分类方法，其特征在于，所述音频多模态分类模型的构建方法包括：>

6.根据权利...

【技术特征摘要】

1.一种音频多模态分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种音频多模态分类方法，其特征在于：所述音频数据的模态特征包括：声道信号特征、音频声波特征、梅尔谱特征、mfcc特征。

3.根据权利要求2所述的一种基于深度学习的音频多模态分类方法，其特征在于：所述音频数据的模态特征提取的方法包括：

4.根据权利要求3所述的一种基于深度学习的音频多模态分类方法，其特征在于：多个音频模态分类模型的构建包括：

5.根据权利要求4所述的一种音频多模态分类方法，其特征在于，所述音频多模态分类...

【专利技术属性】
技术研发人员：金向锋，尹嘉航，潘乐，
申请(专利权)人：东莞野松电子工业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人