音频的识别方法、装置、可读介质和电子设备制造方法及图纸

技术编号：32133860 阅读：32 留言：0更新日期：2022-01-29 19:38

本公开涉及一种音频的识别方法、装置、可读介质和电子设备，涉及电子信息处理技术领域，该方法包括：获取待识别音频，提取用于表征待识别音频的目标音频特征，目标音频特征的维度与待识别音频的时长正相关，利用预先训练的识别模型，根据目标音频特征确定指定维度的统计特征，并根据统计特征确定待识别音频包括的目标音频事件，识别模型根据预先采集的训练音频集训练得到，训练音频集包括不同时长的训练音频。本公开中识别模型对不同时长的音频进行特征提取，以得到指定维度的统计特征，从而识别音频中包括的音频事件，无需对音频进行截取或补齐操作，能够保留音频中完整的信息，提高识别的准确度。识别的准确度。识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
音频的识别方法、装置、可读介质和电子设备

[0001]本公开涉及电子信息处理
，具体地，涉及一种音频的识别方法、装置、可读介质和电子设备。

技术介绍

[0002]随着电子信息处理技术的不断发展，音频作为人们获取信息的重要载体，已经被广泛应用于日常生活和工作中。为了能够对音频进行准确适当的处理，通常需要对音频中包括的音频事件进行识别，例如：说话事件、唱歌事件、音乐事件等。在利用机器学习的方式对音频进行分类时，神经网络的结构往往要求输入的音频的时长是固定的，而真实的音频的时长是长短不一的，因此需要对真实的音频进行截取或补齐操作，会导致音频中信息的丢失，降低了分类的准确度。

技术实现思路

[0003]提供该部分内容以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面，本公开提供一种音频的识别方法，所述方法包括：
[0005]获取待识别音频；/>[0006]提取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频的识别方法，其特征在于，所述方法包括：获取待识别音频；提取用于表征所述待识别音频的目标音频特征，所述目标音频特征的维度与所述待识别音频的时长正相关；利用预先训练的识别模型，根据所述目标音频特征确定指定维度的统计特征，并根据所述统计特征确定所述待识别音频包括的目标音频事件，所述识别模型根据预先采集的训练音频集训练得到，所述训练音频集包括不同时长的训练音频。2.根据权利要求1所述的方法，其特征在于，所述识别模型包括：依次连接的多个卷积层、统计池化层和分类层；所述利用预先训练的识别模型，根据所述目标音频特征确定指定维度的统计特征，并根据所述统计特征确定所述待识别音频包括的目标音频事件，包括：将所述目标音频特征输入第一个所述卷积层，以得到最后一个所述卷积层输出的所述待识别音频的高层特征，所述高层特征的维度与所述目标音频特征的维度正相关；将所述高层特征输入所述统计池化层，以得到所述统计池化层输出的所述统计特征；将所述统计特征输入所述分类层，以根据所述分类层的输出确定所述目标音频事件。3.根据权利要求2所述的方法，其特征在于，所述统计池化层包括多个统计模块，每个统计模块对应一种统计处理；所述将所述高层特征输入所述统计池化层，以得到所述统计池化层输出的所述统计特征，包括：将所述高层特征分别输入每个所述统计模块，以得到该统计模块输出的统计结果，所述统计结果为该统计模块对所述高层特征进行对应的统计处理的结果；将多个所述统计模块输出的所述统计结果进行拼接，以得到所述统计特征，所述指定维度根据所述统计模块的数量确定。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述识别模型是通过以下方式训练得到的：获取样本输入集和所述样本输出集，所述样本输入集包括多个样本输入，所述样本输入包括所述训练音频集中的一个所述训练音频，所述样本输出集中包括与每个所述样本输入对应的样本输出，每个所述样本输出包括对应的所述训练音频包括的真实音频事件；将所述样本输入集作为所述识别模型的输入，将所述样本输出集作为所述识别模型的输出，以训练所述识别模型。5.根据权利要求4所述的方法，其特征在于，所述将所述样本输入集作为所述识别模型的输入，将所述样本输出集作为所述识别模型的输出，以训练所述识别模型，包括：将当前批次中的任一所述样本输入作为所述识别模型的输入...

【专利技术属性】
技术研发人员：何珂鑫，贾少勇，何怡，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人