音频识别方法及装置制造方法及图纸

技术编号:26422484 阅读:17 留言:0更新日期:2020-11-20 14:18
本申请实施例公开了一种音频识别方法及装置,该方法包括:获取待识别音频包括的多个音频片段对应的多张音频频谱图。将各张音频频谱图分别输入音频识别模型包括的卷积神经网络和递归神经网络中,以获取卷积神经网络输出的每张音频频谱图对应的第一特征向量,以及递归神经网络输出的每张音频频谱图对应的第二特征向量。将每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到每张音频频谱图对应的联合特征向量,并经过音频识别模型的输出层后获取对每个音频片段的音频识别结果。根据多个音频识别结果确定待识别音频的最终识别结果。采用本申请实施例,可提高音频识别的准确度和效率。

【技术实现步骤摘要】
音频识别方法及装置
本申请涉及音频识别领域,尤其涉及一种音频识别方法及装置。
技术介绍
随着互联网技术的发展,信息传播的方式和渠道发生了显著变化。当前,网络上传播的信息良莠不齐,为了净化网络环境,通常需要对用户上传的信息进行审核。现有技术中,针对用户上传的音视频作品或直播实时音视频,通过抽取出音频后,一方面可通过人耳辨别该音频是否为娇喘音频,另一方面可通过深度学习的方法进行音频识别。通常而言,采用人工判断的方法在音视频数据库较小且更新频率低的场景下可以实现较好的审核效果,但在互联网产品平台上,海量和多样化的音视频环境下,由于都要认真听一个个音频才能进行判断,该方法效率低下且成本高,不适应于面向互联网产品的娇喘音频识别需求。采用深度学习的方法则需要人工构造多种特征,其在一定程度上会损失部分代表娇喘音频特性的原始信息,从而影响娇喘音频识别的分类结果。
技术实现思路
本申请实施例提供一种音频识别方法及装置,可提高音频识别的准确性和效率。第一方面,本申请实施例提供了一种音频识别方法,该方法包括:接收待识别音频,获取待识别音频包括的多个音频片段对应的多张音频频谱图,其中一个音频片段对应一张音频频谱图;将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中,以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量;将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中,以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量;将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量,并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果,其中,所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到;根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。结合第一方面,在一种可能的实施方式中,所述音频识别模型还包括池化层,所述将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络包括:将所述各音频片段对应的各张音频频谱图输入所述池化层,经过所述池化层后输入所述递归神经网络。结合第一方面,在一种可能的实施方式中,所述输出层包括全连接层和softmax层,所述将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量,并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果,包括:将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量;将所述每张音频频谱图对应的联合特征向量输入所述音频识别模型包括的全连接层,经过所述全连接层后输入softmax层以获取所述softmax层输出的对所述每个音频片段的音频识别结果,其中,所述全连接层用于学习所述联合特征向量中具有类别区分性的局部信息,所述softmax层用于将所述全连接层输出映射为k个音频类别的音频类别置信度分布,其中,k等于2。结合第一方面,在一种可能的实施方式中,所述每个音频片段对应的音频识别结果包括目标音频类别和所述目标音频类别对应的音频类别置信度,其中,所述目标音频类别为正常音频或异常音频;所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果包括:确定所述多个音频片段对应的多个音频识别结果中包括的异常音频对应的第一数量,以及属于异常音频的音频片段对应的异常置信度的异常平均置信度;获取预设异常音频数量阈值和预设异常置信度阈值,当所述第一数量不小于所述预设异常音频数量阈值且所述异常平均置信度不小于所述预设异常置信度阈值时,确定所述待识别音频的最终识别结果为异常音频。结合第一方面,在一种可能的实施方式中,所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果之后,所述方法还包括:若所述待识别音频的最终识别结果为异常音频,则向所述待识别音频的上传账号发送警告信息或对所述待识别音频的上传账号进行封号处理。结合第一方面,在一种可能的实施方式中,所述方法还包括:获取训练样本集合,所述训练样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度;获取初始卷积循环神经网络模型,根据所述训练样本集合中包括的每个样本音频对应的样本音频频谱图以及所述每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数;当调整后的所述初始卷积循环神经网络模型满足目标收敛条件时,将调整后的初始卷积循环神经网络模型确定为音频识别模型,所述音频识别模型用于根据输入的音频频谱图输出音频识别结果。结合第一方面,在一种可能的实施方式中,所述音频类别置信度包括异常音频对应的异常置信度和正常音频对应的正常置信度,所述异常置信度与所述正常置信度之和等于1,所述根据所述训练样本集合中包括的每个样本音频对应的样本音频频谱图以及所述每个样本音频对应的音频类别置信度调整初始卷积循环神经网络模型的模型参数包括:将所述训练样本集合中包括的每个样本音频对应的样本音频频谱图输入初始卷积循环神经网络模型,以得到所述初始卷积循环神经网络模型输出的所述每个样本音频为异常音频的输出异常置信度,以及所述每个样本音频为正常音频的输出正常置信度,其中所述每个样本音频的输出异常置信度和输出正常置信度之和等于1;基于所述每个样本音频的异常置信度、正常置信度、输出异常置信度和输出正常置信度调整所述初始卷积循环神经网络模型的模型参数。结合第一方面,在一种可能的实施方式中,所述方法还包括:获取测试样本集合,所述测试样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度;将所述测试样本集合中包括每个样本音频对应的每张样本音频频谱图输入调整后的所述初始卷积循环神经网络模型,获取调整后的所述初始卷积循环神经网络模型输出的每个样本音频对应的音频识别结果;当根据调整后的所述初始卷积循环神经网络模型输出的各音频识别结果所确定出的识别准确率不小于预设准确率时,则确定调整后的所述初始卷积循环神经网络模型满足目标收敛条件。第二方面,本申请实施例提供了一种音频识别装置,该装置包括:音频获取模块,用于接收待识别音频,获取待识别音频包括的多个音频片段对应的多张音频频谱图,其中一个音频片段对应一张音频频谱图;特征提取模块,用于将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中,以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量;所述特征提取模块,还用于将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中,以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量;音频识别模块,用于将所述每张音本文档来自技高网...

【技术保护点】
1.一种音频识别方法,其特征在于,所述方法包括:/n接收待识别音频,获取待识别音频包括的多个音频片段对应的多张音频频谱图,其中一个音频片段对应一张音频频谱图;/n将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中,以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量;/n将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中,以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量;/n将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量,并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果,其中,所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到;/n根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。/n

【技术特征摘要】
1.一种音频识别方法,其特征在于,所述方法包括:
接收待识别音频,获取待识别音频包括的多个音频片段对应的多张音频频谱图,其中一个音频片段对应一张音频频谱图;
将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中,以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量;
将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中,以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量;
将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量,并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果,其中,所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到;
根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。


2.根据权利要求1所述的方法,其特征在于,所述音频识别模型还包括池化层,所述将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络包括:
将所述各音频片段对应的各张音频频谱图输入所述池化层,经过所述池化层后输入所述递归神经网络。


3.根据权利要求1所述的方法,其特征在于,所述输出层包括全连接层和softmax层,所述将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量,并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果,包括:
将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量;
将所述每张音频频谱图对应的联合特征向量输入所述音频识别模型包括的全连接层,经过所述全连接层后输入softmax层以获取所述softmax层输出的对所述每个音频片段的音频识别结果,其中,所述全连接层用于学习所述联合特征向量中具有类别区分性的局部信息,所述softmax层用于将所述全连接层输出映射为k个音频类别的音频类别置信度分布,其中,k等于2。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述每个音频片段对应的音频识别结果包括目标音频类别和所述目标音频类别对应的音频类别置信度,其中,所述目标音频类别为正常音频或异常音频;
所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果包括:
确定所述多个音频片段对应的多个音频识别结果中包括的异常音频对应的第一数量,以及属于异常音频的音频片段对应的异常置信度的异常平均置信度;
获取预设异常音频数量阈值和预设异常置信度阈值,当所述第一数量不小于所述预设异常音频数量阈值且所述异常平均置信度不小于所述预设异常置信度阈值时,确定所述待识别音频的最终识别结果为异常音频。


5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果之后,所述方法还包括:
若所述待识别音频的最终识别结果为异常音频,则向所述待识别音频的上传账号发送警告信息或对所述待识别音频的上传账号进行封号处理。


6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取训练样本集合,所述训练样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度;
获取初始卷积循环神经网...

【专利技术属性】
技术研发人员:郑炜乔邓冬瑞朱孔洋
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1