【技术实现步骤摘要】
音频识别方法及装置
本申请涉及音频识别领域,尤其涉及一种音频识别方法及装置。
技术介绍
随着互联网技术的发展,信息传播的方式和渠道发生了显著变化。当前,网络上传播的信息良莠不齐,为了净化网络环境,通常需要对用户上传的信息进行审核。现有技术中,针对用户上传的音视频作品或直播实时音视频,通过抽取出音频后,一方面可通过人耳辨别该音频是否为娇喘音频,另一方面可通过深度学习的方法进行音频识别。通常而言,采用人工判断的方法在音视频数据库较小且更新频率低的场景下可以实现较好的审核效果,但在互联网产品平台上,海量和多样化的音视频环境下,由于都要认真听一个个音频才能进行判断,该方法效率低下且成本高,不适应于面向互联网产品的娇喘音频识别需求。采用深度学习的方法则需要人工构造多种特征,其在一定程度上会损失部分代表娇喘音频特性的原始信息,从而影响娇喘音频识别的分类结果。
技术实现思路
本申请实施例提供一种音频识别方法及装置,可提高音频识别的准确性和效率。第一方面,本申请实施例提供了一种音频识别方法,该方法包括:接收待识别音频,获取待识别音频包括的多个音频片段对应的多张音频频谱图,其中一个音频片段对应一张音频频谱图;将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中,以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量;将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中,以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量; ...
【技术保护点】
1.一种音频识别方法,其特征在于,所述方法包括:/n接收待识别音频,获取待识别音频包括的多个音频片段对应的多张音频频谱图,其中一个音频片段对应一张音频频谱图;/n将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中,以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量;/n将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中,以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量;/n将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量,并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果,其中,所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到;/n根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。/n
【技术特征摘要】
1.一种音频识别方法,其特征在于,所述方法包括:
接收待识别音频,获取待识别音频包括的多个音频片段对应的多张音频频谱图,其中一个音频片段对应一张音频频谱图;
将各音频片段对应的各张音频频谱图输入音频识别模型包括的卷积神经网络中,以获取所述卷积神经网络输出的每张音频频谱图对应的第一特征向量;
将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络中,以获取所述递归神经网络输出的所述每张音频频谱图对应的第二特征向量;
将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量,并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果,其中,所述音频识别模型根据多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度训练得到;
根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果。
2.根据权利要求1所述的方法,其特征在于,所述音频识别模型还包括池化层,所述将所述各音频片段对应的各张音频频谱图输入音频识别模型包括的递归神经网络包括:
将所述各音频片段对应的各张音频频谱图输入所述池化层,经过所述池化层后输入所述递归神经网络。
3.根据权利要求1所述的方法,其特征在于,所述输出层包括全连接层和softmax层,所述将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量,并经过所述音频识别模型的输出层后获取对所述每个音频片段的音频识别结果,包括:
将所述每张音频频谱图对应的第一特征向量和第二特征向量进行拼接以得到所述每张音频频谱图对应的联合特征向量;
将所述每张音频频谱图对应的联合特征向量输入所述音频识别模型包括的全连接层,经过所述全连接层后输入softmax层以获取所述softmax层输出的对所述每个音频片段的音频识别结果,其中,所述全连接层用于学习所述联合特征向量中具有类别区分性的局部信息,所述softmax层用于将所述全连接层输出映射为k个音频类别的音频类别置信度分布,其中,k等于2。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述每个音频片段对应的音频识别结果包括目标音频类别和所述目标音频类别对应的音频类别置信度,其中,所述目标音频类别为正常音频或异常音频;
所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果包括:
确定所述多个音频片段对应的多个音频识别结果中包括的异常音频对应的第一数量,以及属于异常音频的音频片段对应的异常置信度的异常平均置信度;
获取预设异常音频数量阈值和预设异常置信度阈值,当所述第一数量不小于所述预设异常音频数量阈值且所述异常平均置信度不小于所述预设异常置信度阈值时,确定所述待识别音频的最终识别结果为异常音频。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述多个音频片段对应的多个音频识别结果确定所述待识别音频的最终识别结果之后,所述方法还包括:
若所述待识别音频的最终识别结果为异常音频,则向所述待识别音频的上传账号发送警告信息或对所述待识别音频的上传账号进行封号处理。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取训练样本集合,所述训练样本集合中包括多个样本音频对应的多张样本音频频谱图以及每个样本音频对应的音频类别置信度;
获取初始卷积循环神经网...
【专利技术属性】
技术研发人员:郑炜乔,邓冬瑞,朱孔洋,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。