【技术实现步骤摘要】
一种音频分类模型的训练和垃圾音频识别方法和装置
本申请涉及人工智能
,尤其涉及一种音频分类模型的训练和垃圾音频识别方法和装置。
技术介绍
随着多媒体技术的发展,音频的数量和时长呈指数型增长。音频在被上传至网络中时,通常需要对音频进行审核,以避免色情以及自发性知觉经络反应(AutonomousSensoryMeridianResponse,ASMR)等垃圾音频在网络中传播。传统技术中,通常采用人工审核的方式,将整个音频听完,才能判断音频是否为垃圾音频,音频审核效率较低,这会耗费大量的人力成本和时间成本,难以对海量的音频进行审核。由此,需要一个可以降低耗费的人力成本和时间成本,提高音频审核效率的垃圾音频识别的技术方案。
技术实现思路
本申请实施例提供一种音频分类模型的训练和垃圾音频识别方法和装置,用以在对音频进行垃圾音频识别时,降低耗费的人力成本和时间成本,提高音频审核效率。一方面,提供一种音频分类模型的训练方法,包括:获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络,门控递归单元和注意力机制构建的音频分类模型;分别提取每一音频样本片段的音频特征向量;基于各音频特征向量和相应的音频类别标签,对音频分类模型进行训练,获得训练好的音频分类模型;其中,各音频样本片段是按照指定音频时长对音频样本划分后获得的,音频类别标签至少包括:垃圾语音和正常语音。较佳的,基于各音频特征向量和相应的音频类别标签,对音频分类模型进行训练,获得训 ...
【技术保护点】
1.一种音频分类模型的训练方法,其特征在于,包括:/n获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络,门控递归单元和注意力机制构建的音频分类模型;/n分别提取每一音频样本片段的音频特征向量;/n基于各音频特征向量和相应的音频类别标签,对所述音频分类模型进行训练,获得训练好的音频分类模型;/n其中,各音频样本片段是按照指定音频时长对音频样本划分后获得的,所述音频类别标签至少包括:垃圾语音和正常语音。/n
【技术特征摘要】
1.一种音频分类模型的训练方法,其特征在于,包括:
获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络,门控递归单元和注意力机制构建的音频分类模型;
分别提取每一音频样本片段的音频特征向量;
基于各音频特征向量和相应的音频类别标签,对所述音频分类模型进行训练,获得训练好的音频分类模型;
其中,各音频样本片段是按照指定音频时长对音频样本划分后获得的,所述音频类别标签至少包括:垃圾语音和正常语音。
2.如权利要求1所述的方法,其特征在于,基于各音频特征向量和相应的音频类别标签,对所述音频分类模型进行训练,获得训练好的音频分类模型,包括:
分别针对每一音频样本片段,执行以下操作:基于卷积神经网络,对所述音频样本片段的音频特征向量进行卷积运算处理,输出第一向量;基于门控递归单元,对所述第一向量进行收敛处理,输出门控递归向量;基于卷积神经网络,对所述门控递归向量进行卷积运算处理,输出第二向量;基于注意力机制,对所述第二向量进行聚焦处理,输出音频卷积特征向量;通过全连接层对所述音频卷积特征向量进行处理,输出音频分类向量,所述音频分类向量表示各音频类别对应的置信度;根据所述音频分类向量,将各置信度中的最大置信度对应的音频类别,作为所述音频样本片段的第一音频类别;
基于各音频样本片段对应的第一音频类别和音频类别标签,确定损失;
根据所述损失,对所述音频分类模型的参数进行调整,获得调整后的音频分类模型。
3.如权利要求1所述的方法,其特征在于,在基于各音频特征向量和相应的音频类别标签,对所述音频分类模型进行训练之前,进一步包括:
根据各音频样本片段对应的音频特征向量,对各音频样本片段进行静音检测;
筛选出检测结果表示非静音的音频样本片段和相应的音频特征向量。
4.如权利要求3所述的方法,其特征在于,根据各音频样本片段对应的音频特征向量,对各音频样本片段进行静音检测之前,进一步包括:
对各音频特征向量进行数据增强处理,获得数据增强处理后的音频特征向量;
对数据增强处理后的音频特征向量,进行随机采样;
将随机采样后的音频特征向量,作为各音频样本片段对应的音频特征向量。
5.如权利要求4所述的方法,其特征在于,对各音频特征向量进行数据增强处理,获得数据增强处理后的音频特征向量,包括:
将各音频特征向量...
【专利技术属性】
技术研发人员:周立峰,姚泽平,李雨珂,杨卫强,朱浩齐,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。