一种音频分类模型的训练和垃圾音频识别方法和装置制造方法及图纸

技术编号:26036726 阅读:46 留言:0更新日期:2020-10-23 21:15
本申请公开了一种音频分类模型的训练和垃圾音频识别方法和装置,属于人工智能技术领域,该方法包括,获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络,门控递归单元和注意力机制构建的音频分类模型;分别提取每一音频样本片段的音频特征向量;基于各音频特征向量和相应的音频类别标签,对音频分类模型进行训练,获得训练好的音频分类模型。接收针对待识别音频的识别请求;根据识别请求,将待识别音频进行切分,获得多个音频片段;采用音频分类模型,分别识别出每一音频片段的第一音频类别;基于各音频片段的第一音频类别,获得待识别音频的识别结果。这样,降低了人力成本和时间成本,提高了音频审核效率。

【技术实现步骤摘要】
一种音频分类模型的训练和垃圾音频识别方法和装置
本申请涉及人工智能
,尤其涉及一种音频分类模型的训练和垃圾音频识别方法和装置。
技术介绍
随着多媒体技术的发展,音频的数量和时长呈指数型增长。音频在被上传至网络中时,通常需要对音频进行审核,以避免色情以及自发性知觉经络反应(AutonomousSensoryMeridianResponse,ASMR)等垃圾音频在网络中传播。传统技术中,通常采用人工审核的方式,将整个音频听完,才能判断音频是否为垃圾音频,音频审核效率较低,这会耗费大量的人力成本和时间成本,难以对海量的音频进行审核。由此,需要一个可以降低耗费的人力成本和时间成本,提高音频审核效率的垃圾音频识别的技术方案。
技术实现思路
本申请实施例提供一种音频分类模型的训练和垃圾音频识别方法和装置,用以在对音频进行垃圾音频识别时,降低耗费的人力成本和时间成本,提高音频审核效率。一方面,提供一种音频分类模型的训练方法,包括:获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络,门控递归单元和注意力机制构建的音频分类模型;分别提取每一音频样本片段的音频特征向量;基于各音频特征向量和相应的音频类别标签,对音频分类模型进行训练,获得训练好的音频分类模型;其中,各音频样本片段是按照指定音频时长对音频样本划分后获得的,音频类别标签至少包括:垃圾语音和正常语音。较佳的,基于各音频特征向量和相应的音频类别标签,对音频分类模型进行训练,获得训练好的音频分类模型,包括:分别针对每一音频样本片段,执行以下操作:基于卷积神经网络,对音频样本片段的音频特征向量进行卷积运算处理,输出第一向量;基于门控递归单元,对第一向量进行收敛处理,输出门控递归向量;基于卷积神经网络,对门控递归向量进行卷积运算处理,输出第二向量;基于注意力机制,对第二向量进行聚焦处理,输出音频卷积特征向量;通过全连接层对音频卷积特征向量进行处理,输出音频分类向量,音频分类向量表示各音频类别对应的置信度;根据音频分类向量,将各置信度中的最大置信度对应的音频类别,作为音频样本片段的第一音频类别;基于各音频样本片段对应的第一音频类别和音频类别标签,确定损失;根据损失,对音频分类模型的参数进行调整,获得调整后的音频分类模型。较佳的,在基于各音频特征向量和相应的音频类别标签,对音频分类模型进行训练之前,进一步包括:根据各音频样本片段对应的音频特征向量,对各音频样本片段进行静音检测;筛选出检测结果表示非静音的音频样本片段和相应的音频特征向量。较佳的,根据各音频样本片段对应的音频特征向量,对各音频样本片段进行静音检测之前,进一步包括:对各音频特征向量进行数据增强处理,获得数据增强处理后的音频特征向量;对数据增强处理后的音频特征向量,进行随机采样;将随机采样后的音频特征向量,作为各音频样本片段对应的音频特征向量。较佳的,对各音频特征向量进行数据增强处理,获得数据增强处理后的音频特征向量,包括:将各音频特征向量,作为各第一音频特征向量;对各第一音频特征向量进行频域增强处理,获得各第二音频特征向量;对各音频样本片段进行时域增强处理,得到各时域增强音频;对各时域增强音频进行特征提取,获得各第三音频特征向量;对各第三音频特征向量进行频域增强处理,获得各第四音频特征向量;将各第一音频特征向量、各第二音频特征向量、各第三音频特征向量以及各第四音频特征向量,作为数据增强处理后的音频特征向量。一方面,提供一种垃圾音频识别方法,采用上述任一种音频分类模型的训练的方法获得的音频分类模型,包括:接收针对待识别音频的识别请求;根据识别请求,将待识别音频进行切分,获得多个音频片段;采用音频分类模型,分别识别出每一音频片段的第一音频类别;基于各音频片段的第一音频类别,获得待识别音频的识别结果。较佳的,在基于各音频片段的第一音频类别,获得待识别音频的识别结果之前,进一步包括:通过音频分类模型,分别提取每一音频片段的音频卷积特征向量;获取包含指定类型的多个音频样本片段对应的音频卷积特征向量和音频类别标签的音频库,其中每一音频片段对应一音频类别标签;分别针对每一音频片段,根据音频片段的音频卷积特征向量与音频库中包含的各音频样本片段的音频卷积特征向量之间的相似度,确定音频片段匹配的音频样本片段,并将匹配的音频样本片段对应的音频类别标签,确定为音频片段的第二音频类别;基于各音频片段的第一音频类别,获得待识别音频的识别结果,包括:根据各音频片段对应的第一音频类别和第二音频类别,确定待识别音频的识别结果。较佳的,音频库包括多个音频样本集合,以及每一音频样本集合对应的标识信息和音频中心向量;音频样本集合是将音频库中的各音频样本片段对应的音频卷积特征向量聚类划分后获得的;一个音频样本集合对应的音频中心向量是根据一个音频样本集合中包含的各音频样本片段的音频卷积特征向量确定的;各音频中心向量和标识信息存储于内存中。较佳的,根据音频片段的音频卷积特征向量与音频库中包含的各音频样本片段的音频卷积特征向量之间的相似度,确定音频片段匹配的音频样本片段,包括:根据音频片段的音频卷积特征向量与各音频中心向量之间的相似度,确定音频片段的音频卷积特征向量匹配的音频中心向量;确定匹配的音频中心向量对应设置的标识信息;将确定出的标识信息对应设置的音频样本集合,确定为音频片段匹配的音频样本集合;根据音频片段的音频卷积特征向量,与匹配的音频样本集合中包含的各音频样本片段的音频卷积特征向量之间的相似度,确定音频片段匹配的音频样本片段。较佳的,音频库是按照以下步骤构建的:获取指定类别的各音频样本片段的音频特征向量,以及对应设置的音频类别标签;采用音频分类模型,分别对每一音频样本片段的音频特征向量进行卷积运算处理,获得相应的音频卷积特征向量;对各音频样本片段的音频卷积特征向量进行量化处理,获得量化处理后的音频卷积特征向量;分别确定每两个音频样本片段对应的音频卷积特征向量之间的相似度;根据各相似度,将各音频样本片段对应的音频卷积特征向量进行聚类划分,获得各包含多个音频卷积特征向量和相应音频类别标签的音频样本集合;分别对每一音频样本集合中的各音频卷积特征向量进行均值处理,获得相应的音频中心向量;分别针对每一音频样本集合,设置相应的标识信息;建立包含各音频样本集合、各音频中心向量以及各标识信息的音频库。较佳的,进一步包括:获取待识别音频的实际音频类别;根据待识别音频的实际音频类别和识别结果,确定待识别音频符合预设入库条件时,对待识别音频进行切分,获得多个音频片段,将实际音频类别,作为待识别音频的各音频片段的音频类别标签;分本文档来自技高网...

【技术保护点】
1.一种音频分类模型的训练方法,其特征在于,包括:/n获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络,门控递归单元和注意力机制构建的音频分类模型;/n分别提取每一音频样本片段的音频特征向量;/n基于各音频特征向量和相应的音频类别标签,对所述音频分类模型进行训练,获得训练好的音频分类模型;/n其中,各音频样本片段是按照指定音频时长对音频样本划分后获得的,所述音频类别标签至少包括:垃圾语音和正常语音。/n

【技术特征摘要】
1.一种音频分类模型的训练方法,其特征在于,包括:
获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络,门控递归单元和注意力机制构建的音频分类模型;
分别提取每一音频样本片段的音频特征向量;
基于各音频特征向量和相应的音频类别标签,对所述音频分类模型进行训练,获得训练好的音频分类模型;
其中,各音频样本片段是按照指定音频时长对音频样本划分后获得的,所述音频类别标签至少包括:垃圾语音和正常语音。


2.如权利要求1所述的方法,其特征在于,基于各音频特征向量和相应的音频类别标签,对所述音频分类模型进行训练,获得训练好的音频分类模型,包括:
分别针对每一音频样本片段,执行以下操作:基于卷积神经网络,对所述音频样本片段的音频特征向量进行卷积运算处理,输出第一向量;基于门控递归单元,对所述第一向量进行收敛处理,输出门控递归向量;基于卷积神经网络,对所述门控递归向量进行卷积运算处理,输出第二向量;基于注意力机制,对所述第二向量进行聚焦处理,输出音频卷积特征向量;通过全连接层对所述音频卷积特征向量进行处理,输出音频分类向量,所述音频分类向量表示各音频类别对应的置信度;根据所述音频分类向量,将各置信度中的最大置信度对应的音频类别,作为所述音频样本片段的第一音频类别;
基于各音频样本片段对应的第一音频类别和音频类别标签,确定损失;
根据所述损失,对所述音频分类模型的参数进行调整,获得调整后的音频分类模型。


3.如权利要求1所述的方法,其特征在于,在基于各音频特征向量和相应的音频类别标签,对所述音频分类模型进行训练之前,进一步包括:
根据各音频样本片段对应的音频特征向量,对各音频样本片段进行静音检测;
筛选出检测结果表示非静音的音频样本片段和相应的音频特征向量。


4.如权利要求3所述的方法,其特征在于,根据各音频样本片段对应的音频特征向量,对各音频样本片段进行静音检测之前,进一步包括:
对各音频特征向量进行数据增强处理,获得数据增强处理后的音频特征向量;
对数据增强处理后的音频特征向量,进行随机采样;
将随机采样后的音频特征向量,作为各音频样本片段对应的音频特征向量。


5.如权利要求4所述的方法,其特征在于,对各音频特征向量进行数据增强处理,获得数据增强处理后的音频特征向量,包括:
将各音频特征向量...

【专利技术属性】
技术研发人员:周立峰姚泽平李雨珂杨卫强朱浩齐
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1