一种适用于多场景、多类型的音频分类标签方法及系统技术方案

技术编号:17779784 阅读:54 留言:0更新日期:2018-04-22 08:19
本发明专利技术公开了一种适合多场景、多类型的音频分类标签方法及系统。本发明专利技术提供的系统和方法能适用于多场合、多类型的音频分类、标签,通过对服务器上大量的广播音频节目进行自动分类、打标签、人工校对得到大量分类、打标签的短音频库,组成丰富的音频训练库,通过增加多样化的特征提取,使得对各种分类标签模型的训练更加准确,稳定,便于全面对比各种分类标签模型的性能。

【技术实现步骤摘要】
一种适用于多场景、多类型的音频分类标签方法及系统
本专利技术公开了一种适用于多场景、多类型的音频分类标签方法及系统,涉及到音频库的建立、音频分类、识别等智能音频处理领域,是实现音频智能化必要前提条件。本专利技术方法及系统,提供了丰富的音频场景、类型和算法,提高了音频分类、标签的评估的各项指标,适合对大规模的音频进行分类、打标签处理,便于建立音频智能算法,进行大数据库音频检索。
技术介绍
音频智能化,需要大量的数据库,短音频数据库为音频算法的应用、提升,提供了可统计、可分析、可重构的数据。而将这些音频数据进行分类、打标签、内容文本提取,是实现音频智能化——语音识别、合成、唤醒、变声等技术,广告识别,音乐分类、标签,等领域的前提和必要条件。现有的音频分类算法如图1所示,短音频信号经过预处理(包括去混叠、音频去噪、高频提升等步骤),输入到算法研究模块进行音频分割、进行特征提取后进行模型训练得到分类标签模型,同时用得到分类标签模型对短音频进行分类获得音频分类后,进行标注分类标签。根据分类得到的分类音频可以对算法性能进行评估。现有的音频分类技术有以下几个方面的不足:1.输入的音频比较单一;现有本文档来自技高网...
一种适用于多场景、多类型的音频分类标签方法及系统

【技术保护点】
一种适用于多场景、多类型的音频分类标签方法,该方法包括:步骤1,制作短音频训练库,所述短音频训练库包括多个种类短音频库以便适应不同的场景,即每个短音频库对应一类短音频,每个短音频只属于其中一类,设置多个不同场景、不同类型的音频信号,是为确保信号的多样性,应用的广泛性;步骤2,提取短音频库中音频信号的多个特征值作为训练模型的数据输入,采用多个不同的分类算法进行训练,得到多个不同的分类标签模型,进行横向、纵向等多角度分析比较音频的分类标签模型,针对不同项目得出最优分类标签模型;步骤3,利用步骤2选出的最优分类标签模型,对待分类的短音频进行自动分类、打标签;若是只需要结果,不需要扩充音频库,这一步音...

【技术特征摘要】
1.一种适用于多场景、多类型的音频分类标签方法,该方法包括:步骤1,制作短音频训练库,所述短音频训练库包括多个种类短音频库以便适应不同的场景,即每个短音频库对应一类短音频,每个短音频只属于其中一类,设置多个不同场景、不同类型的音频信号,是为确保信号的多样性,应用的广泛性;步骤2,提取短音频库中音频信号的多个特征值作为训练模型的数据输入,采用多个不同的分类算法进行训练,得到多个不同的分类标签模型,进行横向、纵向等多角度分析比较音频的分类标签模型,针对不同项目得出最优分类标签模型;步骤3,利用步骤2选出的最优分类标签模型,对待分类的短音频进行自动分类、打标签;若是只需要结果,不需要扩充音频库,这一步音频的分类、标签完成。2.如权利要求1所述的音频分类标签方法,在步骤3之后还包括以下步骤:步骤4,采用人工校对的方式对自动分类、打好标签的短音频进行校对,然后将校对好的短音频加入到短音频训练库对应类别的短音频库中;步骤5,定期用扩充的新短音频训练库,重新训练、更新分类标签模型,即重复步骤2、步骤3,形成闭环系统,以保证随着音频库大量增加,分类标签模型更加趋于稳定,提高各种评估指标。3.如权利要求1所述的音频分类标签方法,其中步骤2得到短音频多个分类标签模型后,还可以通过算法评估模块对所述多个分类标签模型的性能进行评估,从而确定相对于特定项目所需最优的短音频分类标签模型。4.如权利要求1所述的音频分类标签方法,其中,骤1中短音频训练库可以通过人工对大量的音频节目进行试听、剪辑得到各类音频,然后,进行构建或扩充,剪辑得到每类短音频库,需要确保每个短音频只属于一个分类。5.如权利要求1-4中任一项所述的音频分类标签方法,其中,步骤1中的多个不同场景、类型包括语音、纯音乐、广告、有歌声音乐、背景(音乐、噪声或者其它)语音以及其它场景/类型的短音频;步骤2中不同的音频信号特征值至少包括时域特征值、频域特征值、声学上的特征值、音频帧的特征值、音频段的特征值以及其它类型的音频信号特征值,或者几种特征值进行数学算法组合形成新的特征值;训练模型为机器学习分类算法模型包括:K最近邻模型(KNN)、混合高斯模型(GMM)、神经网络模型(CNN)、支持向量机模型(SVM)、隐马尔可夫模型(HMM)和决策树模型(DecisionTrees),极端随机树(ETC),随机森林(RFC),梯度提升(GBC),极端梯度提升(XGBC),朴素贝叶斯(NBC)、逻辑回归(LR)及其它改进的分类算法模型。6.如权利要求2所述的音频...

【专利技术属性】
技术研发人员:宫云梅
申请(专利权)人:阿基米德上海传媒有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1