基于多粒度标签融合的深度声学场景分类方法及系统技术方案

技术编号:22817643 阅读:25 留言:0更新日期:2019-12-14 13:20
本发明专利技术公开一种基于多粒度标签融合的深度声学场景分类方法及系统,其中方法包括如下步骤:利用典型声学场景知识,构建基于知识的多层次粒度标签模块,为声音场景数据生成不同粒度的标签;采用隐层参数共享机制,实现基于深度多任务学习网络的分类模型,优化分类性能;针对不同粒度的分类判决模块,利用高可信度的细粒度标签和粗粒度子类标签进行融合判决,得到最终判决结果。采用本发明专利技术,通过利用多层次标签融合技术,采用多任务学习方法,可以提高样本本身细粒度分类任务的分类精度,进而可以提升声学场景分类系统的性能。

Deep acoustic scene classification method and system based on multi granularity label fusion

【技术实现步骤摘要】
基于多粒度标签融合的深度声学场景分类方法及系统
本专利技术涉及声学场景分类
,尤其涉及一种基于多粒度标签融合的深度声学场景分类方法及系统。
技术介绍
声学场景中包含了丰富的声学信息,可以为事件判别、场景分析、目标定位提供信息支撑。声学场景分类,简单地说就是通过选择一个语意标签来描述音频流的声学环境。通过对声学环境的判断,声学场景分类技术可以实现场景建模,在机器人、语音通信、人机交互等领域中发挥重要作用。目前有基于深度神经网络分类模型进行声学场景分类的方法。这类方法可以充分学习声场谱图中的信息,识别率较高,但由于不同声学场景中存在相同声学事件的概率较高,依赖单一分类标签难以达到实际应用所需要的准确度。深度神经网络中的分类模型就是样本到样本标签的一个映射关系,通常只有一个细粒度类别标签信息,比如“广场”、“人行道”等等。然而声学场景本身具有多重类别属性,广场和人行道又可以统一到“室外”这个标签上,因此声学场景存在不同粒度的类别标签。声学场景分类需要同时考虑不同粒度的分类标签。为了区分不同粒度的分类标签,可以采用多任务学习的方法来实现。多任务学习简单地说就是模型同时学习多个任务。其目标是利用多个学习任务中所包含的有用信息来帮助为每个任务学习得到更为准确的学习器,通过共享相关任务之间的表征,使得模型更好地概括原始任务。根据任务的性质,多任务学习又被划分为多任务监督学习、多任务无监督学习、多任务半监督学习、多任务主动学习、多任务强化学习、多任务在线学习和多任务多视角学习。而本专利技术是基于多任务监督学习的。
技术实现思路
本专利技术实施例提供一种基于多粒度标签融合的深度声学场景分类方法及系统,通过粗细两种粒度的分类学习与训练,可以提高样本本身细粒度分类任务的分类精度,进而可以提升声学场景分类系统的性能。本专利技术实施例第一方面提供了一种基于多粒度标签融合的深度声学场景分类方法,可包括:将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签,多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签;基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练,得到第一训练数据对应的第一分类结果和第二训练数据对应的第二分类结果,第一训练数据为训练频谱图样本及其对应的细粒度类别标签,第二训练数据为训练频谱图样本及其对应的粗粒度类别标签;基于第一分类结果、预设粒度阈值和第二分类结果,确定样本的当前判别类别;对当前判别类别进行二次判别,选取最大概率的类作为最终的样本判别输出类别。进一步的,上述方法还包括:对声音场景数据进行处理,得到对应的频谱图样本;按照预设划分比例,将频谱图样本划分为训练样本、验证样本和测试样本。进一步的,上述方法第一分类结果包括细粒度标识特征和细粒度输出概率向量,第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。进一步的,上述基于第一分类结果、预设粒度阈值和第二分类结果,确定样本的当前判别类别,包括:当细粒度输出概率向量中最大概率值大于或等于预设粒度阈值时,确定样本的当前判别类别为细粒度单标签指示的样本类别;当最大概率值小于预设粒度阈值时,接受当前判别类别为粗粒度类别标签对应的样本类别。进一步的,每个粗类别的粒度标签包含的细类别粒度标签种类相同,且粗类别数少于细类别数据。进一步的,上述多任务卷积神经网络,包括任务共享网络参数的数层卷积层、池化层、批标准化层和一层全连接层,还有代表粗细粒度两个子任务独享参数的两个分类输出层,分别都采用了Softmax激活函数和交叉熵损失函数。进一步的,模型整体的损失函数由两个子任务的损失函数按比例叠加构成。进一步的,上述预设粒度阈值为根据任务的置信度要求设定的固定阈值,或者在任务执行过程中根据阈值计算方法计算的阈值。本专利技术实施例第二方面提供了一种基于多粒度标签融合的深度声学场景分类系统,可包括:多粒度标签划分模块,用于将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签,多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签;多任务训练模块,用于基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练,得到第一训练数据对应的第一分类结果和第二训练数据对应的第二分类结果,第一训练数据为训练频谱图样本及其对应的细粒度类别标签,第二训练数据为训练频谱图样本及其对应的粗粒度类别标签;粗细粒度类别判决模块,用于基于第一分类结果、预设粒度阈值和第二分类结果,确定样本的当前判别类别;多粒度融合判决模块,用于对当前判别类别进行二次判别,选取最大概率的类作为最终的样本判别输出类别。进一步的,上述系统还包括:场景数据处理模块,用于对声音场景数据进行处理,得到对应的频谱图样本;频谱样本划分模块,用于按照预设划分比例,将频谱图样本划分为训练样本、验证样本和测试样本。进一步的,上述第一分类结果包括细粒度标识特征和细粒度输出概率向量,第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。进一步的,上述粗细粒度类别判决模块包括:第一判决单元,用于当细粒度输出概率向量大于或等于预设粒度阈值时,确定样本的当前判别类别为细粒度单标签指示的样本类别;第二判决单元,用于当最大概率值小于预设粒度阈值时,接受当前判别类别为粗粒度类别标签对应的样本类别。进一步的,每个粗类别的粒度标签包含的细类别粒度标签种类相同,且粗类别数少于细类别数据。进一步的,上述多任务卷积神经网络,包括任务共享网络参数的数层卷积层、池化层、批标准化层和一层全连接层,还有代表粗细粒度两个子任务独享参数的两个分类输出层,分别都采用了Softmax激活函数和交叉熵损失函数。进一步的,模型整体的损失函数由两个子任务的损失函数按比例叠加构成。进一步的,上述预设粒度阈值为根据任务的置信度要求设定的固定阈值,或者在任务执行过程中根据阈值计算方法计算的阈值。本专利技术的有益效果在于:通过对声音场景数据对应的频谱图样本的细粒度单标签进行多种粒度划分,再进行多个分类任务的学习,利用参数的硬共享机制实现隐层参数的共享,保留各任务的输出层,从而有效提高了本身细粒度分类任务的分类精度,并且结合多任务的分类结果,构造一种粗细粒度分类融合的处理算法,进一步提升了声学场景分类系统的性能。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种基于多粒度标签融合的深度声学场景分类方法的流程示意图;图2是本专利技术实施例提供的另一种基于多粒度标签融合的深度声学场景分类方法的流程示意图;...

【技术保护点】
1.一种基于多粒度标签融合的深度声学场景分类方法,其特征在于,包括:/n将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签,所述多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签;/n基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练,得到所述第一训练数据对应的第一分类结果和所述第二训练数据对应的第二分类结果,所述第一训练数据为训练频谱图样本及其对应的细粒度类别标签,所述第二训练数据为所述训练频谱图样本及其对应的粗粒度类别标签;/n基于所述第一分类结果、预设粒度阈值和所述第二分类结果,确定样本的当前判别类别;/n对所述当前判别类别进行二次判别,选取最大概率的类作为最终的样本判别输出类别。/n

【技术特征摘要】
1.一种基于多粒度标签融合的深度声学场景分类方法,其特征在于,包括:
将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签,所述多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签;
基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练,得到所述第一训练数据对应的第一分类结果和所述第二训练数据对应的第二分类结果,所述第一训练数据为训练频谱图样本及其对应的细粒度类别标签,所述第二训练数据为所述训练频谱图样本及其对应的粗粒度类别标签;
基于所述第一分类结果、预设粒度阈值和所述第二分类结果,确定样本的当前判别类别;
对所述当前判别类别进行二次判别,选取最大概率的类作为最终的样本判别输出类别。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对声音场景数据进行处理,得到对应的频谱图样本;
按照预设划分比例,将所述频谱图样本划分为训练样本、验证样本和测试样本。


3.根据权利要求1所述的方法,其特征在于:
所述第一分类结果包括细粒度标识特征和细粒度输出概率向量,所述第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。


4.根据权利要求3所述的方法,其特征在于,所述基于所述第一分类结果、预设粒度阈值和所述第二分类结果,确定样本的当前判别类别,包括:
当所述细粒度输出概率向量中最大概率值大于或等于预设粒度阈值时,确定样本的当前判别类别为所述细粒度单标签指示的样本类别;
当所述最大概率值小于所述预设粒度阈值时,接受当前判别类别为粗粒度类别标签对应的样本类别。


5.根据权利要求1所述的方法,其特征在于:
每个粗类别的粒度标签包含的细类别粒度标签种类相同,且粗类别数少于细类别数据。

...

【专利技术属性】
技术研发人员:杨吉斌姚琨张雄伟郑昌艳曹铁勇孙蒙李莉赵斐
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1