【技术实现步骤摘要】
一种用于声音事件检测的声音编码器的生成方法
本申请涉及声音事件检测领域,特别是涉及一种用于声音事件检测的声音编码器的生成方法。
技术介绍
声音承载了大量日常环境中物理时间的信息,通过声音可以感知所处环境,例如,街道、办公室等,也可以识别单个声源,例如,汽车引擎声、脚步声等。自动提取声音事件信息的方法在城市安防中有巨大的应用潜力,例如,利用声音事件信息识别环境中的活动,利用声音事件信息对敏感事件进行报警,根据城市范围内的声音事件信息构建城市声谱地图,根据声音事件信息搜索监控视频等。通过声音事件检测任务(SoundEventDetection,SED)可以确定声音事件,SED包括两个子任务,分别是音频标记和边界检测,音频标记用于识别音频片段中所有声音事件的类别,边界检测用于确定音频片段中各类声音事件发生的精确时间边界。传统的SED需要大量强标签的真实音频训练数据,强标签包括事件类别的标签和事件时间边界的标签,然而获取大量具有强标签的真实音频训练数据很困难,详细标注也需要极高成本;具有强标签的真实音频训练数据不足,会导致检
【技术保护点】
1.一种用于声音事件检测的声音编码器的生成方法,其特征在于,包括:/n对第一训练集中的预训练音频信号进行失真处理,得到失真训练信号,其中,所述第一训练集包括多个无标签的预训练音频信号;/n将所述失真训练信号输入初始声音编码器,得到所述预训练音频信号对应的第一特征向量;/n基于所述预训练音频信号和感知机集合,确定所述预训练音频信号对应的第二特征向量;/n基于所述第一特征向量和所述第二特征向量修改所述初始声音编码器的参数,并继续执行所述对第一训练集中的预训练音频信号进行失真处理,得到失真训练信号的步骤,直至满足预设训练条件,得到候选声音编码器;/n通过第二训练集中的微调音频信号 ...
【技术特征摘要】
1.一种用于声音事件检测的声音编码器的生成方法,其特征在于,包括:
对第一训练集中的预训练音频信号进行失真处理,得到失真训练信号,其中,所述第一训练集包括多个无标签的预训练音频信号;
将所述失真训练信号输入初始声音编码器,得到所述预训练音频信号对应的第一特征向量;
基于所述预训练音频信号和感知机集合,确定所述预训练音频信号对应的第二特征向量;
基于所述第一特征向量和所述第二特征向量修改所述初始声音编码器的参数,并继续执行所述对第一训练集中的预训练音频信号进行失真处理,得到失真训练信号的步骤,直至满足预设训练条件,得到候选声音编码器;
通过第二训练集中的微调音频信号对所述候选声音编码器进行训练,得到目标声音编码器,其中,所述第二训练集包括多个配置有标签的微调音频信号,所述标签用于反映所述微调音频信号的类别。
2.根据权利要求1所述的用于声音事件检测的声音编码器的生成方法,其特征在于,所述对第一训练集中的预训练音频信号进行失真处理,得到失真训练信号,包括:
将所述第一训练集中的预训练音频信号输入失真处理模块,通过所述失真处理模块得到所述失真训练信号,其中,所述失真处理模块配置有若干失真处理方法,每个失真处理方法均有各自分别对应的权重。
3.根据权利要求1所述的用于声音事件检测的声音编码器的生成方法,其特征在于,所述基于所述预训练音频信号和感知机集合,确定所述预训练音频信号对应的第二特征向量,具体包括:
提取所述预训练音频信号对应的若干变换特征,所述若干变换特征包括:预训练音频信号的原始声音波形特征、对数功率谱特征、梅尔倒谱系数特征、FilterBank特征、GammaTone特征和韵律特征;
将所述若干变换特征输入所述感知机集合,得到所述预训练音频信号对应的第二特征向量。
4.根据权利要求1所述的用于声音事件检测的声音编码器的生成方法,其特征在于,所述通过第二训练集中的微调音频信号对所述候选声音编码器进行训练,得到目标声音编码器,具体包括:
对于所述第二训练集中每个微调音频信号,对该微调音频信号进行随机变化,得到第一随机信号和第二随机信号;
提取所述第一随机信号的特征,以得到第一输出特征向量,以及提取所述第二随机信号的特征,以得到第二输出特征向量;
基于所有第一输出特征向量和所有第二输出特征向量修改所述候选声音编码器的参数,得到目标语音编码。
5.根据权利要求4所述的用于声音事件检测的声音编码器的生成方法,其特征在于,所述提取所述第一随机信号的特征,以得到第一输出特征向量,以及提取所述第二随机信号的特征,以得到第二输出...
【专利技术属性】
技术研发人员:任延珍,刘武洋,何佳庆,王丽娜,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。