【技术实现步骤摘要】
一种声学场景分类的数据增强方法及系统
[0001]本专利技术涉及语音识别
,尤其涉及一种声学场景分类的数据增强方法及系统。
技术介绍
[0002]深度学习在语音增强、自动语音识别(Automatic Speech Recognition,ASR)、声音分类、语音合成等各种音频处理任务中都取得了显著的成功。为了进一步提高它们的性能,许多研究努力集中在为特定的任务设计更好的网络架构。其中卷积神经网络、循环神经网络和卷积循环神经网络常被用作网络架构。虽然改进体系结构可以提供更好的性能,但这些方法容易过拟合,需要大量的训练数据。为了避免这个问题,人们已经在研究数据增强和正则化策略。
[0003]对于音频数据集的扩充,主要有两种方法:时域波形和时频域特征,如谱图、梅尔谱图和梅尔频倒谱系数。在DCASE社区中,数据增强方法已被广泛用于克服数据有限的问题,对于波形数据,数据增强策略可以包括注入噪声、改变基音、改变速度、改变时间和速度扰动波形,在不干扰显著信息的情况下扩展数据集,在基于波形的方法中,裁剪是常用且有效的方法之一。Salamon和Bello提出利用时间拉伸、基音变换、动态范围压缩和添加外部数据集选择的背景噪声产生的额外训练数据,这些数据也应用于原始波形。针对时频域特征,Specaugment提出了时间翘曲、频率掩蔽和时间掩蔽数据增强策略。虽然Specaugment已经成功地应用到ASR上,但是它在其他任务上的应用却受到了限制。例如,在语音增强任务中,时间轴和频率轴上的零掩码会降低性能。由于时频域特征是二维的 ...
【技术保护点】
【技术特征摘要】
1.一种声学场景分类的数据增强方法,其特征在于,包括:采集语音音频样本数据,将所述语音音频样本数据转换为频谱数据;提取所述频谱数据中的时频域特征,基于任意两个不同小批量mini
‑
batch中确定任意两个不同样本对所述时频域特征进行时频掩蔽和倒置时频掩蔽,得到掩蔽后样本;对所述掩蔽后样本进行合并得到混合样本;将所述混合样本的中间隐藏状态,采用基于mini
‑
batch处理的混合物掩蔽方法进行掩蔽得到隐藏状态掩蔽区域,将所述隐藏状态掩蔽区域进行均值混合,得到语音增强数据。2.根据权利要求1所述的声学场景分类的数据增强方法,其特征在于,采集语音音频样本数据,将所述语音音频样本数据转换为频谱数据,包括:对所述语音音频样本数据进行预加重,得到预加重信号;以预设采样点对所述预加重信号进行分帧,得到分帧后信号;采用汉明窗对所述分帧后信号进行加窗处理,得到加窗信号;对所述加窗信号进行快速傅里叶变换,确定三角带通滤波器的中心频率和滤波器个数之间间隔,对快速傅里叶变换后信号进行带通滤波后取对数,输出每个滤波器组对数能量;基于所述每个滤波器组对数能量和所述滤波器个数之间间隔进行离散余弦变换,得到梅尔频谱数据。3.根据权利要求1所述的声学场景分类的数据增强方法,其特征在于,提取所述频谱数据中的时频域特征,基于任意两个不同小批量mini
‑
batch中确定任意两个不同样本对所述时频域特征进行时频掩蔽和倒置时频掩蔽,得到掩蔽后样本,包括:在0至3中选取整数随机数,以所述整数随机数作为重复次数,确定基准频率频带宽度、基准时间频带宽度和预设频带选择系数,所述预设频带选择系数位于0至1之间;基于所述基准频率频带宽度确定起始频带频率,基于所述基准时间频带宽度确定起始时间频率;根据所述起始频带频率、所述基准频率频带宽度和所述预设频带选择系数得到结束频带频率,根据所述起始时间频率、所述基准时间频带宽度和所述预设频带选择系数确定结束时间频率;根据所述重复次数重复执行频率掩蔽和时间掩蔽,获得所述掩蔽后样本。4.根据权利要求1所述的声学场景分类的数据增强方法,其特征在于,对所述掩蔽后样本进行合并得到混合样本,包括:获取任一时频域特征及对应的时频域标签,所述任一时频域特征属于频率间隔、时间间隔和时频域特征构成的维度空间;在第一mini
‑
batch中确定第一训练样本,在第二mini
‑
batch中确定第二训练样本,在0至1区间内确定第一二进制掩码和第二二进制掩码,所述第一二进制掩码用于从两个图像中进行删除和填充位置,所述第二二进制掩码用于填充为1;由所述第一训练样本中的时频域特征与所述第一二进制掩码进行元素积乘法,以及...
【专利技术属性】
技术研发人员:饶文碧,芦硕,熊盛武,闫垚楠,字云飞,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。