一种声学场景分类的数据增强方法及系统技术方案

技术编号:39409194 阅读:8 留言:0更新日期:2023-11-19 16:01
本发明专利技术提供一种声学场景分类的数据增强方法及系统,属于语音识别技术领域,包括:将语音音频样本数据转换为频谱数据;提取频谱数据中的时频域特征,基于任意两个不同mini

【技术实现步骤摘要】
一种声学场景分类的数据增强方法及系统


[0001]本专利技术涉及语音识别
,尤其涉及一种声学场景分类的数据增强方法及系统。

技术介绍

[0002]深度学习在语音增强、自动语音识别(Automatic Speech Recognition,ASR)、声音分类、语音合成等各种音频处理任务中都取得了显著的成功。为了进一步提高它们的性能,许多研究努力集中在为特定的任务设计更好的网络架构。其中卷积神经网络、循环神经网络和卷积循环神经网络常被用作网络架构。虽然改进体系结构可以提供更好的性能,但这些方法容易过拟合,需要大量的训练数据。为了避免这个问题,人们已经在研究数据增强和正则化策略。
[0003]对于音频数据集的扩充,主要有两种方法:时域波形和时频域特征,如谱图、梅尔谱图和梅尔频倒谱系数。在DCASE社区中,数据增强方法已被广泛用于克服数据有限的问题,对于波形数据,数据增强策略可以包括注入噪声、改变基音、改变速度、改变时间和速度扰动波形,在不干扰显著信息的情况下扩展数据集,在基于波形的方法中,裁剪是常用且有效的方法之一。Salamon和Bello提出利用时间拉伸、基音变换、动态范围压缩和添加外部数据集选择的背景噪声产生的额外训练数据,这些数据也应用于原始波形。针对时频域特征,Specaugment提出了时间翘曲、频率掩蔽和时间掩蔽数据增强策略。虽然Specaugment已经成功地应用到ASR上,但是它在其他任务上的应用却受到了限制。例如,在语音增强任务中,时间轴和频率轴上的零掩码会降低性能。由于时频域特征是二维的,可以投影成二维图像,因此数据增强策略,特别是计算机视觉领域的混合样本数据增强(MSDA)类型。Mixup通过改变一个随机参数γ来混合音频特征和标签的两个图像,该算法在图像分类任务中的性能已经被证明是有效的,但由于它将不同源分量的声谱图混合在一起的方式,在音频域中很难将它们分离出来。因此,Mixup方法的性能受到了限制。Cutout和Specaugment分别对图像和谱图进行零掩码。虽然这些方法可以成功地应用于图像和谱图,但由于零掩蔽,显著的音频信息可能会丢失。Cutmix随机附加一个图像的一部分到另一个图像。它应用一个随机生成的掩模来切割一个谱图区域并将其随机粘贴到另一个谱图区域。Cutmix可以保留X1和X2的幅值信息,但是一幅图像的时频信息会随机移位到另一幅图像上,导致频移。
[0004]而且,上述这些增强方法只应用于深度神经网络的输入,而对隐藏空间的增强没有进行研究。Mixup和Between

Class(BC)learning也是DCASE任务中比较流行的数据增强方法,通过混合多个音频样本生成新的数据样本,并设计学习方法训练模型输出混合样本的预测。此外,Chen et al.利用辅助分类器GAN(ACGAN)生成假样本进行数据增强,但需要增加一个额外的鉴别器,这使得网络的收敛更加困难。

技术实现思路

[0005]本专利技术提供一种声学场景分类的数据增强方法及系统,用以解决现有技术中语音
识别场景中音频数据集增强扩充存在的缺陷。
[0006]第一方面,本专利技术提供一种声学场景分类的数据增强方法,包括:
[0007]采集语音音频样本数据,将所述语音音频样本数据转换为频谱数据;
[0008]提取所述频谱数据中的时频域特征,基于任意两个不同小批量mini

batch中确定任意两个不同样本对所述时频域特征进行时频掩蔽和倒置时频掩蔽,得到掩蔽后样本;
[0009]对所述掩蔽后样本进行合并得到混合样本;
[0010]将所述混合样本的中间隐藏状态,采用基于mini

batch处理的混合物掩蔽方法进行掩蔽得到隐藏状态掩蔽区域,将所述隐藏状态掩蔽区域进行均值混合,得到语音增强数据。
[0011]根据本专利技术提供的一种声学场景分类的数据增强方法,采集语音音频样本数据,将所述语音音频样本数据转换为频谱数据,包括:
[0012]对所述语音音频样本数据进行预加重,得到预加重信号;
[0013]以预设采样点对所述预加重信号进行分帧,得到分帧后信号;
[0014]采用汉明窗对所述分帧后信号进行加窗处理,得到加窗信号;
[0015]对所述加窗信号进行快速傅里叶变换,确定三角带通滤波器的中心频率和滤波器个数之间间隔,对快速傅里叶变换后信号进行带通滤波后取对数,输出每个滤波器组对数能量;
[0016]基于所述每个滤波器组对数能量和所述滤波器个数之间间隔进行离散余弦变换,得到梅尔频谱数据。
[0017]根据本专利技术提供的一种声学场景分类的数据增强方法,提取所述频谱数据中的时频域特征,基于任意两个不同小批量mini

batch中确定任意两个不同样本对所述时频域特征进行时频掩蔽和倒置时频掩蔽,得到掩蔽后样本,包括:
[0018]在0至3中选取整数随机数,以所述整数随机数作为重复次数,确定基准频率频带宽度、基准时间频带宽度和预设频带选择系数,所述预设频带选择系数位于0至1之间;
[0019]基于所述基准频率频带宽度确定起始频带频率,基于所述基准时间频带宽度确定起始时间频率;
[0020]根据所述起始频带频率、所述基准频率频带宽度和所述预设频带选择系数得到结束频带频率,根据所述起始时间频率、所述基准时间频带宽度和所述预设频带选择系数确定结束时间频率;
[0021]根据所述重复次数重复执行频率掩蔽和时间掩蔽,获得所述掩蔽后样本。
[0022]根据本专利技术提供的一种声学场景分类的数据增强方法,对所述掩蔽后样本进行合并得到混合样本,包括:
[0023]获取任一时频域特征及对应的时频域标签,所述任一时频域特征属于频率间隔、时间间隔和时频域特征构成的维度空间;
[0024]在第一mini

batch中确定第一训练样本,在第二mini

batch中确定第二训练样本,在0至1区间内确定第一二进制掩码和第二二进制掩码,所述第一二进制掩码用于从两个图像中进行删除和填充位置,所述第二二进制掩码用于填充为1;
[0025]由所述第一训练样本中的时频域特征与所述第一二进制掩码进行元素积乘法,以及所述第二训练样本中的时频域特征与所述第一二进制掩码进行元素积乘法之后求和,得
到所述混合样本中的时频域特征;
[0026]由所述第一训练样本中的标签与所述第二训练样本中的标签进行加权求和,得到所述混合样本中的标签。
[0027]根据本专利技术提供的一种声学场景分类的数据增强方法,将所述混合样本的中间隐藏状态,采用基于mini

batch处理的混合物掩蔽方法进行掩蔽得到隐藏状态掩蔽区域,将所述隐藏状态掩蔽区域进行均值混合,得到语音增强数据,包括:
[0028]在任一mini

batch中确定目标样本初始隐藏状态和另一样本隐藏状态,获取时间域的连续时间帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声学场景分类的数据增强方法,其特征在于,包括:采集语音音频样本数据,将所述语音音频样本数据转换为频谱数据;提取所述频谱数据中的时频域特征,基于任意两个不同小批量mini

batch中确定任意两个不同样本对所述时频域特征进行时频掩蔽和倒置时频掩蔽,得到掩蔽后样本;对所述掩蔽后样本进行合并得到混合样本;将所述混合样本的中间隐藏状态,采用基于mini

batch处理的混合物掩蔽方法进行掩蔽得到隐藏状态掩蔽区域,将所述隐藏状态掩蔽区域进行均值混合,得到语音增强数据。2.根据权利要求1所述的声学场景分类的数据增强方法,其特征在于,采集语音音频样本数据,将所述语音音频样本数据转换为频谱数据,包括:对所述语音音频样本数据进行预加重,得到预加重信号;以预设采样点对所述预加重信号进行分帧,得到分帧后信号;采用汉明窗对所述分帧后信号进行加窗处理,得到加窗信号;对所述加窗信号进行快速傅里叶变换,确定三角带通滤波器的中心频率和滤波器个数之间间隔,对快速傅里叶变换后信号进行带通滤波后取对数,输出每个滤波器组对数能量;基于所述每个滤波器组对数能量和所述滤波器个数之间间隔进行离散余弦变换,得到梅尔频谱数据。3.根据权利要求1所述的声学场景分类的数据增强方法,其特征在于,提取所述频谱数据中的时频域特征,基于任意两个不同小批量mini

batch中确定任意两个不同样本对所述时频域特征进行时频掩蔽和倒置时频掩蔽,得到掩蔽后样本,包括:在0至3中选取整数随机数,以所述整数随机数作为重复次数,确定基准频率频带宽度、基准时间频带宽度和预设频带选择系数,所述预设频带选择系数位于0至1之间;基于所述基准频率频带宽度确定起始频带频率,基于所述基准时间频带宽度确定起始时间频率;根据所述起始频带频率、所述基准频率频带宽度和所述预设频带选择系数得到结束频带频率,根据所述起始时间频率、所述基准时间频带宽度和所述预设频带选择系数确定结束时间频率;根据所述重复次数重复执行频率掩蔽和时间掩蔽,获得所述掩蔽后样本。4.根据权利要求1所述的声学场景分类的数据增强方法,其特征在于,对所述掩蔽后样本进行合并得到混合样本,包括:获取任一时频域特征及对应的时频域标签,所述任一时频域特征属于频率间隔、时间间隔和时频域特征构成的维度空间;在第一mini

batch中确定第一训练样本,在第二mini

batch中确定第二训练样本,在0至1区间内确定第一二进制掩码和第二二进制掩码,所述第一二进制掩码用于从两个图像中进行删除和填充位置,所述第二二进制掩码用于填充为1;由所述第一训练样本中的时频域特征与所述第一二进制掩码进行元素积乘法,以及...

【专利技术属性】
技术研发人员:饶文碧芦硕熊盛武闫垚楠字云飞
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1