当前位置: 首页 > 专利查询>上海大学专利>正文

一种层级融合的音频数据增强方法及系统技术方案

技术编号:34633476 阅读:7 留言:0更新日期:2022-08-24 15:06
本发明专利技术提出了一种层级融合的音频数据增强方法及系统,该方法包括:采集原始音频信号X;使用WSOLA算法对音频信号X进行时域信号压扩,得到压扩后的音频X

【技术实现步骤摘要】
一种层级融合的音频数据增强方法及系统


[0001]本专利技术涉及一种可适用于多种音频任务的音频数据增强方法,属于音频数据处理领域。

技术介绍

[0002]目前,大多数音频任务都依赖于有标数据的数量,通常数据量越大,模型的效果越好。对于低资源条件下的音频任务,数据增强是一种简单有效的构造新样本的方法。利用数据增强技术,模型可以在小样本的条件下提取到稳定的语音表征,相比于原始的训练方法,识别效果也大大提升。
[0003]现有的研究集中于前端和特征两个方面的数据增强,以提高在未知环境下的识别性能。对原始音频添加参数化的混响、偏移和速度扰动都可以模拟真实环境下的噪声,用这种方法进行数据增强可以大大提高模型的鲁棒性。此外,使用声道长度扰动技术扩增数据也被证明是有效的。此外,基于信号压缩的数据增强方法已经成功用于声音攻击检测领域,该方法基于a律和μ律信号压缩方法通过对原始信号的压缩和扩展实现数据增强。
[0004]除了在前端进行数据增强,还可以对音频特征进行数据增强,现有研究基于基频归一化实现了音频特征的数据增强,通过对基频添加不同程度的扰动构造出多个相近的频率。该方法在语音识别任务上能够取得不错的效果。

技术实现思路

[0005]本专利技术要解决的技术问题是:对于音频分类任务:一方面,获取大量的外部噪声数据实现数据增强的成本较高;另一方面,现有方法所构造出的样本比较有限。
[0006]为了解决上述技术问题,本专利技术的一个技术方案是提供了一种层级融合的音频数据增强方法,其特征在于,包括以下步骤:
[0007]a)采集原始信号,并以数字信号的形式保存为音频X;
[0008]b)对音频X进行时域信号压扩,得到压扩后的音频X
o

[0009]对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频X
o

[0010]c)将压扩后的音频X
o
与原始音频X混合,组成新的训练集S
x

[0011]d)对训练集S
x
中的每一条音频进行频率提取,得到频率f;
[0012]e)对每一条音频进行基频提取,获得基频f
o,def

[0013]d)对基频f
o,def
扰动添加,构成基频集S
f

[0014]对于基频f
o,def
添加扰动,分别加入
±
20,
±
40和
±
60的频率偏移量,得到的扰动后基频f
o
与原始基频f
o,def
共同组成基频集S
f

[0015]e)使用基频集S
f
对频率进行归一化,构建频率集S
F

[0016]使用基频集S
f
对频率特征进行归一化操作,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作f
o,audio
,再分别使用基频集S
f
中的每
个值对梅尔尺度下的频率值进行标准化:
[0017]f
norm
=f
orig

(f
o,audio

f
o,def
)
[0018]式中,f
orig
表示梅尔尺度下的频率值,f
o,audio
表示当前音频中所有帧的基频的中位数,f
o,def
表示默认基频;
[0019]经过归一化得到的f
norm
组成了频率集S
F

[0020]f)使用频率集S
F
进行声学特征提取
[0021]使用频率集S
F
中的元素对音频信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。
[0022]优选地,将原始音频X中的任意一个音频帧定义为第一个音频帧,则步骤b)具体包括以下步骤:
[0023]在第一个音频帧的左右范围内选取第二个音频帧,第二个音频帧的相位参数与第一个音频帧相位对齐;
[0024]在范围[

Δmax,Δmax]内查找第三个音频帧,Δmax大小设为半个音频周期,然后计算范围内帧与帧之间的互相关系数,选择与第二个音频帧相似度最高的作为第三个音频帧;
[0025]将第一个音频帧、第二个音频帧以及第三个音频帧以相同步长进行拼接,重叠部分做相加处理。
[0026]优选地,在步骤c)中,为压扩后的音频X
o
添加与原始音频X相同的标注,并添加到原始的数据集中,共同组成新的训练集S
x

[0027]优选地,步骤d)中,对训练集S
x
中的音频进行分帧、加窗和梅尔尺度变换,提取音频频率特征,从而获得频率f。
[0028]优选地,步骤e)中,使用SWIPE算法进行基频估计,通过峰谷距衡量幅度谱在每个频率f的整数倍处的峰值相对于紧邻它的两个谷值的显著性,该函数定义为:
[0029][0030]式中:d
k
(f)表示峰谷距;k=1,2,...,n,表示倍数,|X(kf)|表示幅度谱在频率f的k倍处的峰值;
[0031]显著度由各次谐波的平均峰谷距表示,如下式所示:
[0032][0033]基于显著度最终估计出的基频表示为f
o,def
,该基频f
o,def
用于后续的特征归一化。
[0034]本专利技术的另一个技术方案是提供了一种层级融合的音频数据增强系统,其特征在于,包括:
[0035]信号压扩单元:用于对音频X进行时域信号压扩,得到压扩后的音频X
o
,其中,对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频X
o

[0036]训练集构建单元:用于将压扩后的音频X
o
与原始音频X混合,组成新的训练集S
x

[0037]频率提取单元:用于提取训练集S
x
中的每一条音频的频率,得到频率f;
[0038]基频提取单元:用于对每一条音频进行基频提取,获得基频f
o,def

[0039]基频扰动添加单元:用于对基频f
o,def
扰动添加,构成基频集S
f
,其中,对于基频f
o,def
添加扰动时,分别加入
±
20,
±
40和
±
60的频率偏移量,得到的扰动后基频f
o
与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种层级融合的音频数据增强方法,其特征在于,包括以下步骤:a)采集原始信号,并以数字信号的形式保存为音频X;b)对音频X进行时域信号压扩,得到压扩后的音频X
o
:对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频X
o
;c)将压扩后的音频X
o
与原始音频X混合,组成新的训练集S
x
;d)对训练集S
x
中的每一条音频进行频率提取,得到频率f;e)对每一条音频进行基频提取,获得基频f
o,def
;d)对基频f
o,def
扰动添加,构成基频集S
f
:对于基频f
o,def
添加扰动,分别加入
±
20,
±
40和
±
60的频率偏移量,得到的扰动后基频f
o
与原始基频f
o,def
共同组成基频集S
f
;e)使用基频集S
f
对频率进行归一化,构建频率集S
F
:使用基频集S
f
对频率特征进行归一化操作,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作f
o,audio
,再分别使用基频集S
f
中的每个值对梅尔尺度下的频率值进行标准化:f
norm
=f
orig

(f
o,audio

f
o,def
)式中,f
orig
表示梅尔尺度下的频率值,f
o,audio
表示当前音频中所有帧的基频的中位数,f
o,def
表示默认基频;经过归一化得到的f
norm
组成了频率集S
F
;f)使用频率集S
F
进行声学特征提取以频率集S
F
中的元素为基准,对信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。2.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,将原始音频X中的任意一个音频帧定义为第一个音频帧,则步骤b)具体包括以下步骤:在第一个音频帧的左右范围内选取第二个音频帧,第二个音频帧的相位参数与第一个音频帧相位对齐;在范围[

Δmax,Δmax]内查找第三个音频帧,Δmax大小设为半个音频周期,然后计算范围内帧与帧之间的互相关系数,选择与第二个音频帧相似度最高的作为第三个音频帧;将第一个音频帧、第二个音频帧以及第三个音频帧以相同步长进行拼接,重叠部分做相加处理。3.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,在步骤c)中,为压扩后的音频X
o
添加与原始音频X相同的标注,并添加到原始的数据集中,共同组成新的训练集S
x
。4.如权利要求1所述的一种层级融合的音频...

【专利技术属性】
技术研发人员:武星
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1