一种基于分类的齿音抑制方法技术

技术编号:37960838 阅读:6 留言:0更新日期:2023-06-30 09:35
本发明专利技术属于数字音频处理技术领域,提供一种基于分类的齿音抑制方法,用以解决现有技术由于没有对齿音和有用语音进行细粒度的区分、导致在抑制齿音时带来可感知的有用语音信息损失的问题。本发明专利技术包括分类器构建和齿音抑制两个阶段,提取训练音频帧的频谱,将齿音频率段的频谱幅度数据编组,计算组内频谱幅度之和,再将各组幅度和拼接形成特征,在此基础上训练齿音分类器;在齿音抑制中,根据齿音分类器输出的齿音类型概率,对待处理音频数据以帧为单位进行细粒度的类型预测,并通过中值滤波对连续帧的预测结果进行平滑,最后通过计算齿音和非齿音的相对能量,对齿音成分进行衰减,从而在保持原语音信息的基础上,有效地抑制了音频中的齿音。音频中的齿音。音频中的齿音。

【技术实现步骤摘要】
一种基于分类的齿音抑制方法


[0001]本专利技术属于数字音频处理
,具体提供一种基于分类的齿音抑制方法。

技术介绍

[0002]齿音是在人发音时舌尖顶住上门牙,气流经过牙齿发出的声音;通常,人在读“滋”、“次”、“丝”等字时,容易产生齿音。因为齿音的频率较高,听起来比较尖锐,所以音频中齿音可能会影响听众的听觉体验;在专业录制歌曲或者配音之后,通常需要对录制的音频进行修音以改善听觉效果,抑制音频中的齿音就是其中的一环。
[0003]齿音抑制可以通过频率滤波来实现(如EQ均衡效果器),一些音频处理软件(如Adobe Audition)具有齿音抑制的功能,其技术未见公开。目前文献中对齿音抑制方法的报导较少;在公开的技术中,专利技术专利“202110469577.7、音频信号处理方法及装置”通过对齿音频段进行动态压缩处理来衰减齿音,由于齿音频段中也含有用语音成分,而该方法是对包含语音和齿音的音频不加区分地进行统一处理,会带来语音信息的损失。专利技术专利“202210225928.4、一种配音音频分析方法、装置、电子设备和存储介质”的目标为改善含有异常声音(如口水音、齿音、气泡音和呼吸音等)音频的质量,根据当前待处理音频的声谱图图像以及预先分类的有问题的音频的声谱图图像,采用图像识别技术和算法聚类分析技术,判断配音音频是否存在发音异常并确定异常类型,最后通过修正声音的频率、振幅、音色、音调、响度来修正配音音频;该方法是通过图像识别技术来对口水音、齿音、气泡音和呼吸音等多种类型进行识别,由于这些异常类型的音频声谱图图像特征有相似成分,故分类的准确性不够好;另外,与前一种方法相同,该方法也是对整个音频进行修正处理,不可避免地损伤了原语音信息。
[0004]总之,目前齿音抑制方法由于没有对齿音和有用语音进行细粒度的区分,在抑制齿音的同时,带来了可感知的有用语音信息的损失。

技术实现思路

[0005]本专利技术的目的在于提供一种更有效的基于分类的齿音抑制方法,用以解决现有齿音抑制方法由于没有对齿音和有用语音进行细粒度的区分、导致在抑制齿音时带来可感知的有用语音信息损失的问题。
[0006]为实现上述目的,本专利技术采用的技术方案为:
[0007]一种基于分类的齿音抑制方法,其特征在于,包括分类器构建和齿音抑制两个阶段;
[0008]所述分类器构建包括以下步骤:
[0009]A1.生成训练样本:
[0010]A1

1.初始化训练特征矩阵R、训练标签矢量L均为空;
[0011]A1

2.根据训练音频组生成训练特征矩阵R和训练标签矢量L,训练音频组包含先验标注为齿音音频或非齿音音频的训练音频,对每一个训练音频作:
[0012]A1
‑2‑
1.将音频数据按固定长度划分为各音频帧,相邻帧间有重叠,得到I个音频帧;并对各音频帧数据进行加窗处理,再进行短时傅里叶变换,得到其对应的频谱;
[0013]A1
‑2‑
2.设频谱幅度数据中对应每个时刻共有N+1个数据,预设特征频率范围为[f1,f2],则分别计算特征频率点与
[0014][0015][0016]其中,f1和f2分别为最低特征频率和最高特征频率,为向下取整运算;
[0017]A1
‑2‑
3.对每一个音频帧作:
[0018]A1
‑2‑3‑
1.对第i、1≤i≤I个音频帧,从到将每M个频率点对应的频谱幅度数据编成一组,当剩余频率点数目不足M时停止编组,其中,M为预设的编组长度;计算每一个组中所有频率点对应的幅度数据之和,将各个组的求和结果数据依次排列构成训练特征矢量r
i

[0019]A1
‑2‑3‑
2.将训练特征矢量r
i
按列追加到训练特征矩阵R中;
[0020]A1
‑2‑3‑
3.设l
i
为第i个音频帧的类型标签,当前音频帧所属的音频为齿音音频,则置l
i
=1;否则,置l
i
=0;
[0021]A1
‑2‑3‑
4.将类型标签l
i
追加到训练标签矢量L中;
[0022]A2.训练齿音分类器:用训练特征矩阵R和训练标签矢量L训练得到分类器Q,该分类器为二分类器,其输入为训练特征矢量、输出为该训练特征矢量被预测为齿音类型的概率;
[0023]所述齿音抑制包括以下步骤:
[0024]B1.生成测试样本:
[0025]B1

1.初始化测试特征矩阵R

为空;
[0026]B1

2.生成测试特征矩阵R

,具体为:
[0027]B1
‑2‑
1.将待处理音频数据按固定长度划分为各音频帧,相邻帧间有重叠,得到I

个音频帧;对各音频帧数据进行加窗处理,再进行短时傅里叶变换,得到其对应的频谱,其中,第i个音频帧的频谱幅度数据为c
i

[0028]B1
‑2‑
2.对每一个音频帧作:
[0029]B1
‑2‑2‑
1.对第i、1≤i≤I

个音频帧,从到将每M个频率点对应的频谱幅度数据编成一组,当剩余频率点数目不足M时停止编组;计算每一个组中的所有频率点对应的幅度数据之和,将各个组的求和结果数据依次排列构成测试特征矢量r
i


[0030]B1
‑2‑2‑
2.将r
i

按列追加到测试特征矩阵R

中;
[0031]B2.音频帧分类:
[0032]B2

1.定义长度为I

的齿音类型数组K;
[0033]B2

2.对每一个音频帧作:
[0034]B2
‑2‑
1.将R

的第i列特征矢量r
i

输入到分类器Q中,得到该特征矢量被预测为齿
音类型的概率p
i

[0035]B2
‑2‑
2.对齿音类型数组K的第i个元素K[i]赋值:
[0036][0037]其中,T0和T2分别为设定的可信非齿音概率阈值和可信齿音概率阈值;
[0038]B2

3.对齿音类型数组K的数据进行中值滤波;
[0039]B3.衰减齿音:
[0040]B3

1.初始化i=1,参考能量Y0=1;
[0041]B3

2.计算特征矢量r
i

的所有元素的值之和,记为Y
i

[0042]B3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分类的齿音抑制方法,其特征在于,包括分类器构建和齿音抑制两个阶段;所述分类器构建包括以下步骤:A1.生成训练样本:A1

1.初始化训练特征矩阵R、训练标签矢量L均为空;A1

2.根据训练音频组生成训练特征矩阵R和训练标签矢量L,训练音频组包含先验标注为齿音音频或非齿音音频的训练音频,对每一个训练音频作:A1
‑2‑
1.将音频数据按固定长度划分为各音频帧,相邻帧间有重叠,得到I个音频帧;并对各音频帧数据进行加窗处理,再进行短时傅里叶变换,得到其对应的频谱;A1
‑2‑
2.设频谱幅度数据中对应每个时刻共有N+1个数据,预设特征频率范围为[f1,f2],则分别计算特征频率点与与与其中,f1和f2分别为最低特征频率和最高特征频率,为向下取整运算;A1
‑2‑
3.对每一个音频帧作:A1
‑2‑3‑
1.对第i、1≤i≤I个音频帧,从到将每M个频率点对应的频谱幅度数据编成一组,当剩余频率点数目不足M时停止编组,其中,M为预设的编组长度;计算每一个组中所有频率点对应的幅度数据之和,将各个组的求和结果数据依次排列构成训练特征矢量r
i
;A1
‑2‑3‑
2.将训练特征矢量r
i
按列追加到训练特征矩阵R中;A1
‑2‑3‑
3.设l
i
为第i个音频帧的类型标签,当前音频帧所属的音频为齿音音频,则置l
i
=1;否则,置l
i
=0;A1
‑2‑3‑
4.将类型标签l
i
追加到训练标签矢量L中;A2.训练齿音分类器:用训练特征矩阵R和训练标签矢量L训练得到分类器Q,该分类器为二分类器,其输入为训练特征矢量、输出为该训练特征矢量被预测为齿音类型的概率;所述齿音抑制包括以下步骤:B1.生成测试样本:B1

1.初始化测试特征矩阵R

为空;B1

2.生成测试特征矩阵R

,具体为:B1
‑2‑
1.将待处理音频数据按固定长度划分为各音频帧,相邻帧间有重叠,得到I

个音频帧;对各音频帧数据进行加窗处理,再进行短时傅里叶变换,得到其对应的频谱,其中,第i个音频帧的频谱幅度数据为c
i
;B1
‑2‑
2.对每一个音频帧作:B1
‑2‑2‑
1.对第i、1≤i≤I

个音频帧,从到将每M个频率点对应的频谱幅度数据编成一组,当剩余频率点数目不...

【专利技术属性】
技术研发人员:甘涛吴嘉鑫罗瑜何艳敏
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1