【技术实现步骤摘要】
一种基于分类的齿音抑制方法
[0001]本专利技术属于数字音频处理
,具体提供一种基于分类的齿音抑制方法。
技术介绍
[0002]齿音是在人发音时舌尖顶住上门牙,气流经过牙齿发出的声音;通常,人在读“滋”、“次”、“丝”等字时,容易产生齿音。因为齿音的频率较高,听起来比较尖锐,所以音频中齿音可能会影响听众的听觉体验;在专业录制歌曲或者配音之后,通常需要对录制的音频进行修音以改善听觉效果,抑制音频中的齿音就是其中的一环。
[0003]齿音抑制可以通过频率滤波来实现(如EQ均衡效果器),一些音频处理软件(如Adobe Audition)具有齿音抑制的功能,其技术未见公开。目前文献中对齿音抑制方法的报导较少;在公开的技术中,专利技术专利“202110469577.7、音频信号处理方法及装置”通过对齿音频段进行动态压缩处理来衰减齿音,由于齿音频段中也含有用语音成分,而该方法是对包含语音和齿音的音频不加区分地进行统一处理,会带来语音信息的损失。专利技术专利“202210225928.4、一种配音音频分析方法、装置、电子设备和存储介质”的目标为改善含有异常声音(如口水音、齿音、气泡音和呼吸音等)音频的质量,根据当前待处理音频的声谱图图像以及预先分类的有问题的音频的声谱图图像,采用图像识别技术和算法聚类分析技术,判断配音音频是否存在发音异常并确定异常类型,最后通过修正声音的频率、振幅、音色、音调、响度来修正配音音频;该方法是通过图像识别技术来对口水音、齿音、气泡音和呼吸音等多种类型进行识别,由于这些异常类型的音频声谱 ...
【技术保护点】
【技术特征摘要】
1.一种基于分类的齿音抑制方法,其特征在于,包括分类器构建和齿音抑制两个阶段;所述分类器构建包括以下步骤:A1.生成训练样本:A1
‑
1.初始化训练特征矩阵R、训练标签矢量L均为空;A1
‑
2.根据训练音频组生成训练特征矩阵R和训练标签矢量L,训练音频组包含先验标注为齿音音频或非齿音音频的训练音频,对每一个训练音频作:A1
‑2‑
1.将音频数据按固定长度划分为各音频帧,相邻帧间有重叠,得到I个音频帧;并对各音频帧数据进行加窗处理,再进行短时傅里叶变换,得到其对应的频谱;A1
‑2‑
2.设频谱幅度数据中对应每个时刻共有N+1个数据,预设特征频率范围为[f1,f2],则分别计算特征频率点与与与其中,f1和f2分别为最低特征频率和最高特征频率,为向下取整运算;A1
‑2‑
3.对每一个音频帧作:A1
‑2‑3‑
1.对第i、1≤i≤I个音频帧,从到将每M个频率点对应的频谱幅度数据编成一组,当剩余频率点数目不足M时停止编组,其中,M为预设的编组长度;计算每一个组中所有频率点对应的幅度数据之和,将各个组的求和结果数据依次排列构成训练特征矢量r
i
;A1
‑2‑3‑
2.将训练特征矢量r
i
按列追加到训练特征矩阵R中;A1
‑2‑3‑
3.设l
i
为第i个音频帧的类型标签,当前音频帧所属的音频为齿音音频,则置l
i
=1;否则,置l
i
=0;A1
‑2‑3‑
4.将类型标签l
i
追加到训练标签矢量L中;A2.训练齿音分类器:用训练特征矩阵R和训练标签矢量L训练得到分类器Q,该分类器为二分类器,其输入为训练特征矢量、输出为该训练特征矢量被预测为齿音类型的概率;所述齿音抑制包括以下步骤:B1.生成测试样本:B1
‑
1.初始化测试特征矩阵R
′
为空;B1
‑
2.生成测试特征矩阵R
′
,具体为:B1
‑2‑
1.将待处理音频数据按固定长度划分为各音频帧,相邻帧间有重叠,得到I
′
个音频帧;对各音频帧数据进行加窗处理,再进行短时傅里叶变换,得到其对应的频谱,其中,第i个音频帧的频谱幅度数据为c
i
;B1
‑2‑
2.对每一个音频帧作:B1
‑2‑2‑
1.对第i、1≤i≤I
′
个音频帧,从到将每M个频率点对应的频谱幅度数据编成一组,当剩余频率点数目不...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。