一种适用于民族弦乐乐器的声音识别算法及装置制造方法及图纸

技术编号:36521884 阅读:21 留言:0更新日期:2023-02-01 15:58
本发明专利技术公开了一种适用于民族弦乐乐器的声音识别算法及装置,包括以下步骤:S1、对所训练的数据集的每种音符语料进行时频域综合特征提取,将提取到的时频域综合特征作为区分音符的特征;S2、将提取的时频域特征输入到多特征分类器中进行训练,从而得到N种音符特征分类模型;S3、提取音符测试集的融合特征,将融合特征数据作为SVM的输入特征;S4、将提取到的音符融合特征与训练得到的音符模型进行综合判决,从而得到相应的音符种类并输出音符识别结果。本发明专利技术针对民族弦乐如古筝、古琴的特殊弹奏技法和指法,设计时频域多种特征提取方法,结合支持向量机和综合判决模块,对民族弦乐的音符进行准确识别。音符进行准确识别。音符进行准确识别。

【技术实现步骤摘要】
一种适用于民族弦乐乐器的声音识别算法及装置


[0001]本专利技术涉及声音识别
,具体为一种适用于民族弦乐乐器的声音识别算法及装置。

技术介绍

[0002]随着互联网带宽的增长和移动设备的普及,音乐作为数字形式的存储和检索越来越普遍。为了满足用户对音乐风格和乐器学习的需求,基于内容的音乐检索研究受到了广泛关注。古筝古琴等民族弦乐在音乐结构和旋律不同于西洋乐器,拥有强烈的民族特点。因此,如何准确识别民族弦乐在不同演奏技法下的音符,已成为数字语音处理和数字音乐教学领域的重点研究方向。民族弦乐乐音自动识别技术在编配、歌曲流派分类、歌曲情感分析等音乐领域均具有重要的应用价值。
[0003]音乐是由大量信息在不同层次上叠加而成的,因此,对于发展中的人工智能来说,音乐信号的特征分离是一项比较困难的任务。随着信息时代的来临和交叉学科研究的不断深入,智能音乐信号处理有了快速的发展,人们对音乐结构的理解大大加深,也开发了许多用于分析和处理音乐的工具。使用机器代替人类进行传统音乐的创作,成为人们追求的目标。音乐识别技术的目的是提高机器对乐曲的感知能力,让机器准确的“听懂”音乐内容,从而使机器能够理解音乐的情感等。使用深度学习和机器学习等方法来训练人工智能,针对乐理知识研究出数字信号处理的算法,用于辅助甚至代替音乐专业人员完成相关工作。
[0004]针对传统西洋乐器如钢琴、吉他等的音符的特征进行识别,其模型的输入输出和算法设计均未考虑民族弦乐如古筝、古琴的特殊指法和技法所形成的音乐音符特征,无法直接应用于古筝、古琴的音符声音的准确识别,为此,我们提出一种实用性更高的适用于民族弦乐乐器的声音识别算法及装置。

技术实现思路

[0005]本专利技术的目的在于提供一种适用于民族弦乐乐器的声音识别算法及装置,解决了现有的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种适用于民族弦乐乐器的声音识别算法,包括以下步骤:
[0007]S1、对所训练的数据集的每种音符语料进行时频域综合特征提取,将提取到的时频域综合特征作为区分音符的特征;
[0008]S2、将提取的时频域特征输入到多特征分类器中进行训练,从而得到N种音符特征分类模型;
[0009]S3、提取音符测试集的融合特征,将融合特征数据作为SVM的输入特征;
[0010]S4、将提取到的音符融合特征与训练得到的音符模型进行综合判决,从而得到相应的音符种类并输出音符识别结果。
[0011]一种适用于民族弦乐乐器的声音识别装置,包括:
[0012]音频数据输入模块,用于将存储的音频文件或通过设备采集到的音频流作为输入内容输入;
[0013]分帧加窗模块,用于对音频数据进行特征提取之前的数据预处理阶段,进行分帧与加窗操作以方便后续时频域特征提取并提高处理效率;
[0014]融合特征提取模块,用于在音符识别中,使用最多的特征是在短时傅里叶变换基础上变化的音级轮廓图PCP;
[0015]音符多特征分类器训练识别模块,采用SVM模型作为分类识别算法解决乐器特定音符特征的二分类问题
[0016]综合判决模块以及结果输出模块,用于将提取到的融合特征数据与训练得到的基于SVM的音符多特征识别模型进行综合判决。
[0017]与现有技术相比,本专利技术的有益效果如下:
[0018]本专利技术针对民族弦乐如古筝、古琴的特殊弹奏技法和指法,设计时频域多种特征提取方法,结合支持向量机和综合判决模块,对民族弦乐的音符进行准确识别。
[0019]本专利技术在音乐理论、信号分析处理和机器学习的基础之上,提出了基于民族弦乐乐器的融合特征和支持向量机模型的音符识别方法,使得到的弦乐音符特征更加平稳的同时削弱了大而稀疏的噪声,再通过基于支持向量机的音符识别模型对音符进行分类。实验结果表明,本专利技术提出的融合特征有效地提高了音符识别的抗噪性,采用的支持向量机模型能够有效避免过拟合,同时具备较高的识别准确率。
附图说明
[0020]图1为本专利技术古筝、古琴音符乐音识别示意图;
[0021]图2为本专利技术分帧处理示意示意图;
[0022]图3为本专利技术频域频谱示意图;
[0023]图4为本专利技术音高频谱示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0025]如图1所示,一种适用于民族弦乐乐器的声音识别算法,包括以下步骤:
[0026]S1、对所训练的数据集的每种音符语料进行时频域综合特征提取,将提取到的时频域综合特征作为区分音符的特征;
[0027]S2、将提取的时频域特征输入到多特征分类器中进行训练,从而得到N种音符特征分类模型;
[0028]S3、提取音符测试集的融合特征,将融合特征数据作为SVM的输入特征;
[0029]S4、将提取到的音符融合特征与训练得到的音符模型进行综合判决,从而得到相应的音符种类并输出音符识别结果。
[0030]实施案例一
[0031]一种适用于民族弦乐乐器的声音识别装置,主要包括:音频数据输入模块、分帧加窗模块、融合特征提取模块、音符多特征分类器训练识别模块、综合判决模块以及结果输出
模块,具体包括:
[0032]音频数据输入模块
[0033]将存储的音频文件或通过设备采集到的音频流作为输入内容输入。
[0034]分帧加窗模块
[0035]在对音频数据进行特征提取之前的数据预处理阶段,需要进行分帧与加窗操作以方便后续时频域特征提取并提高处理效率。
[0036]a.分帧处理
[0037]由于音频数据的短时平稳特性,在识别前对其按帧分割;本专利技术采用交叠分段的分割方式,可以使得分割后的帧间隔信号仍然具有连续性和平滑性,同时在帧与帧之间也作出局部计算。
[0038]帧分割数据预处理源文件的标准是采样率为44.1kHz的主旋律音频数据,格式为WAV;同时将处理的音频信号进行降采样处理使其频率降至11025Hz以便归一化;帧长选择512个采样点数,帧移长度设置为512个采样点以保护信号信息的完整性和连续性。
[0039]进行上述方法得到重叠的帧信息,再进行后续处理。分帧处理示意图2如下所示:
[0040]b.加窗处理
[0041]加窗处理可解决分帧处理后每一帧的起始段和末尾端会出现不连续的地方、且分帧越多与原始信号的误差越大这一问题,使信号变得连续。
[0042]本专利技术技术方案选取汉明窗函数作为滑动窗函数,在分帧后的数据段进行汉明窗滑动采样;汉明窗函数如下式所示:
[0043][0044]窗函数长度与分帧后的长度一致,都为512点。
[0045]融合特征提取模块
[0046]在音符识别中,使用最多的特征是在短时傅里叶变换(STFT)基础上变化的音级轮廓图PC本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于民族弦乐乐器的声音识别算法,其特征在于,包括以下步骤:S1、对所训练的数据集的每种音符语料进行时频域综合特征提取,将提取到的时频域综合特征作为区分音符的特征;S2、将提取的时频域特征输入到多特征分类器中进行训练,从而得到N种音符特征分类模型;S3、提取音符测试集的融合特征,将融合特征数据作为SVM的输入特征;S4、将提取到的音符融合特征与训练得到的音符模型进行综合判决,从而得到相应的音符种类并输出音符识别结果。2.根据权利要求1所述的一种适用于民族弦乐乐器的声音识别装置,其特征在于,包括:音频...

【专利技术属性】
技术研发人员:曾歆
申请(专利权)人:江苏音律未来乐器科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1