【技术实现步骤摘要】
声音分类模型的构建方法、声音分类方法和系统
[0001]本专利技术涉及声音识别
,尤其涉及一种声音分类模型的构建方法、声音分类方法和系统。
技术介绍
[0002]声音蕴藏着丰富的信息,是人类感官世界的组成部分之一,环境音频数据与动物、人类生活的密切关系,如在森林、原野等地使用自动监听和识别物种声音的技术对濒临灭绝的动物进行侦察;在地震带分布地区使用自动监听和识别动物声音异常的设备可作为地震预警系统的辅助技术。可见,自然环境声音的识别和分类与人类息息相关。因此,我们可以通过提取和分析自然环境声音所蕴含的信息特征来帮助了解生物多样性,进而监控生态系统的平衡。可以通过分析各种环境声音,来获得环境信息,更好保护环境,实现人与自然通过发展。
[0003]从环境声音的识别技术来看,它涉及多个学科的交叉,如数字信号处理、听觉机理、模式识别、机器学习等。环境声音识别被应用在很多领域,如音频取证、声场景分析、环境安全监控、定位跟踪和声源分类、病人监护和非正常事件检测等,然而目前对环境声音的相关研究力度较小、尚未形成成熟的识别方法 ...
【技术保护点】
【技术特征摘要】
1.一种声音分类模型的构建方法,其特征在于:包括预处理,对原始声音数据进行预处理;特征提取,对声音信号进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换提取频谱特征;建模,利用极限学习机算法随机产生输入层和隐藏层的连接权值及隐含层神经元的阈值,对提取出的特征数据进行训练得到训练数据库,通过极限学习机分类器进行实证分析和参数优化,得到分类模型。2.根据权利要求1所述的一种声音分类模型的构建方法,其特征在于:所述预处理包括将原始声音数据转化为wav格式,每段声音样本采用滤波器消除环境杂音,裁剪声音波形中的杂音和静音部分,保留特征波形。3.根据权利要求1所述的一种声音分类模型的构建方法,其特征在于:所述对声音信号进行预加重的方法为,利用一个高通滤波器提升声音信号的高频部分,所述高通滤波器为,y(n)=x(n)
‑
α*x(n
‑
1)#(1)其中,0.9≤α≤1.0,n为信号的采样点数,x(n)为声音信号,y(n)为预加重后的声音信号。4.根据权利要求3所述的一种声音分类模型的构建方法,其特征在于:所述分帧的方法为,将预加重处理后的声音信号划分为时长为t的多个帧。5.根据权利要求4所述的一种声音分类模型的构建方法,其特征在于:所述加窗的方法为,分帧后的信号表示为S(n),n=0,1,...N
‑
1,其中n为分帧后得到的帧数,N为帧的大小,加入汉明窗后,表示为S1(n)=S(n)*W(n),则汉明窗W(n)的形式为,其中,a=0.46。6.根据权利要求5所述的一种声音分类模型的构建方法,其特征在于:所述对声音信号进行快速傅里叶变换的方法为,创建汉明窗矩阵C,其大小与S(n)相同,两个矩阵的对应位置相乘,得到加窗后的声音信息矩阵S1(n),对加窗后的声音信息矩阵进行FFT快速傅里叶变换得到矩阵D,对矩阵D里每一帧的数据点分别取模再取平方,计算得到能量谱密度E,对每一帧得到的能量相加,得到一个新的矩阵F,其中的每个元素代表每一帧能量的总和。7.根据权利要求6所述的一种声音分类模型的构建方法,其特征在于:所述进行梅尔滤波器组和离散余弦变换提取频谱特征的方法为,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,其频率响应定义为:其中,谱线索引号k=(1+N)
·
f
m
/f
s
,N为FFT点数,f
m
为计算得出的Mel刻度转换为频率后的值,f
s
为抽样频率;
然后计算每个滤波器组输出的对数能量为,其中,s(m)为对数能量,X(k)为声音信号的能量谱,H
m
(k)为滤波器组;将不同频带的能量取对数变换后,再经由离散余弦变换变回时域,称作梅尔频率倒频谱参数,其计算公式如下:8.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。