一种基于核函数的音频特征信号的降维方法技术

技术编号:19861475 阅读:52 留言:0更新日期:2018-12-22 12:36
本发明专利技术涉及一种基于核函数的音频特征信号的降维方法,属于音频信号处理技术领域。本发明专利技术为对于音频信号的特征参量进行降维处理,在不丢弃音频特征信息量的同时使其达到所要求的降维效果,并将最后的降维数据进行可视化展示,同采用其他音频特征参量降维方法所得结果进行对比分析。本发明专利技术对音频特征参量进行降维主要是对音频系数域的线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数进行降维处理,并将降维后的数据结果进行可视化展示。本发明专利技术的音频特征降维处理可用于广播信号监听,音频信号的快速识别处理。本发明专利技术算法简单,用非线性核函数表示高斯观测空间与隐空间的映射关系,避免了线性映射方法使用范围局限、降维效果不佳的弊端。

【技术实现步骤摘要】
一种基于核函数的音频特征信号的降维方法
本专利技术涉及一种基于核函数的音频特征信号的降维方法,属于音频特征信号处理

技术介绍
为了实现对无线音频广播的管控,对音频广播进行安全高效的实时监听和甄别,音频信息的快速处理关系到整个流程的进程速度,而音频的特征信号降维处理作为音频信息处理的核心,其效率与可信度也必成为了目前亟待解决的问题。就目前而言已大部分针对音频特征信号降维方法主要有局部保留投影法、多维缩放法、局部线性嵌入法、主成分析法等。这些降维算法大多复杂度高,以丢弃部分特征信号达到降维的目的,在实际中工程应用中会造成不可预测的误差,本专利技术便是针对上述弊端所提出的。
技术实现思路
本专利技术要解决的技术问题是提供一种基于核函数的音频特征信号的降维方法,对提取出的音频线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)进行降维分析,达到缩减数据维度,提高信息处理速率的目的。本专利技术的技术方案如是:一种基于核函数的音频特征信号的降维方法。该方法包括以下具体步骤:(1)音频信号采集:采集音频信号,获得音频样本。(2)音频信号预处理:将所采集的音频样本中的模拟信号转换为数字信号,将数字信号写入WAV文件中。对写入WAV文件中的数字信号进行滤波、预加重、分帧处理。(3)特征参数提取:对处理后的数字信号中的线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)进行高维特征参数的提取。(4)降维模型的搭建:将上述提取出的特征参数送入通过核化技巧(kerneltrick)所搭建的降维模型中直接得到低维隐变量,所述低维隐变量即为降维后的数据。其核心是用高斯回归过程模型(GPR)来非线性建模隐变量和观测变量的关系。(5)降维分析:将降维后的数据进行可视化展示(2D/3D),与其它降维方法所得到的结果进行对比。上述的一种基于核函数的音频特征信号的降维方法,步骤(1)中所述音频采集是通过音频采集装置采集音频样本,音频采集器对音频信号采集时设置好采样频率(采样频率满足奈奎斯特采样定理)、采样声道数、量化精度。上述的一种基于核函数的音频特征信号的降维方法,步骤(2)中音频信号预处理包括以下步骤:(1)采用矩形窗函数w(n)(上限频率一般取fH=3400Hz,下限频率fL=60~100Hz)对采集的音频信号x(n)进行滤波处理得到信号ya(n),其中(2)对滤波处理后的信号ya(n)进行差分方法进行预加重处理得到信号yb(n),其中yb(n)=y(n)-αy(n-1)(α为预加重系数一般取值接近于1)。提升高频部分,抑制低频部分,使信号的频谱变得平坦。(3)分帧语音信号的短时分析是将信号分割成若干个语音段,一段称为一帧,每段的时间范围在10~30ms之间。为了保证帧与帧之间平滑过渡,帧与帧之间有部分重叠,重叠的部分称为帧移,帧移取帧长的1/2或1/3。上述的一种基于核函数的音频特征信号的降维方法,步骤(3)特征参数提取包括以下步骤:(1)线性预测系数(LPC):利用编程调用LPC函数包,设置好帧长、帧移、窗函数、LPC的阶数参数,对上述步骤(2)中预处理好的音频信号进行特征值的提取,放入指定的表格中1。(2)线性预测倒谱系数(LPCC):利用编程调用LPCC函数包,设置好帧长、帧移、窗函数、LPCC的阶数参数,对上述步骤(2)中预处理好的音频信号进行特征值的提取,放入指定的表格中2。(3)梅尔频率倒谱系数(MFCC):利用编程调用MFCC函数包,设置好帧长、帧移、窗函数、MFCC的阶数参数,对上述步骤(2)中预处理好的音频信号进行特征值的提取,放入指定的表格中3。上述的一种基于核函数的音频特征信号的降维方法,步骤(4)中降维模型的搭建包括以下步骤:(1)特征降维模型搭建首先记隐空间为维度为q,记观测空间为维度为d(q<d)。假设观测值与隐空间参量之间存在y=f(z)+ε关系,噪声ε服从均值为0,方差为β的高斯分布,并假设隐函数f是满足高斯过程的平方指数核函数其中σ为平方指数核的系数参数,l表示z与z′两点之间距离影响因数参数,β表示模型的一个超参量参数,σ(z,z′)表示的是Kroneckerdelta函数,核函数中要求解的参量为θ(σ,l,β)。当z与z′很接近时其核函数取得最大值,距离很远时取得最小值。为了便于后续推导,先给出协方差矩阵的计算公式,其公式为(2)假定对d维观测空间进行了独立采样,则可得关于Y的观测概率,其中y:,i为观测值空间Y中的第i维的n个元素要想获得较好的降维效果,即采用相关算法获取最好的核函数超参量使得上述概率最大化,此处采用粒子群寻优算法对其进行求解,把θ(σ,l,β)记为A=(a1,a2,a3),其中粒子i的速度记为vi=(vi1,vi2,vi3),粒子经过最好的最好位置记为pg=(pg1,pg2,pg3),粒子群算法采用如下方程对粒子所在的位置进行不断更新其中w是非负的惯性因子;加速常数c1与c2是非负数;r1与r2是在[01]范围内变换的随机数。利用粒子群优化算法当前位置、经验位置和邻居位信息进行粒子状态的调整,将粒子群优化算法这种信息交换模式应用到核参数优化过程中,粒子受到自身经验和群里经验的双重影响,故而有较好的全局寻优能力和收敛速度。本模型所使用的核函数为非线性核函数,将其求出的核参量θ(σ,l,β)回带入模型,将上述提取出的特征参量送入降维模型得到隐参量,所述隐参量即降维后的数据。上述的一种基于音频特征信号的降维分析方法,步骤(5)中将上述降维后数据进行二维或三维可视化显示,进而同其他降维算法结果进行分析和对比。本专利技术与现有的基于核函数的音频特征信号的降维方法的优点有:(1)本专利技术用非线性核函数表示观测空间数据与隐空间的参量直接的关系,避免了用线性映射导致的某些音频特征数据降维效果差的缺点。(2)本专利技术是采用粒子群算法对核函数中的超参量进行求解,粒子群优良的全局寻优能力和群粒子的方向性可以很快找到最优超参量,对于后续更换其他核函数也是极其方便的。(3)本专利技术提出的新型音频特征降维算理论简单,编程易于实现,更加适应于现实工程项目的应用,对音频信息处理速度的提升有实质性的改变。附图说明图1本专利技术降维分析流程图;图2本专利技术信号预处理流程图;图3本专利技术特征参数提取与降维处理流程图;具体实施方式下面结合附图和实施例对本专利技术进一步说明。如图1-3所示,一种基于核函数的音频特征信号的降维方法,具体步骤为:(1)音频信号采集:采集音频信号,获得音频样本。(2)音频信号预处理:将所采集的音频样本中的模拟信号转换为数字信号,将数字信号写入WAV文件中。对将写入WAV文件中的数字信号进行滤波、预加重、分帧处理。(3)特征参数提取:对处理后的数字信号中的线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)进行高维特征参数的提取。(4)降维模型的搭建:将上述提取出的特征参数送入通过核化技巧(kerneltrick)所搭建的降维模型中直接得到低维隐变量,所述低维隐变量即为降维后的数据。(5)降维分析:将降维后的数据进行可视化展示(2D/3D),与其它降维方法所得到的结果进行对比。所述音频采集是通过音频采集装本文档来自技高网...

【技术保护点】
1.一种基于核函数的音频特征信号的降维方法,其特征在于:包括如下具体步骤:(1)音频信号采集:采集音频信号,获得音频样本;(2)音频信号预处理:将所采集的音频样本中的模拟信号转换为数字信号,将数字信号写入WAV文件中,对写入WAV文件中的数字信号进行滤波、预加重和分帧处理;(3)特征参数提取:对处理后的数字信号中的线性预测系数、线性预测倒谱系数和梅尔频率倒谱系数进行特征参数的提取;(4)降维模型的搭建:将上述提取出的特征参数送入通过核化技巧所搭建的降维模型中直接得到低维隐变量,所述低维隐变量即为降维后的数据;(5)降维结果分析:将降维后的数据进行可视化展示。

【技术特征摘要】
1.一种基于核函数的音频特征信号的降维方法,其特征在于:包括如下具体步骤:(1)音频信号采集:采集音频信号,获得音频样本;(2)音频信号预处理:将所采集的音频样本中的模拟信号转换为数字信号,将数字信号写入WAV文件中,对写入WAV文件中的数字信号进行滤波、预加重和分帧处理;(3)特征参数提取:对处理后的数字信号中的线性预测系数、线性预测倒谱系数和梅尔频率倒谱系数进行特征参数的提取;(4)降维模型的搭建:将上述提取出的特征参数送入通过核化技巧所搭建的降维模型中直接得到低维隐变量,所述低维隐变量即为降维后的数据;(5)降维结果分析:将降维后的数据进行可视化展示。2.根据权利要求1所述的基于核函数的音频特征信号的降维方法,其特征在于:所述音频采集是通过音频采集装置来采样,音频采集器对音频信号采集时设置好采样频率、采样声道数和量化精度。3.根据权利要求1所述的基于核函数的音频特征信号的降维方法,其特征在于:所述音频信号预处理包括以下步骤:(1)采用矩形窗函数w(n)对采集的音频信号x(n)进行滤波处理得到信号ya(n),其中(2)对滤波处理后的信号ya(n)用差分方法进行预加重处理得到信号yb(n),其中yb(n)=y(n)-αy(n-1),α为预加重系数,一般取值接近于1;(3)将预加重处理得到信号yb(n)分割成若干个语音帧,帧与帧之间有部分重叠,重叠的部分称为帧移。4.根据权利要求1所...

【专利技术属性】
技术研发人员:龙华杨明亮邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1