一种基于多种声音特征的相似度计算方法技术

技术编号:17100493 阅读:177 留言:0更新日期:2018-01-21 11:52
本发明专利技术涉及一种基于多种声音特征的相似度计算方法,属于音频信号处理技术领域。首先对声音信号进行预处理,预处理过程包括:预加重、分帧处理、加窗函数,然后提取声音信号的时域特征、频域特征、倒谱域特征。时域特征包括:短时平均过零率和短时自相关函数;频域特征包括:短时功率谱密度函数;倒谱域特征包括:梅尔频率倒谱系数和线性预测倒谱系数。分别针对提取的音频特征进行相似度值的计算,通过对待测音频特征分别做互相关的方法,得到每一种特征参数计算的相似度值。

A similarity calculation method based on multiple sound characteristics

The invention relates to a similarity calculation method based on multiple sound characteristics, which belongs to the field of audio signal processing technology. First, we preprocess the voice signal, including preemphasis, framing and windowing functions, and extract the temporal characteristics, frequency domain characteristics and cepstrum domain characteristics of the voice signal. The time domain features include short-time average zero crossing rate and short-time autocorrelation function. The frequency domain features include short time power spectral density function, cepstral domain characteristics, including Mel frequency cepstrum coefficient and linear prediction cepstrum coefficient. The similarity values of the extracted audio features are calculated respectively, and the similarity values of each feature parameter are calculated by cross-correlation method.

【技术实现步骤摘要】
一种基于多种声音特征的相似度计算方法
本专利技术涉及一种基于多种声音特征的相似度计算方法,属于音频信号处理

技术介绍
在语音识别、语音内容相似性判别系统中,特征提取过程就是抽取保持语音最重要特征,并消除与语音无关信号的干扰。特征参数的选择直接影响着相似性判别的准确率。本专利技术分别提取时域特征参数、频域特征参数、倒谱域特征参数,因不同特征参数表征的音频信息不同,对相似性判别的贡献不同,对此,为了能够有效准确的比较待测音频的相似性,使以特征参数判别相似性的方法具有更好的鲁棒性,提出了对不同特征参数计算的相似度值线性加权的方法。
技术实现思路
本专利技术要解决的技术问题是提供一种基于多种声音特征的相似度计算方法,分别通过时域特征参数、频域特征参数、倒谱域特征参数进行音频信号相似度的计算,并对不同特征参数计算的结果进行线性加权。本专利技术的技术方案是:一种基于多种声音特征的相似度计算方法,包括以下步骤:(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;(2)提取特征参数:分别提取表征音频信号信息的时域特征,频域特征,倒谱域特征;(3)相似度值计算:分别计算每种特征参数的相似度值;(4)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而确定待测音频的相似度。上述的一种基于多种声音特征的相似度计算方法,步骤(1)中预处理,其中把待测音频信号进行分帧处理:音频序列是时间轴上的一维信号,为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行分帧操作。对音频信号分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘音频信号s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n)。设待测的音频信号分别为s(n)和s*(n),经过预处理后的信号为si(n)和其中下标i分别表示分帧后的第i帧。信号s(n)和s*(n)具有相同的采样率,量化精度,时间长度。在本专利技术中,帧长设为256点,约20.48ms,帧移128点,音频信号的采样率为44.1KHz,待测音频信号均分为m帧,i的取值范围为[1,m];上述的一种基于多种声音特征的相似度计算方法,步骤(2)中提取特征参数,提取的特征参数有时域、频域、倒谱域特征参数。时域特征参数有短时平均过零率和短时自相关函数,频域特征参数有短时功率谱密度函数,倒谱域特征参数有梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。对每一帧信号si(n)和分别提取短时平均过零率、短时自相关函数、短时功率谱密度函数、梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。(1)短时平均过零率:待测音频信号每一帧的短时平均过零率分别为xi和则m帧的短时平均过零率则组成了短时平均过零率序列{xi}和分别用符号X(i)和X*(i)表示,下标i表示第i帧,待测音频序列共被分为m帧;(2)短时自相关函数:对待测音频分别取出帧序列si(n)和因为si(n)和是一帧音频信号,所有能量有限,自相关函数定义为:和l1是信号第i帧的起始点位置,l2是信号第i帧的结束点位置,k的取值范围为[0,l2-l1],Yi(k)和Yi*(k)分别是音频信号第i帧的自相关函数序列,i的取值范围为[1,m],m为待测音频帧数;(3)短时功率谱密度函数:反映信号的功率经常是用信号的功率谱密度函数。语音信号是一个非稳态的时变信号,但是在短时间范围内可以认为语音信号是稳态的,时不变的,因此对信号分帧后计算每一帧的短时功率谱密度函数。待测音频帧序列si(n)和相应的功率谱密度函数为Zi(f)和f是频率,单位为Hz,下标i表示第i帧,i的取值范围为[1,m];(4)梅尔频率倒谱系数(MFCC):Mel频率倒谱系数(MFCC)的分析是在基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC分析依据的听觉机理有两个,第一,人的主观感知频域的划定并不是线性的,而是Fmel=2595*log(1+f/700),式中,Fmel是以梅尔(Mel)为单位的感知频率,f是以Hz为单位的实际频率。第二,临界带宽,频率群相应于人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群的那些频率的声音,在大脑中是叠加在一起进行评价的。按临界带的划分,将语音在频域上划分成一系列的频率群组成了滤波器组,即Mel滤波器组。待测音频帧序列si(n)和相应的梅尔频率倒谱系数为mfcci(n)和mfcci*(n),式中,S(i,h)和S*(i,h)是Mel滤波器能量,h是指第h个Mel滤波器(共有H个),下标i表示第i帧,n是离散余弦变换后的谱线;(5)线性预测倒谱系数(LPCC):在不考虑鼻音和摩擦音的情况下,语音的声道传递函数就是一个全极点模型:p是声道模型阶数,G是增益因子,ai是线性预测的系数。线性预测系数决定了声道特性,预测系数的谱图是信号FFT谱图的包络线,反映声道的共振峰结构。语音信号的倒谱可以通过对信号做傅里叶变换,取模的对数,再求傅里叶逆变换得到。由于声道的频率响应H(ejw)反映音频信号的谱包络,因此利用log|H(ejw)|做傅里叶逆变换求出的线性预测倒谱系数(LPCC)也被认为是包含了信号谱的包络信息,因此可以将其看做对原始信号短时倒谱的一种近似。线性预测倒谱系数可以从线性预测系数ai求得。每一帧求得的线性预测倒谱系数的个数是声道模型的阶数p。待测音频帧序列si(n)和相应的线性预测倒谱系数序列为ai(r)和r的取值范围为[1,p],下标i表示第i帧。上述的一种基于多种声音特征的相似度计算方法,步骤(3)中相似度值计算:(1)若提取的音频特征参数为短时平均过零率序列,互相关函数定义:n为整数,m为待测音频帧数;取互相关函数R1(n)的最大值R1(n)max为短时平均过零率序列计算的相似度值。(2)若提取的音频特征参数为短时自相关函数序列,互相关函数定义:n为整数,i∈[1,m];取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应帧短时自相关函数序列的相似度值。则两个待测音频信号的相似度值为:其中m为待测音频帧数;(3)若提取的音频特征参数为短时功率谱密度函数序列,互相关函数定义:n为整数,i∈[1,m];取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应短时功率谱密度函数序列的相似度值:其中m为待测音频帧数;(4)若提取的音频特征参数为梅尔频率倒谱系数序列,互相关函数定义:H为Mel滤波器个数,i∈[1,m],n是DCT后的谱线l为整数,取每一帧互相关函数Ri(l)的最大值Ri(l)max为相应梅尔频率倒谱系数序列的相似度值:其中m为待测音频帧数;(5)若提取的音频特征参数为线性预测倒谱系数序列,互相关函数定义:为整数,i∈[1,m],p是声道模型阶数,取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应线性预测倒谱系数序列的相似度值:其中m为待测音频帧数;上述的一种基于多种声音特征的相似度计算方法,步骤(4)中相似度值线性加权:待测本文档来自技高网...
一种基于多种声音特征的相似度计算方法

【技术保护点】
一种基于多种声音特征的相似度计算方法,其特征在于具体步骤为:(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;(2)提取特征参数:分别提取表征音频信号信息的时域特征参数、频域特征参数、倒谱域特征参数;(3)相似度值计算:分别计算每种特征参数的相似度值;(4)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而计算待测音频的相似度。

【技术特征摘要】
1.一种基于多种声音特征的相似度计算方法,其特征在于具体步骤为:(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;(2)提取特征参数:分别提取表征音频信号信息的时域特征参数、频域特征参数、倒谱域特征参数;(3)相似度值计算:分别计算每种特征参数的相似度值;(4)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而计算待测音频的相似度。2.根据权利要求1所述的基于多种声音特征的相似度计算方法,其特征在于:所述预处理中的预加重处理、分帧处理、加窗函数具体为:(1)预加重处理:声门脉冲的频率响应曲线接近于一个二阶低通滤波器,而口腔的辐射响应也接近于一个一阶高通滤波器,预加重的目的是为了补偿高频分量的损失,提升高频分量;(2)分帧处理:由于语音信号是一个准稳态的信号,把它分成较短的帧,在每帧中可将其看成稳态信号,可用处理稳态信号的方法处理,同时,为了使一帧与另一帧之间的参数能较平稳地过渡,在两帧之间互相有部分重叠;(3)加窗函数:加窗函数的目的是减少频域中的泄漏,将对每一帧语音乘以汉明窗或海宁窗。3.根据权利要求1所述的基于多种声音特征的相似度计算方法,其特征在于:所述时域特征参数、频域特征参数、倒谱域特征参数具体为:(1)提取时域特征参数:时域特征参数包括短时平均过零率和短时自相关函数;(2)提取频域特征参数:频域特征参数是短时功率谱密度函数;(3)提取倒谱域特征参数:倒谱域特征参数包括梅尔频率倒谱系数和线性预测倒谱系数;把音频信号进行预处理后,分别提取音频信号...

【专利技术属性】
技术研发人员:龙华张琳邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1