音频匹配方法及装置制造方法及图纸

技术编号:13792562 阅读:45 留言:0更新日期:2016-10-06 04:09
本发明专利技术公开了一种音频匹配方法及装置,其方法包括:分别计算被测音频与模版音频的二维Teager能量谱图;对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;对POC相似度矩阵按列进行平均得到一个一维的相似度值向量,选取相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。本发明专利技术的音频匹配方法及装置,基于Teager能量谱与POC进行音频匹配,Teager能量谱特征能够更好的反映语音在高频部分的特性,能够提升音频匹配算法定位的精度,利用POC对噪声引起的幅度谱变化不敏感的特点,提升了匹配算法的鲁棒性,并易于实现并行处理,运算速度快。

【技术实现步骤摘要】

本专利技术涉及音频匹配
,尤其涉及一种音频匹配方法及装置
技术介绍
在进行语音通信质量测评时,通常需要先使用模式匹配技术将原始语音与在远端采集到的该语音质量降级后的版本在时间上进行对齐。这类方法通常被称为语音匹配算法(Speech Matching Algorithm),或音频对齐算法(Audio Alignment Algorithm)。经历编码、传输、解码后的语音波形已经发生了明显变化,因此,一般需要选择基于对上述操作具有良好不变性的语音特征以及一定相似性度量进行匹配。现有音频匹配算法大致可以分为两类:一类是严格匹配,另一类是基于动态规划的匹配。严格匹配是通过计算两段语音严格同步计算其相关性,而动态规划类的匹配算法允许两段语音间的不同步,例如,其会认为I have a pen与I have pen是非常相似的。例如,现有技术中的对给定音频片段的匹配方法,主要采用基于顺序扫描的匹配策略,即在待检测音频片段B中,从音频的起始时间开始,每隔极短的一段时间偏移(一段为10或几十毫秒)设一个比较点。在相似性度量方法方面,当前方法主要是将音频片段分为帧(每帧为10或几十毫秒的小片段),对每帧提取音频中的频谱、对数倒谱、短时能量、过零率等特征,形成特征向量,并采用欧式距离、马氏距离、余弦夹角距离等计算各帧间的相似性,再采用动态时间规整(DTW:Dynamic Time Warping)方法由各帧之间的相似性计算出两个片段间的相似性。但是,在现有的音频匹配方法中,需要提取频谱等复杂特征,且使用DTW算法时时间复杂度较高,傅立叶幅度谱匹配容易受噪声影<br/>响且定位精度不高,时间效率也较低。
技术实现思路
有鉴于此,本专利技术要解决的一个技术问题是提供一种音频匹配方法,能够基于Teager能量谱与POC(Phase Only Correlation,纯相位相关性)进行音频匹配。一种音频匹配方法,包括:分别计算被测音频与模版音频的短时Teager能量谱图;对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;对所述POC相似度矩阵按列进行平均后得到一个一维的相似度值向量,选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。根据本专利技术的一个实施例,进一步的,分别计算被测音频与模版音频的短时Teager能量谱图包括:对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分帧处理,被测语音与模版语音的的帧长皆为2L,帧间重叠部分长度为L;对每一帧语音数据使用FFT算法计算其短时傅立叶能量谱,并对每一帧的傅立叶能量谱计算其Teager能量谱,分别得到被测语音和模版语音的Teager能量谱图;其中,被测语音的Teager能量谱图为矩阵X',模版语音的Teager能量谱图经为矩阵Y'。根据本专利技术的一个实施例,进一步的,所述对每一帧语音数据使用FFT算法计算其傅立叶能量谱包括:基于公式x'[i]=x[i]·w[i]对每一帧语音数据进行加窗处理;其中,x[i],i=1...2L,表示长度为2L的原始语音信号,w[i]为一窗函数信号,x'[i]为加窗后信号;基于公式对加窗后的每一帧语音数据进行快速傅立叶变换;其中,X[k]表示归一化频率为k处的频率分量,缩记符号的定义为:其中,e是自然对数的底,j是虚数单位,π为圆周率,N为进行FFT变换的序列长度;计算傅立叶能量谱A[k]=abs(X[k]),其中,abs表示求一个复数的模。根据本专利技术的一个实施例,进一步的,所述对每一帧的傅立叶能量谱计算其Teager能量谱包括:基于公式T[k]=k·A[k]从一帧语音信号的能量谱获得其Teager能量谱;其中,T[k]为归一化频率k处的Teager能量值。根据本专利技术的一个实施例,进一步的,所述对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度包括:对矩阵X'按行做FFT变换,得到FFT(X')=A1·exp(jΦ1);对矩阵Y'进行时间反转,既将矩阵的第i列变为其M-i+1列,其中M为矩阵Y'的列数,并在右侧补0至与X'大小相同,得到矩阵对矩阵按行做FFT变换,得到其中,A1、A2是由矩阵X'和矩阵每个元素进行FFT算法计算后的幅度值构成的矩阵,Φ1表示每个元素的相位值构成的矩阵,exp表示对矩阵的每一个元素执行底数为常数e的幂函数操作;j为复数单位;基于公式R=real{IFFT[exp(jΦ1)·A2·exp(jΦ2)]本文档来自技高网
...

【技术保护点】
一种音频匹配方法,其特征在于,包括:分别计算被测音频与模版音频的短时Teager能量谱图;对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;对所述POC相似度矩阵按列进行平均后得到一个一维的相似度值向量,选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。

【技术特征摘要】
1.一种音频匹配方法,其特征在于,包括:分别计算被测音频与模版音频的短时Teager能量谱图;对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;对所述POC相似度矩阵按列进行平均后得到一个一维的相似度值向量,选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。2.如权利要求1所述的方法,其特征在于,所述分别计算被测音频与模版音频的短时Teager能量谱图包括:对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分帧处理,被测语音与模版语音的帧长皆为2L,帧间重叠部分长度为L;对每一帧语音数据使用FFT算法计算其短时傅立叶能量谱,并对每一帧的傅立叶能量谱计算其Teager能量谱,分别得到被测语音和模版语音的Teager能量谱图;其中,被测语音的Teager能量谱图为矩阵X',模版语音的Teager能量谱图经为矩阵Y'。3.如权利要求2所述的方法,其特征在于,所述对每一帧语音数据使用FFT算法计算其傅立叶能量谱包括:基于公式x'[i]=x[i]·w[i]对每一帧语音数据进行加窗处理;其中,x[i],i=1...2L,表示长度为2L的原始信号,w[i]为一窗函数信号,x'[i]为加窗后信号;基于公式对加窗后的每一帧语音数据进行快速傅立叶变换;其中,X[k]表示归一化频率为k处的频率分量,缩记符号的定义为:其中,e是自然对数的底,j是虚数单位,π为圆周
\t率,N为进行FFT变换的序列长度;计算...

【专利技术属性】
技术研发人员:屈振华曹磊龙显军马涛杨新章郭英李慧云尹梅陆钢
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1