当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于PSM变调的语音识别及其还原方法及其装置制造方法及图纸

技术编号:7120387 阅读:326 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种基于PSM变调的语音识别及其还原方法及其装置,利用语音的基频特性估计变调后伸缩系数,并对美频率倒谱系数提取算法进行了改进,即利用线性插值伸缩将估计的变调系数整合到美频率倒谱系数提取算法中,使其能近似计算出变调语音在变调前的美频率倒谱系数。最后利用时间动态规整作为匹配方法,计算语音之间的相似度。同时,还能利用该估计的伸缩系数将变调后的语音还原为原语音。

【技术实现步骤摘要】

本专利技术属于多媒体信息安全领域,具体涉及一种基于PSM变调的语音识别及其还原方法及其装置
技术介绍
PSM(Pitch Scaling Modification)变调是最常用的语音处理之方法一。其功能是把一声音变为另一听起来自然却完全不同的声音。PSM通常用于音乐制作或保护说话人的安全和隐私,但也有可能被罪犯用来掩饰声音,以防被识别到身份。因此PSM变调后的话音还原和原说话人身份识别具有重要的应用价值。 PSM的一般步骤 1)对信号x(n)分帧、加窗厂⑷=Σ.浓(")‘e/ =02)计算瞬时幅值.2 π . -/--κ· ηΝ 0<η<Ν\mΝ—\^ χ{η) ■ w (/τ) · e.2π . -/--k-nNη=00</i<JV⑴⑵3)通过本帧与前一帧的相位关系计算瞬时频率ω(k) = (k+^γKN(3)其中Fs是抽样频率,△是相对中心频率的偏移频率。 4)频谱伸缩。首先是瞬时幅值线性插值 F(K' ) I = μ |F(k) | + (1-μ) |F(k+l) 0 ^ k < Ν/2 i=「i'/a](5)权利要求1.一种基于PSM语音变调的识别方法,其特征在于,所述方法为输入测试语音和参考语音,所述参考语音为经过PSM变调后的语音,所述测试语音为未经PSM变调的语音;提取测试语音的美频率倒谱系数;提取所述测试语音和参考语音的基频,计算出伸缩系数;对美频率倒谱系数的提取算法采用所述伸缩系数进行线性插值伸缩,得出改进型提取算法, 用所述改进型提取算法提取所述参考语音的美频率倒谱系数,根据所述参考语音的美频率倒谱系数与所述测试语音的美频率倒谱系数作匹配计算,若所得值大于预设值则识别为不同音源的语音,若不大于预设值,则识别为同一音源的语音。2.根据权利要求1所述的基于PSM语音变调的识别方法,其特征在于,计算所述伸缩系数的估计方法为a' =Hiean (F》/mean (Ft),其中α ‘为所述估计伸缩系数,mean (F》为所述参考语音的基频值的平均值,mean (Ft)为所述测试语音的基频值的平均值。3.根据权利要求1所述的基于PSM语音变调的识别方法,其特征在于,所述基频值的提取步骤如下(1)对信号加窗求得到任一时刻tmid前后一预定长度值的信号;(2)求所述预定长度值的信号的自相关函数和窗函数的自相关函数;(3)两相关函数相除,最大值处即为周期T,获取该时刻tmid的基频F。4.根据权利要求1所述的基于PSM语音变调的识别方法,其特征在于,所述改进型提取算法为在美频率倒谱系数提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k) 进行线性插值伸缩得出|F(k' )|。5.根据权利要求1或4所述的基于PSM语音变调的识别方法,其特征在于,线性插值伸缩的值为所述伸缩系数的倒数。6.根据权利要求1所述的基于PSM语音变调的识别方法,其特征在于所述匹配计算的方法为动态时间规整算法。7.根据权利要求1所述的基于PSM语音变调的识别方法所实现的语音还原方法,其特征在于,所述方法为,对判断为与测试语音是相同音源的参考语音进行以下步骤计算1)对待识别信号x(n)分帧、加窗、并进行FFT变换8.根据权利要求1所述的基于PSM语音变调的识别方法所实现的识别装置,其特征在于,所述装置包括第一语音输入模块,用于输入测试语音; 第二语音输入模块,用于输入参考语音; 第一提取模块,用于提取测试语音的美频率倒谱系数;第二提取模块,用于提取测试语音和参考语音的基频,并根据提取的基频计算出伸缩系数;第三提取模块,用于根据所述伸缩系数提取参考语音的美频率倒谱系数; 识别处理模块,用于根据所述测试语音和参考语音的美频率倒谱系数,进行匹配计算和识别;所述第一语音输入模块分别与所述第一提取模块和第三提取模块连接,所述第二语音输入模块分别与所述第二提取模块和第三提取模块连接所述第二提取模块与所述第三提取模块连接,所述识别处理模块分别与所述第一提取模块和第二处理模块连接。9.根据权利要求8所述的语音还原方法所实现的还原装置,其特征在于,所述装置包括,测试语音输入模块、参考语音输入模块,基频提取模块、处理模块、还原模块和语音输出模块,所述基频提取模块分别与所述测试语音输入模块和参考语音输入模块相连接,将输入的语音传输到所述基频提取模块进行基频提取,所述处理模块与所述基频提取模块连接,根据提取的基频计算出所述的伸缩系数,所述还原模块分别与所述参考语音输入模块和处理模块连接,根据处理模块计算出的伸缩系数还原参考语音,所述语音输出模块与所述还原模块连接,输出经过还原的语音。全文摘要本专利技术公开一种基于PSM变调的语音识别及其还原方法及其装置,利用语音的基频特性估计变调后伸缩系数,并对美频率倒谱系数提取算法进行了改进,即利用线性插值伸缩将估计的变调系数整合到美频率倒谱系数提取算法中,使其能近似计算出变调语音在变调前的美频率倒谱系数。最后利用时间动态规整作为匹配方法,计算语音之间的相似度。同时,还能利用该估计的伸缩系数将变调后的语音还原为原语音。文档编号G10L17/00GK102354496SQ20111018300公开日2012年2月15日 申请日期2011年7月1日 优先权日2011年7月1日专利技术者王泳, 黄继武 申请人:中山大学本文档来自技高网...

【技术保护点】
1.一种基于PSM语音变调的识别方法,其特征在于,所述方法为:输入测试语音和参考语音,所述参考语音为经过PSM变调后的语音,所述测试语音为未经PSM变调的语音;提取测试语音的美频率倒谱系数;提取所述测试语音和参考语音的基频,计算出伸缩系数;对美频率倒谱系数的提取算法采用所述伸缩系数进行线性插值伸缩,得出改进型提取算法,用所述改进型提取算法提取所述参考语音的美频率倒谱系数,根据所述参考语音的美频率倒谱系数与所述测试语音的美频率倒谱系数作匹配计算,若所得值大于预设值则识别为不同音源的语音,若不大于预设值,则识别为同一音源的语音。

【技术特征摘要】

【专利技术属性】
技术研发人员:王泳黄继武
申请(专利权)人:中山大学
类型:发明
国别省市:81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1