基于短时连续非负矩阵分解的语音时长调整方法技术

技术编号:8162177 阅读:454 留言:0更新日期:2013-01-07 19:52
本发明专利技术公开了一种基于短时连续非负矩阵分解的语音时长调整方法,该方法首先使用短时连续非负矩阵分解算法将语音幅度谱分解为基矩阵与编码矩阵;保持基矩阵不变,按语音时长调整比例,对编码矩阵进行线性内插;通过基矩阵和线性内插处理后的编码矩阵合成时长调整后的语音幅度谱;最后,利用波形估计算法从时长调整后的语音幅度谱重构出时长调整后的语音波形。本发明专利技术提升了语音时长调整的性能,改善了时长调整后语音的质量。

【技术实现步骤摘要】

本专利技术属于语音信号处理
,特别是一种。
技术介绍
语音时长调整技术可以在改变语音播放速度的同时保持语音的基音周期、共振峰结构等感知特征,使处理后的语音就像说话人主动改变语速一样。据调查,人说话的最快语速大约是每分钟110到180个单词,而人耳能够听懂的最大语速是它的2到3倍(I. M. R. Portnoff. Time-scale modification of speech based on short-time fourieranalysis, PhD Thesis, MIT, 1978)。因此,如果使用语音时长调整技术按需调整语音资料的播放速度,则可最大限度的发挥人耳的听觉潜力,使人能够像浏览报纸一样“浏览”语音资料。 语音时长调整技术在音频信号处理中有着重要意义,例如在语音识别、说话人识别中,可通过语音时长调整实现识别模版和参考模版的时间对齐;语音时长调整技术在广播电台对时间的要求方面也发挥了重要作用,如电视节目可利用语音时长调整技术达到视音频流的同步;语音时长调整技术也可用于语言、歌曲学习播放等,大大提高了学习效率;另外,通过语音时长调整还可以改善拥塞网络中的本文档来自技高网...

【技术保护点】
一种基于短时连续非负矩阵分解的语音时长调整方法,其特征在于将一段语音资料调整出不同的播放速度,包括如下步骤:第一步,获取原语音段y(n)的幅度谱M,并对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X;第二步,对编码矩阵X按时长调整比例进行线性内插,获得内插后的新编码矩阵第三步,由基矩阵A与新编码矩阵合成新幅度谱即第四步,使用波形估计算法从迭代重构时长调整后的语音段FDA00002121667300011.jpg,FDA00002121667300012.jpg,FDA00002121667300013.jpg,FDA00002121667300014.jpg,FDA00002121667...

【技术特征摘要】

【专利技术属性】
技术研发人员:张雄伟吴海佳黄建军陈卫卫赵改华李铁南
申请(专利权)人:中国人民解放军理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1