【技术实现步骤摘要】
本专利技术属于语音信号处理
,特别是一种。
技术介绍
语音时长调整技术可以在改变语音播放速度的同时保持语音的基音周期、共振峰结构等感知特征,使处理后的语音就像说话人主动改变语速一样。据调查,人说话的最快语速大约是每分钟110到180个单词,而人耳能够听懂的最大语速是它的2到3倍(I. M. R. Portnoff. Time-scale modification of speech based on short-time fourieranalysis, PhD Thesis, MIT, 1978)。因此,如果使用语音时长调整技术按需调整语音资料的播放速度,则可最大限度的发挥人耳的听觉潜力,使人能够像浏览报纸一样“浏览”语音资料。 语音时长调整技术在音频信号处理中有着重要意义,例如在语音识别、说话人识别中,可通过语音时长调整实现识别模版和参考模版的时间对齐;语音时长调整技术在广播电台对时间的要求方面也发挥了重要作用,如电视节目可利用语音时长调整技术达到视音频流的同步;语音时长调整技术也可用于语言、歌曲学习播放等,大大提高了学习效率;另外,通过语音时长调整还 ...
【技术保护点】
一种基于短时连续非负矩阵分解的语音时长调整方法,其特征在于将一段语音资料调整出不同的播放速度,包括如下步骤:第一步,获取原语音段y(n)的幅度谱M,并对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X;第二步,对编码矩阵X按时长调整比例进行线性内插,获得内插后的新编码矩阵第三步,由基矩阵A与新编码矩阵合成新幅度谱即第四步,使用波形估计算法从迭代重构时长调整后的语音段FDA00002121667300011.jpg,FDA00002121667300012.jpg,FDA00002121667300013.jpg,FDA00002121667300014.jpg,FDA0 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:张雄伟,吴海佳,黄建军,陈卫卫,赵改华,李铁南,
申请(专利权)人:中国人民解放军理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。