一种基于语音前向包络预测的差错隐藏方法技术

技术编号:3420337 阅读:189 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种可应用于VoIP的差错隐藏方法。本发明专利技术所涉及的差错隐藏的方法是基于语音前向包络预测的,具体方法为:如果当前语音包丢失,或晚于该包的预定播放时间,则通过计算前两个语音包的幅度变化趋势来预测当前包的包络变化趋势,预测方法是基于对语音特性合理的假设得出的。根据预测的当前包包络变化的不同趋势,采用对前一包语音进行不同形式的处理后的语音来代替当前包进行播放。这种基于语音包络前向预测的差错隐藏方法不占用额外的传输带宽,不引入额外延时,对不同语言均适用,计算简单有效,极易实现。

【技术实现步骤摘要】

本专利技术涉及一种接收端的差错隐藏方法,尤其适用于VoIP中波形编码方式 下传输语音丢包的情况。技术背景由于VoIP技术与传统公共交换电话网络(PSTN)相比,具有设备低廉、建 网方便、投资降低并可提供新的服务项目从而扩大运营商盈利空间的诸多优点, VoIP得到了高速发展,并对固定语音业务形成了挑战。但是由于因特网协议(IP) 是一种尽力而为的服务,而语音业务则要求为实时服务,服务质量(QoS)成为 VoIP应用的一个主要问题。网络中的延时、抖动和丢包都会显著降低语音的质 量,在无线网络中这些影响更加严重。为了减小抖动和丢包对语音质量的影响,不同的抖动缓存技术和丢包恢复 技术被提出并应用。抖动缓存算法包括固定缓存和自适应缓存算法,自适应缓 存算法又分为语音峰(talkspurt)内和语音峰间自适应算法。而丢包恢复技术 则分为发送端丢包恢复技术和接收端差错隐藏技术。发送端的方法包括主动式 方法(如重传)和被动式方法(如交织和前向纠错)。前向纠错方法又进一步包 括媒体相关和媒体无关方法。基于发送端的丢包恢复技术的优点是,它们几乎 可以恢复任何形式的错误和丢包;其缺点是,这些方法均会增加时延或占用更 多的传输带宽。对于语音这种实时业务,丢包恢复更多地采用基于接收端的差 错隐藏技术。基于接收端的差错隐藏方法主要包括插入隐藏方法,如拼接,静默替代 和包重复;插值方法,如波形插值替代,基音波形复制及时长调整 (time-scaling)方法;再生方法,如传输状态插值与基于模型的恢复方法。基于接收端的差错隐藏方法与基于发送端的方法相比,它们可以恢复的错误情 况减少,但是它们更加简单而且不要求额外的带宽。因此,在各种语音编解码技术中,基于接收端的差错隐藏方法应用更为广泛。例如,3GPP TS 26.190第 五版本规定的第三代移动通信中自适应多速率宽带语音编码中,差错隐藏方法 使用重复好帧的参数或对前几帧的参数进行外推替换来恢复丢失语音帧。在多 帧连续丢失的情况下,帧替换恢复的时候使输出信号的能量逐渐减小,即加入 衰减,使输出信号逐渐减弱直至无声。又如,在VoIP中广泛采用的iLBC编码 器,其差错(丢包)隐藏机制也是非常简单有效的。Global IP Sound公司提出的 iLBC编码器中的差错隐藏方法为如果上一包正常收到而当前包丢失,则采用 上一包的激励信号的基音同步重复,并在产生的激励上叠加一个随机激励来避 免产生嗡嗡声(buzzy-soimding)。具体做法是,采用相关分析来得到上一包激励 信号的基音周期和浊音度,从而产生当前替代包的激励信号。利用新产生的激 励信号与线性预测滤波器的系数产生语音并替代当前丢失包;如果出现连续丢 包的情况,则采用同样的方法来恢复当前包,但这时替代的激励信号的能量是 逐渐衰减的,以体现前面各包对当前包影响逐渐减小的事实;如果当前包正常 收到,而前一包数据丢失了,那么并不是直接采用当前包语音,因为上一包恢 复的语音可能与本包产生不连续从而导致失真。这时可以采用相似度搜索来寻 求语音的最佳连接点。现有的差错隐藏方法考虑了语音的相关性(如连续丢包情况下重复前几包 时加入衰减效应以体现后续包与前面包相关性的减小)、平滑连接性(如采用相 似度搜索来寻求最佳连接点)、短时平稳特性(如采用前几包的参数加上一个随 机参数来恢复当前丢失包)等。本专利技术中的差错隐藏方法的基本思想不同于这 些现有方法,它的出发点是考虑语音的包络特性,它不是上一包的简单重复或基音同步重复,而是通过计算前两个语音包的幅度变化趋势,来预测当前包包 络变化的趋势,从而利用前一包的不同处理后的形式来对当前丢失包进行恢复。 本方法计算非常简单,另外可以通过调整窗函数的形式、状态判断阈值、波形 拼接点等参数来更好地符合语音特性,达到更好的差错隐藏效果。
技术实现思路
本专利技术涉及。该方法属于在通信接收端的差错隐藏方法,可应用于VoIP中传输语音包丢失的情况,并可结合任 何形式的抖动缓存算法使用。本专利技术是基于对语音特性的合理假设的,这个假设是语音波形是连续的, 且具有短时平稳性,因此相邻语音包之间的幅度变化趋势也具有一定的连续性, 语音幅度变化一般包括上升,保持和下降三个过程。为了简便有效地恢复当前丢失包,达到更好的恢复语音质量,本专利技术是通过 以下方法实现的,其步骤为a) 在给定的抖动缓存条件下,确定当前包是否迟于其预定播放时间,如果 是,则认为当前包丢失;b) 判断前两包语音是否都已收到;根据前两包语音的收到和丢失情况,对 当前语音包采用不同的恢复方法。若前两包语音均正常收到,则执行步骤C、 d, 否则执行步骤e。c) 计算前两包语音的幅度变化趋势,从而预测当前包语音的包络变化趋势。 具体预测方法见下面基于语音包络前向预测的方法的各个步骤;d) 根据所预测的当前包语音包络变化趋势,采用对前一包语音不同的加窗 处理来得到当前包语音的替代,并进行播放。窗函数包括上升窗,下降窗或者 几种窗函数的组合,甚至置零窗,即当前包用静默替代;e)如果前两包语音并未全部正常收到,即其中一包或两包丢失,则不再预 测幅度趋势;根据包的接收情况,若前一包语音收到而更前一包语音丢失,则 采用上一包的全部或部分重复来对当前包进行替代;若前一包语音丢失而更前 一包语音收到,则重复前一个收到包的全部或部分来恢复当前包;若前两包均 丢失,则当前包用静默替代;基于对语音包络特性的合理假设,本专利技术提出了一种基于语音包络前向预 测的方法,其步骤为a) 分别计算前两包语音的平均幅度,并对两包语音的平均幅度进行比较, 根据预设阈值,得出前两包总体变化趋势;b) 分别计算前两包语音内部的幅度变化趋势,比如将每包语音分为前后两 部分,对其前后两部分的幅度进行计算,并根据预设阈值,得出每包语音的幅 度变化趋势;c) 根据前两包语音的总体和内部趋势,基于语音特性的合理假设,判断当 前语音应处于上升、保持、下降状态还是某几种状态的组合。根据本专利技术基于语音包络前向预测的方法的思想,语音包络变化情况一般 可分为以下六种,不同的包络趋势情况对应不同的当前包恢复处理方法,结合 附图2进行说明a)对于图2中第一种情况,前两包语音幅度处于初步上升阶段,则当前包 包络应呈上升趋势,且上升速度逐渐变缓,当前包丢失时,应采用各种形式的 上升窗对前一包语音进行处理以恢复当前包。窗函数的形式有多种选择,如线性上升窗(1) , sigmoid上升窗(2)的一部分, 升余弦窗,或其它形式的窗函数及不同窗函数的组合等, <formula>formula see original document page 7</formula> (1)长度为N的线性上升窗;w2w(")=——in^7,"〉0,"^0,1,…2^-1 (2) 长度为2N的sigmoid上升窗。 l + e 。("b) 对于图2中第二种情况,前两包语音幅度一直处于上升阶段,则当前包包 络应先基本保持后下降,且下降速度逐渐变快,当前包丢失时,应采用相应形 式的窗函数对前一包语音进行处理以恢复当前包,比如矩形窗与下降窗的组合, 而符合条件的窗函数又可选择多种形式。c) 对于图2中第三种情况,前两包语音幅度经本文档来自技高网
...

【技术保护点】
一种基于语音前向包络预测的差错隐藏方法,包括以下步骤:a)在给定的抖动缓存条件下,确定当前包是否迟于其预定播放时间,如果是,则认为当前包丢失;b)判断前两包语音是否都已收到;根据前两包语音的收到和丢失情况,对当前语音包采用不同的恢复方法。若前两包语音均正常收到,则执行步骤c、d,否则执行步骤e;c)计算前两包语音的幅度变化趋势,从而预测当前包语音的包络变化趋势;d)根据所预测的当前包语音包络变化趋势,采用对前一包语音不同的加窗处理来得到当前包语音的替代,并进行播放;e)如果前两包语音并未全部正常收到,即其中一包或两包丢失,则不再预测幅度趋势;根据包的接收情况,若前一包语音收到而更前一包语音丢失,则采用上一包的全部或部分重复来对当前包进行替代;若前一包语音丢失而更前一包语音收到,则重复前一个收到包的全部或部分来恢复当前包;若前两包均丢失,则当前包用静默替代。

【技术特征摘要】

【专利技术属性】
技术研发人员:尹辉谢湘匡镜明
申请(专利权)人:北京理工大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利