音频流错误隐藏的方法、装置和系统制造方法及图纸

技术编号:3490941 阅读:217 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种音频流错误隐藏的方法,该方法包括:a.对发送的音频帧按照内容进行分类,得到该音频帧的类型信息;b.将音频帧的类型信息与该音频帧的编码结果封装打包发送出去;c.当发生丢帧时,对于丢失的音频帧,确定其按照内容进行分类时得到的该音频帧的类型信息;d.根据丢失的音频帧的类型信息,采用相应的错误恢复策略进行音频帧重构。本发明专利技术所述的错误隐藏方式使得对丢失帧的重构具有更强的针对性,能够自适应地重构音频帧,以达到更好的补偿效果。本发明专利技术还公开了一种音频流错误隐藏的发送、接收方法。本发明专利技术又公开了音频流错误隐藏的发射机、接收机和系统。

【技术实现步骤摘要】

本专利技术涉及实时音频通信技术,特别涉及音频流错误隐藏的方法、装置 和系统。
技术介绍
人们很早就开始从事音频分类研究,但对于不同的应用场景,音频分类 的方法及分类的结果不尽相同。例如,1、在高级音响设备的噪音抑制中,常用调频分析或贝叶斯分类器将音频信号分类。2、为了更好地索引和检索 因特网上音频资源,人们进行了基于内容的音频分类和检索研究。比较有代 表性的基于内容的音频分类工作中详细分析了音频的区别性特征,包括响度 (loudness)、基音(pitch)、谐度(harmonicity)等,并且设计了音频的分类器。3、 音频分类另外一种应用是服务于音频一一特别是语音编码器的语音激活检 测器(VAD),目的是用来检测语音通信时是否有话音存在,对话音和非话 音分别采用不同的编码方式,以达到在不降低通话质量的情况下节省话路资 源的作用。在实时音频传输系统(如VoIP)中,网络传输造成音质下降的原因主 要是时延、静电干扰和包丢失,其中,包丟失是音质下降的最主要原因。实 际通讯网络总是存在着一定干扰,因此存在一定的包丢失概率,尽管协议低 层有纠错编码,但只能解决包内误码,无法解决丢包问题。此外,由于实时 音频业务有严格的延时限制,分组延迟超过一个极限也将被视为丢失。为了 能够在一定丢包率情况下,仍然保证一定的通讯质量,很多编解码算法中都 集成了错误隐藏技术,用来消除丢包的影响。图1为音频流错误隐藏的框图。如图1所示,压缩音频信号经过IP网络或其他不可靠网络的传输后,通常将接收到的音频数据包存放在抖动缓存 器,该抖动緩冲器用于解决迟包、早包的重排序等功能,然后进行丟包、错 包检测。如果有丟包或错包发生,系统将启动错误隐藏进行丟包补偿,否则 将正确接收音频包解码输出。音频实时传输中的丢包恢复技术按照处理阶段可以划分为两个大类基于发送端的修复和基于接收端的修复。 *基于发送端的错误隐藏基于发送端的丢包恢复由发送端发起,并需要发送端和接收端协同进 行。常见的方法有,增加冗余度、前向纠错、优先级设置和分类处理等。1、 增加冗余度增加数据的冗余度可以提高系统的容错能力,但是同 时增加了带宽。2、 前向纠错(FEC):该策略也依赖于在传输流附加可修复丟失数据 包的信息,利用块或代数码字生成能辅助纠错的额外传输包,同样需要增加 带宽。3、 优先级设置方法这种技术需要网络支持并按优先级传输分组,否 则无法实现,并且只能改善网络拥塞造成的丢包概率。4、 分类处理方法在语音编码中,为了在接收端更好地采用波形替换 技术,发送端可以根据语音信号的特性分类处理,比如3GPP2 VMR-WB 和ITU-T G.729.1将语音帧进一步描述为voiced, unvoiced, voiced transition, unvoiced transition, onset等类型,而解码端接收到之后,利用其前一帧和后 一帧的语音帧类型,可以推测出丢帧的类型,解码器得到丢帧类型后,可以 较好的恢复丢失帧的信息。*基于接收端的错误隐藏不需要发送端参与的接收端错误隐藏技术,本质上是对接收到的数据通 过一系列的方法来估计丢失的数据,并根据人的生理特点进行优化,基本上 是一种被动的修补,通常比较容易实现且不增加带宽需求。基于接收端的错 误隐藏方法可分为三类1、 基于插入的策略这类技术包括拼接(Splicing)、静音和嗓声替代 等方法。拼接技术会扰乱媒体流的时序,效果也不好。静音替代(用静音帧 填充丢帧位置)的适用范围非常有限,当数据包的丢失频率很低(小于2%) 且缺口宽度小于4ms时,这种方法比较有效;当缺口宽度达40ms时,其 效果会让人无法接受。与静音替代相比,噪声替代(用噪音帧填充丟帧位置) 可给人带来更好的主观听觉感受,同时能改善语音信号的可分辨性。当采用 背景噪声而不是静音的时候,人脑能下意识地用正确的声音来修补语音信号 中丢失的部分。插入方式与语音编码无关,也与分组的编码无关,只是对解 码后丟失的语音进行处理。2、 基于插值的策略与插入技术相比,插值技术使得处理得到的声音 能给人带来相对更好的主观感受。3、 基于重新生成的策略从丢失包周围的信息提取解码状态,并由此 生成丢失包的替代包。这种方法的实现过程比较复杂,但会取得较好的结果。一般来说,基于发送端错误隐藏会增加网络带宽和计算复杂性,效果比 基于接收端的好,但是如果发送端错误隐藏独立于接收端,也就是说与媒体 内容无关,那么它将不能根据所丢帧的特性采取相应的错误隐藏策略(例如, 稳定语音帧与其前一帧非常相似,用帧复制策略就能取得很好的隐藏效果, 过渡帧则需要考虑前后帧的状态才能确定隐藏策略)。接收端的技术简单, 也能取得一定的隐藏效果,但如果隐藏策略与音频编码无关,也就是说,不 分析当前丢失帧和周围音频帧的内容特性,从而采取有针对性的错误隐藏策 略,可采用错误隐藏的策略将非常有限。目前在编码端和接收端都考虑错误隐藏需求的音频编码标准越来越多, 有代表性的主要有两类方法(1)编码器在正式编码前分析音频帧特性,对不同特性的音频帧采用 不同的编码方法。例如,AMR-WB+根据音频帧内容对信号帧分别采用 ACELP及TCX编码,形成26种超帧(每四帧组成一个超帧)编码模式。 编码模式信息被用于错误隐藏,在某帧丟失的情况下,接收端根据超帧其余3帧的编码类型,推断或估计出超帧的编码模式,从而实现一定的错误隐藏 功能。(2 )根据语音帧的基音、频语等特性将语音帧划分为voiced, unvoiced, voiced transition, unvoiced transition, onset等类型。《列^口, 在最#斤的ITU-T G.729.1协议中,编码器根据帧内容及其特性,将语音帧分为voiced, unvoiced, voiced transition, unvoiced transition, onset ( VMR腸WB也将i吾音帧戈'j分为这5 类),在层2用2比特标示其类型,为进一步增强错误隐藏的准确性,G.729.1 还计算帧的相位和能量,分别在其下一帧的层3和层4传送。解码器会试图 从已知的类别标识中(包括前帧的类别标识)恢复出丢帧的模式标识,从而根 据丢帧的类别模式,结合其相位和能量信息重构出音频波形。对于第一类方法虽然AMR-WB+根据音频帧特性分别采用ACELP、 TCX256、 TCX512和TCX1024四种模式编码,分别用2, 2, 4, 8比特表示 编码模式信息,并且在错误隐藏时利用编码模式信息,推断或估计出超帧(由4帧1024个采样点组成)的编码模式,从而实现一定的错误隐藏功能,但 是标示出的仅仅是音频编码的编码模式,并不能根据音频帧的内容采用策略 进行丟帧重构,因此不能实现高效的错误隐藏。对于第二类方法目前这类错误隐藏技术是针对语音帧设计的,在处理 其他类型的音频帧时效果不好。对于音乐和自然声音等的分类检测、特别是 它们在丢包情况下,如何重构丢包信息,使得音频通信也能够容忍较高的丢 包率,目前尚没有有效的方法。综上所述,目前的音频流错误隐藏技术尚不能实现对音频帧的高效错误 隐藏,从而使得音频通信过程中对于丢包率的要求无法降低。
技术实现思路
有鉴于此,本专利技术实施本文档来自技高网
...

【技术保护点】
一种音频流错误隐藏的发送方法,其特征在于,该方法包括:    a、对发送的音频帧按照内容进行分类,得到该音频帧的类型信息;    b、将音频帧的类型信息与该音频帧的编码结果封装打包发送出去。

【技术特征摘要】

【专利技术属性】
技术研发人员:万华林王喆张军
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1