一种语音编码器码流的转码方法技术

技术编号:9008250 阅读:177 留言:0更新日期:2013-08-08 03:07
本发明专利技术公开了一种语音编码器码流的转码方法,属于语音编解码技术领域。通信网1发送的A码流经过比特流解析单元,解码单元,参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流,所述通信网1、2是使用不同语音编码标准的通信网络。

【技术实现步骤摘要】

本专利技术涉及,属于语音编解码

技术介绍
不同的通信网络常使用不同的语音编码标准。为了保证通信网络间的互通性,在通信网络之间连接时,常需要在不同编码器之间进行“转码”。设通信网I使用A型语音编解码器,通信网2使用B型语音编解码器。传统的语音转码方法是以先解码再编码(DTE)的方式进行转码,即用通信网I所使用的A型语音解码器对接收到的比特流进行解码,得到时间域的语音信号,然后再用通信网2所使用的B型语音编码器对该时间域语音信号进行编码,将编码后的比特流发送到通信网2。这种转码方法的计算复杂度高,时延较大,所需的存储量也较大,两次编解码也使合成语音质量不高。
技术实现思路
本专利技术针对以上问题的提出,而研制。,其特征在于:通信网I发送的A码流经过比特流解析单元,解码单元,参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流,通信网1、2是使用不同语音编码标准的通信网络,例如使用AMR标准的无线网,使用G.729AB标准的IP网。本专利技术技术方案带来的有益效果如下:(I)由于对线谱对系数转码时,事先使用了支持向量回归(SVR)算法对大量语音数据进行训练,从而得到发送端线谱对系数与接收端线谱对系数的映射模型。在此基础上,进行输入线谱对系数到输出线谱对`系数的映射,使线谱对系数的转换更为精确,提高了合成语音的质量。(2)将解码所得的基音延迟整数部分TO作为编码端开环搜索结果,这样在进行闭环搜索时,可根据TO的值来限制闭环搜索范围,从而提高了合成语音质量,也使计算量有所减小。(3)在静音插入描述帧的转码过程中,采用能量参数直接映射的方法,去掉了静音插入描述帧能量的计算,使得算法复杂度降低,存储量相应减少。(4)从输入的比特流中提取帧类型信息,这样就可在转码过程中不进行帧类型判断,而直接在比特流输出时将帧类型转换为与接收到的帧类型相同,有效地提高了接收端的合成语音质量。附图说明图1是本专利技术的流程图。图2是本专利技术的语音帧转码方法流程图。图3是本专利技术的静音插入描述帧参数转码方法流程图。图4AMR到G.729AB转码的DTE方法与本专利技术转码方法的PESQ比较。图5AMR到G.729AB转码的DTE方法与本专利技术转码方法的WMOPS比较。具体实施例方式下面结合附图对本专利技术做进一步说明:如图1所示:通信网I发送的A码流经过比特流解析单元,解码单元,参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流,所述通信网1、2是使用不同语音编码标准的通信网络。这里以AMR到G.729AB的参数转码过程为例,阐述本专利技术的具体实现过程,即上述A编码标准为AMR,B编码标准为G.729AB,通信网I为无线通信网,通信网2为IP网。AMR帧长为20ms,G.729AB帧长为10ms,两者子帧长度都为5ms,AMR —帧对应G.729AB两帧。转码具体方案如下:比特流解析单元用于接收无线通信网发送的AMR码流,具体步骤如下:(I)根据AMR的帧结构,从接收到的AMR码流中依次提取帧类型(SPEECH_G00D、SPEECH_BAD、SID_FIRST、SID_UPDATE、SID_BAD、N0_DATA)、模式信息(MR_4.75kbps、MR_5.15kbps、MR_5.9kbps、MR_6.7kbps、MR_7.4kbps、MR_10.2kbps、MR_12.2kbps)和参数比特。(2)根据AMR的帧结构,将参数比特转化为量化编码后的参数值,即语音帧的线谱对系数、基音延迟、固定码本非零脉冲位置和符号及增益,或静音插入描述帧的线谱对系数和语音能量。(3)根据帧类 型信息判断当前帧为语音帧(SPEECH_G00D、SPEECH_BAD)、静音插入描述帧(SID_UPDATE、SID_BAD)或非传输帧(SID_FIRST、N0_DATA)解码单元用于AMR解码器从参数比特中解码,得到语音参数值及合成语音,具体步骤如下:(I)若当前帧为语音帧:用AMR解码器对量化编码后的参数值解码得语音参数,包括线谱对系数、基音延迟、固定码本非零脉冲位置和符号、自适应码本增益和固定码本增益;用AMR解码器由以上语音参数进行语音重建,得到重构语音s’ (η)。(2)若当前帧为静音插入描述帧:用AMR解码器对量化编码后的参数值解码得静音插入描述帧的线谱对系数和语音能量。参数转换单元用于对AMR解码所得的语音参数进行转码,得到G.729ΑΒ量化编码所需的语音参数,具体步骤如下:(I)若接收到的AMR帧类型为语音帧(SPEECH_G00D或SPEECH_BAD),则转码流程如图2所示:(a)线性预测分析:线谱对系数的转码包括离线的映射模型参数获取和在线的参数映射。映射模型参数获取的过程为,首先由AMR和G.729AB编码器对大量(10个小时以上)、各种类型(如成年男声、成年女声、男童声、女童声等)、各种语言(如汉语、英语、法语等)的语音数据分别进行编码,分别得到K组和2K组量化的线谱对系数=LSPame(k,i)和 LSPe.729AB(2k,i),i=l,...,n,k=l,...,K,其中 η 为线谱对系数矢量的维数。再用支持向量回归算法计算LSPame和LSPe.729ΑΒ之间的映射模型:权利要求1.,其特征在于:通信网I发送的A码流经过比特流解析单元,解码单元,参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流,所述通信网1、2是使用不同语音编码标准的通信网络。2.根据权利要求1所述的,其特征在于:比特流解析单元用于接收通信网I发送的A码流,具体步骤如下: (1)根据通信网I的A编码标准的帧结构,从输入的A码流的相应比特位提取模式信息、帧类型信息和参数比特。(2)根据通信网I的A编码标准的帧结构,将参数比特转化为语音参数量化编码后的参数值,语音帧的参数包括线谱对系数、基音延迟、固定码本非零脉冲位置和符号及增益;静音插入描述帧的参数为线谱对系数和语音能量。(3)从A码流中提取帧类型信息,判断接收到的帧类型为语音帧、非传输帧或静音插入描述中贞。3.根据权利要求1所述的,其特征在于:解码单元用于A解码器从参数比特中解码,得到语音参数值及合成语音,具体步骤如下: (1)如果接收到的帧类型为静音插入描述帧,则根据接收到的参数索引值解码,得到语音参数值,参数为线谱对系数和能量ener。(2)如果接收到的帧类型为语音帧,则: (a)根据接收到的参数索引值,解码得到语音参数值,参数包括线谱对系数、基音延迟的整数部分TO和分数部分T0_frac、固定码本非零脉冲位置和符号、量化的自适应码本增益g’ P和量化的固定码本增 益g’。, (b)根据上述语音参数,用通信网I的A编码标准进行语音重建,得到重构语音s’(η), (c)得到重构语音s’(η)后,不进行A解码器中的后置处理。4.根据权利要求1所述的,其特征在于:参数转换单元用于对解码所得的语音参数进行转码,得到通信网2的B编码标准量化编码所需的语音参数,具体步骤如下: (I)若接收到的为语音帧,则转码步骤为: (a)线性预测分析: 线谱对系数的转码包括离线的映射模型参数获取和在线的参数映射, 映射模型参数获取的过程为,首先由A、B编码器对10小时以上的语音数据、各种本文档来自技高网...

【技术保护点】
一种语音编码器码流的转码方法,其特征在于:通信网1发送的A码流经过比特流解析单元,解码单元,参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流,所述通信网1、2是使用不同语音编码标准的通信网络。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈喆殷福亮袁兴华
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1