一种抗噪声的低速率语音编码方法及解码方法技术

技术编号:10960547 阅读:145 留言:0更新日期:2015-01-28 12:48
本发明专利技术提供了一种语音数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过端点检测剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据进行预增强,剔除部分噪声的干扰后计算语音能量;对每帧语音数据通过分析各子带的周期特性和清浊状态计算基音周期,采用多层神经网络模型对谱参数进行增强;通过谱参数、基音周期和能量进行语音帧聚类,将特征相似的相邻帧组成一个语音段;计算每段语音谱参数、基音周期和能量的均值特征以及每段语音的帧数后分别进行量化;对量化后的各种语音参数进行编码,生成语音数据包。本发明专利技术可以在极低编码速率的情况下,保持较高的语音音质。

【技术实现步骤摘要】

本专利技术涉及智能信息处理领域,尤其涉及一种语音数据的编码方法及解码方法。
技术介绍
语音作为人类交流信息的主要手段之一,语音编码一直在通信系统中占据重要的地位。语音的数据量非常庞大,不便于直接进行传输和存储处理,同时很多领域对语音的压缩传输率要求很高,因此必须对语音进行合理有效的处理,以减少语音信号的传输速率和存储量,即进行语音压缩编码,因此极低速率语音编码已经越来越受到关注,语音信号中有很大的信息冗余,压缩的每一个比特都意味着节省开支,低速率数字语音传输具有重大的实用价值,高质量的低速率语音编码技术在移动通信、卫星通信、多媒体技术以及I?电话通信中得到了普遍应用。 目前已有的极低速率语音编码大部分采用参数语音编码的方法实现极低速率下的语音传输。将多帧联合编码和内插等技术引入到经典的参数编码方法后,可以使语音在600如8速率下传输,接收端生成的语音仍具有可懂性。如果进一步降低语音传输速率,语音的音质将明显降低,这种方法将难以适用。通过传统的语音识别系统识别出对应的文本信息后进行传输,可以将传输速率降至200如8以下,但是采用这种方法识别出的文本难以保证较高的准确率,同时说话人的特征难以保留。
技术实现思路
(一 )要解决的技术问题 为解决上述的一个或多个问题,本专利技术提供了一种语音数据的编码方法及解码方法,在不同噪声环境下以极低编码速率进行传输时,保持较高的语音音质。 ( 二 )技术方案 根据本专利技术的一个方面,提供了一种语音数据的编码方法。该编码方法包括:获取原始音频,通过端点检测剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据进行预增强,剔除部分噪声的干扰后计算语音能量;对每帧语音数据通过分析各子带的周期特性和清浊状态计算基音周期,采用多层神经网络模型对谱参数进行增强;通过谱参数、基音周期和能量进行语音帧聚类,将特征相似的相邻帧组成一个语音段;计算每段语音谱参数、基音周期和能量的均值特征以及每段语音的帧数后分别进行量化;对量化后的各种语音参数进行编码,生成语音数据包。 根据本专利技术的另一个方面,还提供了一种语音数据的解码方法。该解码方法包括:对接收到的语音数据包进行解码,提取每段语音的谱参数、基音周期和能量均值特征以及语音帧数,通过上述参数和全局方差采用动态参数生成算法计算各帧语音参数,最后通过声码器合成语音。 (三)有益效果 从上述技术方案可以看出,本专利技术语音数据的编码方法及解码方法具有以下有益效果: (1)发送端只需对特征相似的相邻语音帧的谱参数、基音周期和增益的均值特征以及语音帧数进行编码。通过定量的分析可以确定其编码速率可低于500如8,能够实现语音数据在极低码率下的有效传输。 (2)在低码率下传输的语音可以较好的保留说话人的特性。 (3)通过语音检测模块,可以有效剔除音频流中的非语音数据,进一步降低码率。 (4)通过语音预增强模块和谱参数增强模块,可以有效的抑制各种噪声的干扰,提高语音音质。 (5)传输的语音数据不受说话人、文本内容、声音采集环境的限制,因此系统具有高鲁棒性,便于实际应用。 【附图说明】 图1为根据本专利技术实施例的语音数据编码方法及解码方法的整体结构示意图; 图2为图1所示语音数据编码方法中端点检测模块的结构示意图; 图3为图1所示语音数据编码方法中语音预增强模块的结构示意图; 图4为图1所示语音数据编码方法中基音周期分析模块的结构示意图; 图5为图1所示语音数据编码方法中谱参数增强模块的结构示意图; 图6为图1所示语音数据编码方法中语音帧聚类模块的结构示意图; 图7为图1所示语音数据编码方法中参数编码模块的结构示意图; 图8为图1所示语音数据解码方法中参数解码模块的结构示意图; 图9为图1所示语音数据解码方法中语音生成模块的结构示意图; 图10为本专利技术实施例的语音数据的编码/解码方法系统中端点检测模块中高斯混合模型离线训练过程的示意图; 图11为本专利技术实施例的语音数据的编码/解码方法系统中音频聚类模块中隐马尔科夫模型离线训练过程的示意图; 图12为本专利技术实施例的语音数据的编码/解码方法系统中谱参数增强模块中多层神经网络模型离线训练过程的示意图; 图13为本专利技术实施例的语音数据的编码/解码方法系统中参数编码模块和参数解码模块中谱参数码本离线训练过程的示意图; 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。 需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属
中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。 本专利技术提出了一种基于参数的语音数据编解码机制。该机制分为编码方法和解码方法。编码方法将采集到的语音提取特征参数并对各种参数进行量化和编码组成语音数据包,通过信道进行传输。解码方法从信道中获取语音数据包,对语音数据包进行解析,重构语音参数,恢复原始的语音,实现了语音数据在极低码率下的传输。 本专利技术中提供了一种语音数据的编码方法。如图1所示,本编码方法包括:获取原始音频,通过端点检测剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据进行预增强,剔除部分噪声的干扰后计算语音能量;对每帧语音数据通过分析各子带的周期特性和清浊状态计算基音周期,采用多层神经网络模型对谱参数进行增强;通过谱参数、基音周期和能量进行语音帧聚类,将特征相似的相邻帧组成一个语音段;计算每段语音谱参数、基音周期和能量的均值特征以及每段语音的帧数后分别进行量化;对量化后的各种语音参数进行编码,生成语音数据包。该编码方法包括端点检测步骤、语音预增强步骤、基音周期分析步骤、谱参数增强步骤、语音帧聚类步骤和参数编码步骤。下面对各个功能步骤采用的方法进行详细介绍。 步骤3110,获取原始音频,利用时域和变换域上的不同参数进行端点检测,剔除原始音频中的非语音数据,获得语音段数据,后续只对语音段数据进行量化、编码和传输,可以进一步降低系统对数据的传输速率; 利用短时能量、短时过零率和各子带的能量比重可以有效的从原始音频中检测出静音段数据和宽带噪声;通过分析音频数据中子带谐波特性可以有效的从原始音频中检测出周期噪声和冲击性噪声;通过子带谱包络和子带熵,可以有效的从原始音频中检测出各种非平稳噪声;通过对比不同段音频数据的梅尔频率倒谱系数可以对语音信号和音乐信号进行区分。利用上述各参数可以有效的从原始音频中保留语音数据,拒绝非语音数据。如图2所示,端点检测步骤如下: 子步骤3111,将原始音频等间隔分成若干子段,计算每段原始音频的短时能量、短时过零率和各频带能量,通过各频带能量计算100取一2000取频段能量的比重;将上述三个参数分别与预先设定的取值范围进行比较;如果三个参数都在取值范围内,则判定为待甄别数据;如果三个参数都超出取值范围,则判定为非语音段数据;如果其中一个或两个参数在取值范围内并且相邻两段音频为待甄别数据,则判定为待甄别数据否则判定为非语音数据本文档来自技高网
...

【技术保护点】
一种语音数据的编码方法,其特征在于,包括:端点检测模块首先通过短时能量、短时过零率和各频带能量分布将原始音频分为非语音数据和待甄别数据,然后对待甄别数据通过子带谐波、子带谱包络和子带熵剔除部分非语音数据,对于保留下来的待甄别数据通过语音数据的高斯混合模型和非语音数据的高斯混合模型判断是否为语音数据。

【技术特征摘要】
1.一种语音数据的编码方法,其特征在于,包括:端点检测模块首先通过短时能量、短时过零率和各频带能量分布将原始音频分为非语音数据和待甄别数据,然后对待甄别数据通过子带谐波、子带谱包络和子带熵剔除部分非语音数据,对于保留下来的待甄别数据通过语音数据的高斯混合模型和非语音数据的高斯混合模型判断是否为语音数据。2.根据权利要求1所述的音数据的编码方法,其特征在于,包括: 基音周期计算模块首先将语音信号划分为多个子带,对子带的谱包络和残差信号进行多通道梳状滤波并进行通道选择,根据所选通道计算各子带清浊度,对浊音特性明显的子带进行加权计算基音周期。3.根据权利要求1所述的音数据的编码方法,其特征在于,包括: 通过多层神经网络模型确定噪声环境下线谱对参数和安静环境下线谱对参数之间...

【专利技术属性】
技术研发人员:陈世文
申请(专利权)人:东莞市北斗时空通信科技有限公司
类型:发明
国别省市:广东;44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1