【技术实现步骤摘要】
本专利技术属于语音处理领域,涉及基于选择性反投影特征融合的端到端语音编码方法和系统。
技术介绍
1、语音通信中,输入语音经过编码端从中提取出语音信号的特征参数,然后利用量化器对提取的特征参数进行量化,达到压缩数据量的目的。解码端对特征参数进行解量化并重建语音信号。随着编码码率的降低,量化比特数减少,导致量化误差增大,进而影响重建语音的质量。尤其是在编码码率低至1.2kbps及以下时,传统语音编码方法的重建语音质量受损更为严重,通常表现为重建语音自然度低并伴随着机械音,严重影响通信质量。
2、近些年来,深度学习在语音编码领域取得了长足的进步,端到端的语音编码方法相比于传统的语音编码方法在质量上取得了较大的提升。现有的端到端语音编码方法在编码端对输入的原始语音信号或者语音声学特征进行下采样,提取中间隐变量特征,并且对其进行矢量量化;在解码端对解量化的中间隐变量特征进行上采样,重建语音信号或者声学特征。现有的端到端语音编码方案一般采用序列式组成的多层下采样卷积模块和多层上采样转置卷积模块用来提取中间隐变量特征和重建语音信号。但是,
...【技术保护点】
1.一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:选择性反投影特征融合下采样模块的处理过程如下:
3.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:残差网络包含3个不同膨胀率的残差单元,膨胀率分别为1,3和9,残差单元由一个一维膨胀卷积和一维因果卷积构成。
4.如权利要求2所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:第一选择性特征融合模块的处理过程为:
< ...【技术特征摘要】
1.一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:选择性反投影特征融合下采样模块的处理过程如下:
3.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:残差网络包含3个不同膨胀率的残差单元,膨胀率分别为1,3和9,残差单元由一个一维膨胀卷积和一维因果卷积构成。
4.如权利要求2所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:第一选择性特征融合模块的处理过程为:
5.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:选择性反投影特征融合上采样模块的处理过程如下:
6.如权利要求5所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:第二选择性特征融合模块的处理过程如下;
7.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:还包括步骤4,将步骤3生成的语音信号和原始的语音信号一起输入至基于波形和基于stft的判别器,进行真假判别,在训练过程中使得生成器更好地还原语音信号,所述生成器即步骤1-步骤3构成的整体模型;步骤4仅在训练阶段使用,测试阶段直接经过步骤1-步骤3得到重建的语音信号。
<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。