当前位置: 首页 > 专利查询>武汉大学专利>正文

基于选择性反投影特征融合的端到端语音编码方法和系统技术方案

技术编号:41563999 阅读:23 留言:0更新日期:2024-06-06 23:46
本发明专利技术提供了一种基于选择性反投影特征融合的端到端语音编码方法和系统,可以在编码端下采样过程更好地保留原始语音需要的信息,在解码端上采样过程更好地学习重建语音需要的信息,能够较好地提升重建语音质量。本方法在相同码率下,可以较大提升重建语音质量。在相同码率下,例如在1kbps的码率下,本方法可懂度指标STOI达到0.882,客观ViSQOL指标达到3.465,超过Facebook的Encodec可懂度0.869,客观ViSQOL指标3.036。

【技术实现步骤摘要】

本专利技术属于语音处理领域,涉及基于选择性反投影特征融合的端到端语音编码方法和系统


技术介绍

1、语音通信中,输入语音经过编码端从中提取出语音信号的特征参数,然后利用量化器对提取的特征参数进行量化,达到压缩数据量的目的。解码端对特征参数进行解量化并重建语音信号。随着编码码率的降低,量化比特数减少,导致量化误差增大,进而影响重建语音的质量。尤其是在编码码率低至1.2kbps及以下时,传统语音编码方法的重建语音质量受损更为严重,通常表现为重建语音自然度低并伴随着机械音,严重影响通信质量。

2、近些年来,深度学习在语音编码领域取得了长足的进步,端到端的语音编码方法相比于传统的语音编码方法在质量上取得了较大的提升。现有的端到端语音编码方法在编码端对输入的原始语音信号或者语音声学特征进行下采样,提取中间隐变量特征,并且对其进行矢量量化;在解码端对解量化的中间隐变量特征进行上采样,重建语音信号或者声学特征。现有的端到端语音编码方案一般采用序列式组成的多层下采样卷积模块和多层上采样转置卷积模块用来提取中间隐变量特征和重建语音信号。但是,由于直接使用层级式的本文档来自技高网...

【技术保护点】

1.一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:选择性反投影特征融合下采样模块的处理过程如下:

3.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:残差网络包含3个不同膨胀率的残差单元,膨胀率分别为1,3和9,残差单元由一个一维膨胀卷积和一维因果卷积构成。

4.如权利要求2所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:第一选择性特征融合模块的处理过程为:

<p>5.如权利要求1...

【技术特征摘要】

1.一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:选择性反投影特征融合下采样模块的处理过程如下:

3.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:残差网络包含3个不同膨胀率的残差单元,膨胀率分别为1,3和9,残差单元由一个一维膨胀卷积和一维因果卷积构成。

4.如权利要求2所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:第一选择性特征融合模块的处理过程为:

5.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:选择性反投影特征融合上采样模块的处理过程如下:

6.如权利要求5所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:第二选择性特征融合模块的处理过程如下;

7.如权利要求1所述的一种基于选择性反投影特征融合的端到端语音编码方法,其特征在于:还包括步骤4,将步骤3生成的语音信号和原始的语音信号一起输入至基于波形和基于stft的判别器,进行真假判别,在训练过程中使得生成器更好地还原语音信号,所述生成器即步骤1-步骤3构成的整体模型;步骤4仅在训练阶段使用,测试阶段直接经过步骤1-步骤3得到重建的语音信号。

<...

【专利技术属性】
技术研发人员:涂卫平郑友强杨玉红艾浩军
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1