基于多尺度反投影特征融合的语音压缩方法及系统技术方案

技术编号：45833562 阅读：21 留言：0更新日期：2025-07-15 22:39

本发明专利技术公开的基于多尺度反投影特征融合的语音压缩方法及系统，属于语音合成技术领域，所述方法调用编码器中的多个多尺度反投影特征融合层对待合成语音信号进行编码，获得语音特征；调用解码器中的多个多尺度反投影特征融合层对语音特征进行解码，获得合成语音；其中，多尺度反投影特征融合层对输入特征进行编码或解码的过程包括：使用不同尺度的卷积核对输入特征进行交叉学习，获得多尺度特征，对多尺度特征分别进行反投影，获得反投影特征，将反投影特征和多尺度特征进行融合后与输入多尺度反投影特征融合层的特征进行融合，获得多尺度反投影特征融合层的输出特征。提高了语音合成质量，解决了当前方法语音合成质量受限的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及语音信号处理，特别涉及基于多尺度反投影特征融合的语音压缩方法及系统。

技术介绍

1、低速率语音编码技术在卫星通信、短波通信、水声通信以及保密通信等多个关键领域具有广泛的应用需求。

2、当前方法主要通过语音编码模型对原始语音进行合成，该语音编码模型包括编码端和解码端；编码端通过卷积神经网络对原始语音进行下采样操作，完成对语音信号的特征提取，对编码端提取的特征进行量化和解量化后，获得解量化的语音，解码端利用卷积神经网络对解量化的语音进行上采样操作，还原输入语音，获得语音合成结果。

3、语音信号是一种复杂的信号，它包含了丰富的信息，如音调、节奏、音色等，并且语音信号本身具有多尺度特征，覆盖了不同时间和频率范围内的语音信息。而当前方法进行语音合成时，仅是通过卷积神经网络捕获语音信号的特征，往往不能完全捕获复杂的多尺度特征，导致语音细节信息的丢失，且目前的方法对上下采样后的语音缺乏相应的细节补偿机制，导致最终合成语音的质量受限。

技术实现思路

1、本申请实施例...

【技术保护点】

1.基于多尺度反投影特征融合的语音压缩方法，其特征在于，包括：

2.如权利要求1所述的基于多尺度反投影特征融合的语音压缩方法，其特征在于，多尺度反投影特征融合层使用不同尺度的卷积核对输入特征进行多路径卷积处理，将所有路径卷积处理后特征进行拼接，获得多个路径的拼接特征；对每个拼接特征进行特征提取，获得多尺度特征。

3.如权利要求1所述的基于多尺度反投影特征融合的语音压缩方法，其特征在于，多尺度反投影特征融合层对每个多尺度特征先下采样，再上采样，获得上采样特征，计算多尺度特征与其上采样特征之间的残差，将多尺度特征与残差进行加权融合，获得融合结果；将所有融合结果进行拼接...

【技术特征摘要】

1.基于多尺度反投影特征融合的语音压缩方法，其特征在于，包括：

3.如权利要求1所述的基于多尺度反投影特征融合的语音压缩方法，其特征在于，多尺度反投影特征融合层对每个多尺度特征先下采样，再上采样，获得上采样特征，计算多尺度特征与其上采样特征之间的残差，将多尺度特征与残差进行加权融合，获得融合结果；将所有融合结果进行拼接，获得拼接特征，将拼接特征与输入多尺度反投影特征融合层的特征进行残差连接，获得多尺度反投影特征融合层的输出特征。

4.如权利要求3所述的基于多尺度反投影特征融合的语音压缩方法，其特征在于，多尺度特征与残差加权融合时所采用权重，通过计算多尺度特征与残差的注意力向量，并将两个注意力向量进行归一...

【专利技术属性】
技术研发人员：李晔，蔡田雨，张鹏，王靖祥，任淑贤，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人