使用基于机器学习的时变滤波器和线性预测译码滤波器的组合的音频译码制造技术

技术编号：41423545 阅读：16 留言：0更新日期：2024-05-28 20:23

描述了用于对音频信号进行译码的系统和技术。例如，话音解码器可使用神经网络，基于向该神经网络的一个或多个输入来生成针对音频信号的至少一个样本的激励信号，该激励信号被配置为激励线性预测译码(LPC)滤波器。该话音解码器还可基于该激励信号使用该LPC滤波器来生成重建的音频信号的至少一个样本。例如，该神经网络可生成用于一个或多个线性时变滤波器(例如，线性时变谐波滤波器和线性时变噪声滤波器)的系数。该话音解码器可使用包括所生成的系数的该一个或多个线性时变滤波器来生成该激励信号。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开整体涉及音频译码(例如，音频编码和/或解码)。例如，描述了用于至少部分地通过组合由机器学习系统(例如，基于神经网络的模型)生成的线性时变滤波器与线性预测译码(lpc)滤波器来执行音频译码的系统和技术。

技术介绍

1、音频译码(也被称为话音译码和/或语音译码)是用于使用尽可能少的比特来表示数字化音频信号(从而压缩语音数据)而同时试图维持特定水平的音频质量的技术。音频或话音编码器用于将数字化音频(例如，语音、音乐等)信号编码(或者压缩)为较低比特率数据流。可将较低比特率数据流输入音频或话音解码器，该音频或话音解码器对数据流进行解码并构建对原始信号的近似或重建。音频或话音编码器-解码器结构可被称为音频译码器(或者话音译码器或语音译码器)或音频/话音/语音译码器-解码器(编解码器)。

2、音频译码器利用了语音信号是高度相关波形的事实。一些语音译码技术基于源-滤波器语音产生模型，该模型假定声带是频谱平坦的声音(激励信号)的源，并且假定声道充当滤波器以对语音的各种声音进行频谱整形。不同音素(例如，元音、摩擦音和话音摩擦音)可通过它...

【技术保护点】

1.一种用于重建一个或多个音频信号的装置，包括：

2.根据权利要求1所述的装置，其中向所述神经网络的所述一个或多个输入包括与所述音频信号相关联的特征。

3.根据权利要求2所述的装置，其中所述特征包括对数梅尔频谱特征。

4.根据权利要求1至3中任一项所述的装置，其中所述LPC滤波器是时变LPC滤波器。

5.根据权利要求1至4中任一项所述的装置，其中所述至少一个处理器被配置为：

6.根据权利要求5所述的装置，其中在话音编码器中基于输入音频信号的自相关来生成所述LPC滤波器的所述滤波器系数。

7.根据权利要求5所述的装置，...

【技术特征摘要】
【国外来华专利技术】

1.一种用于重建一个或多个音频信号的装置，包括：

2.根据权利要求1所述的装置，其中向所述神经网络的所述一个或多个输入包括与所述音频信号相关联的特征。

3.根据权利要求2所述的装置，其中所述特征包括对数梅尔频谱特征。

4.根据权利要求1至3中任一项所述的装置，其中所述lpc滤波器是时变lpc滤波器。

5.根据权利要求1至4中任一项所述的装置，其中所述至少一个处理器被配置为：

6.根据权利要求5所述的装置，其中在话音编码器中基于输入音频信号的自相关来生成所述lpc滤波器的所述滤波器系数。

7.根据权利要求5所述的装置，其中所述至少一个处理器被配置为：

8.根据权利要求7所述的装置，其中所述特征包括梅尔频谱特征。

9.根据权利要求1至8中任一项所述的装置，其中所述至少一个处理器被配置为：

10.根据权利要求1至9中任一项所述的装置，其中为了使用所述神经网络来生成针对所述音频信号的所述至少一个样本的所述激励信号，所述至少一个处理器被配置为：

11.根据权利要求10所述的装置，其中所述一个或多个线性时变滤波器包括线性时变谐波滤波器和线性时变噪声滤波器。

12.根据权利要求1至9中任一项所述的装置，其中为了使用所述神经网络来生成针对所述音频信号的所述至少一个样本的所述激励信号，所述至少一个处理器被配置为：

13.一种重建一个或多个音频信号的方法，所述方法包括：

14.根据权利要求13所述的方法，其中向所述神经网络的所述一个或多个输入包括与所述音频信号相关联的特征。

15.根据权利要求14所述的方法，其中所述特征包...

【专利技术属性】
技术研发人员：D·德瓦苏伦德拉，G·K·索蒂埃雷，Z·I·斯科迪利斯，V·拉金德兰，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人