使用神经网络和可微分数字信号处理器进行音频的实时低延迟合成的方法和系统技术方案

技术编号：42841029 阅读：44 留言：0更新日期：2024-09-27 17:12

示例方面包括用于实现音频的实时和低延迟合成的技术。这些技术可以包括通过以等于缓冲区大小的增量对音频输入进行采样，直到达到与用于训练机器学习(ML)模型的帧大小相对应的阈值来生成帧，检测帧内的特征信息，通过ML模型基于特征信息确定用于音频再现的控制信息。此外，这些技术可以包括通过使用重叠添加技术反转噪声大小控制信息来生成滤波噪声信息，基于控制信息通过组合多个缩放波表来生成加性谐波信息，以及基于滤波噪声信息和加性谐波信息呈现音频输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

1、在某些情况下，可以采用神经网络来合成自然声音的音频，例如乐器、歌声和语音。此外，一些音频合成实现已经开始利用神经网络，该神经网络利用不同的数字信号处理器(ddsp)通过批处理在离线环境中合成自然声音的音频。然而，使用神经网络和ddsp的实时合成尚未实现，因为当一起使用神经网络和ddsp时所采用的子组件在实时环境中一起使用时已被证明无法操作。例如，设备的实时缓冲区和神经网络的帧大小可能不同，这会显著限制神经网络的效用和/或准确性。此外，一起使用神经网络和ddsp所需的计算是处理器密集和存储器密集的，从而限制了能够实现使用神经网络和ddsp的合成技术的设备的类型。此外，当使用带有ddsp的神经网络时执行的一些计算会引入延迟，使得实时使用不可行。

技术实现思路

1、以下给出了本公开的一个或多个实施例的简化的
技术实现思路
，以便提供对此类实现的基本理解。该
技术实现思路
不是对所有设想的实现的广泛概述，并且并非旨在识别所有实现的关键或重要要素，也不旨在划定任何或所有实施例的范围。其唯一目...

【技术保护点】

1.一种音频处理方法，包括：

2.根据权利要求1所述的方法，还包括在确定所述控制信息之前对所述幅度信息、所述音高信息和所述音高状态信息应用延迟补偿。

3.根据权利要求1所述的方法，其中通过使用重叠相加技术反转所述噪声大小控制信息来生成所述滤波噪声信息包括：

4.根据权利要求1所述的方法，其中所述帧是第一帧，所述音高控制信息包括谐波分布信息和谐波幅度信息，并且生成所述加性谐波信息包括：

5.根据权利要求4所述的方法，其中所述多个缩放波表被存储在双缓冲区中，所述双缓冲区具有存储所述第一缩放波表的第一存储器位置和存储所述第二缩放波表的第二存储器位...

【技术特征摘要】
【国外来华专利技术】

1.一种音频处理方法，包括：

2.根据权利要求1所述的方法，还包括在确定所述控制信息之前对所述幅度信息、所述音高信息和所述音高状态信息应用延迟补偿。

3.根据权利要求1所述的方法，其中通过使用重叠相加技术反转所述噪声大小控制信息来生成所述滤波噪声信息包括：

4.根据权利要求1所述的方法，其中所述帧是第一帧，所述音高控制信息包括谐波分布信息和谐波幅度信息，并且生成所述加性谐波信息包括：

5.根据权利要求4所述的方法，其中所述多个缩放波表被存储在双缓冲区中，所述双缓冲区具有存储所述第一缩放波表的第一存储器位置和存储所述第二缩放波表的第二存储器位置，并且被配置为基于与被再现的所述第一缩放波表相对应的所述音频输出的一部分，用所述多个缩放波表中的第三缩放波表覆盖所述第一存储器位置中的所述第一缩放波表。

6.根据权利要求4所述的方法，其中确定所述第一缩放波表包括：

7.根据权利要求1所述的方法，还包括在呈现所述音频输出之前对所述滤波噪声信息和所述加性谐波信息应用延迟补偿。

8.根据权利要求1所述的方法，其中音高控制信息包括谐波分布信息，并且确定用于所述音频再现的所述控制信息包括：

9.根据权利要求1所述的方法，其中确定用于所述音频再现的所述控制信息包括：

10.根据权利要求1所述的方法，还包括：

11.根据权利要求1所述的方法，还包括在确定所述控制信息之...

【专利技术属性】
技术研发人员：拉姆撒恩·汉特拉库尔，戴维·特里维廉，陈昊楠，马修·戴维·埃文特，珍妮·杰恩·哈尔姆·雷内·斯皮克维特，
申请(专利权)人：脸萌有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人