用于自动多轨道混音的系统技术方案

技术编号：37441081 阅读：31 留言：0更新日期：2023-05-06 09:13

本文描述了一种用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统。该系统包括基于深度学习的第一网络的一个或多个实例和基于深度学习的第二网络的一个或多个实例。具体地，第一网络被配置为基于输入音频轨道生成用于在自动多轨道混音中使用的参数。第二网络被配置为基于该参数将信号处理和至少一个混音增益应用于输入音频轨道，以用于生成音频轨道的输出混音。于生成音频轨道的输出混音。于生成音频轨道的输出混音。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于自动多轨道混音的系统
[0001]相关申请的交叉引用
[0002]本申请要求下列优先权申请的优先权：2020年6月22日提交的西班牙申请P202030604(参考号：D20041EP)、2020年8月31日提交的美国临时申请63/072,762(参考号：D20041USP1#)、2020年10月15日提交的美国临时申请63/092,310(参考号：D20041USP2)和2020年10月22日提交的欧洲申请20203276.9(参考号：D20041EP)，这些申请在此通过引用将其并入本文。

[0003]本公开总体上涉及音频混合领域。具体地，本公开涉及用于使用机器学习模型或系统在波形域中进行自动多轨道混音的技术，并且涉及用于训练这种机器学习模型或系统的框架。

技术介绍

[0004]一般来说，从音乐想法的原始种子到最终录制的产品的历程涉及许多不同的步骤，从音乐听众的角度来看，这些步骤往往并不明显。这一过程通常涉及扮演独特角色的多个不同个人的协作，每个人都有其自己的技能和专长，诸如词曲作者、音乐家、制作人以及录...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统，其中，所述系统包括：基于深度学习的第一网络的一个或多个实例；和基于深度学习的第二网络的一个或多个实例，其中，所述第一网络被配置为基于所述输入音频轨道生成用于在所述自动多轨道混音中使用的参数；并且其中，所述第二网络被配置为基于所述参数将信号处理和至少一个混音增益应用于所述输入音频轨道，以用于生成所述音频轨道的输出混音。2.根据权利要求1所述的系统，其中，所述输出混音是立体声混音。3.根据权利要求1或2所述的系统，其中，所述第一网络和所述第二网络被分开训练，并且其中，基于预训练的第二网络来训练所述第一网络。4.根据前述权利要求中任一项所述的系统，其中，所述第一网络的实例的数量和/或所述第二网络的实例的数量是根据所述输入音频轨道的数量确定的。5.根据前述权利要求中任一项所述的系统，其中，所述第一网络包括：第一级；和第二级；并且其中，由所述第一网络生成所述参数包括：由所述第一级将所述输入音频轨道中的每一个映射到相应的特征空间表示中；以及由所述第二级基于所述特征空间表示生成用于由所述第二网络使用的参数。6.根据权利要求5所述的系统，其中，由所述第二级生成用于由所述第二网络使用的所述参数包括：基于所述输入音频轨道的所述特征空间表示生成组合表示；以及基于所述组合表示生成用于由所述第二网络使用的参数。7.根据权利要求6所述的系统，其中，生成所述组合表示涉及对所述输入音频轨道的所述特征空间表示的平均处理。8.根据前述权利要求中任一项所述的系统，其中，所述第一网络是基于至少一个损失函数来训练的，所述至少一个损失函数指示音频轨道的预先确定的混音与对所述预先确定的混音的相应的预测之间的差异。9.根据前述权利要求中任一项所述的系统，其中，所述第一网络通过以下操作被训练：获得至少一个第一训练集作为输入，其中，所述第一训练集包括音频轨道的多个子集、以及对于每个子集，所述子集中的所述音频轨道的相应的预先确定的混音；将所述第一训练集输入到所述第一网络；以及迭代地训练所述第一网络以预测所述训练集中的所述子集的所述音频轨道的相应的混音，其中，训练是基于至少一个第一损失函数的，所述至少一个第一损失函数指示所述音频轨道的所述预先确定的混音与对所述预先确定的混音的相应的预测之间的差异。10.根据权利要求9所述的系统，其中，所述音频轨道的预测混音是立体声混音，并且其中，所述第一损失函数是立体声损失函数，并且以所述第一损失函数在左声道和右声道的重新分配下不变的方式构造。
11.根据权利要求9或10所述的系统，其中，训练所述第一网络以预测所述音频轨道的所述混音包括，对于音频轨道的每个子集：由所述第一网络根据音频轨道的所述子集生成多个预测参数；将所述预测参数馈送到所述第二网络；以及由所述第二网络基于所述预测参数和音频轨道的所述子集生成对音频轨道的所述子集的所述混音的预测。12.根据前述权利要求中任一项所述的系统，其中，所述第二网络的实例的数量等于所述输入音频轨道的数量，其中，所述第二网络被配置为基于所述参数的至少一部分来对相应的输入音频轨道执行信号处理，以生成相应的经处理输出，其中，所述经处理输出包括左声道和右声道，并且其中，所述输出混音是基于所述经处理输出生成的。13.根据权利要求12所述的系统，其中，所述系统还包括路由组件，其中，所述路由组件被配置为基于所述经处理输出生成多个中间立体声混音，并且其中，所述输出混音是基于所述中间混音生成的。14.根据权利要求13所述的系统，其中，所述第一网络被配置为进一步生成用于所述路由组件的参数。15.根据权利要求13或14所述的系统，其中，所述第二网络的所述一个或多个实例是所述第二网络的一个或多个实例的第一集合，其中，所述系统还包括所述第二网络的一个或多个实例的第二集合，并且其中，所述第二网络的一个或多个实例的所述第二集合中的实例的数量是根据所述中间混音的数量确定的。16.根据权利要求15所述的系统，其中，所述第一网络被配置为进一步生成用于所述第二网络的实例的所述第二集合的参数。17.根据权利要求15或16所述的系统，其中，所述系统被配置为基于所述中间混音进一步生成左主混音和右主混音，其中，所述系统还包括所述第二网络的实例对，并且其中，所述第二网络的实例对被配置为基于所述左主混音和所述右主混音生成所述输出混音。18.根据权利要求...

【专利技术属性】
技术研发人员：C，
申请(专利权)人：杜比国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人