【技术实现步骤摘要】
【国外来华专利技术】用于分级音频源分离的系统和方法
[0001]本公开总体上涉及音频处理,并且更具体地涉及用于分级音频源分离的系统和方法。
技术介绍
[0002]随着深度学习技术的引入,源分离领域的性能得到了显著改善,尤其是在语音增强、语音分离和音乐分离领域。这些技术在源的概念被明确定义的情况下取得成功;在语音增强或分离的情况下,目标总是被定义为单个说话者的语音。然而,现实世界场景可能具有更复杂的源定义,因为在现实世界场景中,音频源分离需要考虑多个音频源,这些音频源可能并不总是被明确定义。
[0003]例如,在音乐分离任务中,确定什么构成目标源没有被明确定义。即使在比如歌声分离(其中,歌手与非嗓音背景音乐分离)的充分研究的问题中,“歌声”的定义也有些混乱。许多流行歌曲通常包含领唱声部,可能还有几个附加背景声部,有时还有附加的声音效果音轨。这是一个简单的例子,并且当考虑到具有更多种可能音色的乐器种类(比如合成器或吉他)时,确定要离析哪个特定乐器部分会变得更加困难。人们可能想更进一步把每种乐器分成唯一的音符或和弦实例。
[0004] ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种音频处理系统,所述音频处理系统包括:存储器,所述存储器被配置为存储神经网络,所述神经网络被训练为处理音频混合以输出对所述音频混合中存在的音频源的集合的至少一个子集的估计,其中,所述音频源经受对所述音频源的集合实施父子层级体系的分级约束,使得所述父子层级体系中的父音频源包括所述父音频源的一个或多个子音频源的混合,并且其中,所述子集包括至少一个父音频源和所述至少一个父音频源的至少一个子音频源;输入接口,所述输入接口被配置为接收输入音频混合;处理器,所述处理器被配置为使用所述神经网络处理所述输入音频混合,以根据所述父子层级体系提取所述音频源的子集及其相互关系的估计;以及输出接口,所述输出接口被配置为呈现提取的音频源及其相互关系。2.根据权利要求1所述的音频处理系统,其中,所述音频源的子集与所述音频源的集合的所述父子层级体系上的从根节点开始直到叶节点的路径对应。3.根据权利要求1所述的音频处理系统,其中,至少一个提取的父音频源的音频特性包括提取的至少一个子音频源的音频特性的并集,其中,音频源的音频特性包括频谱特征、环境信息、音调分量、音调噪声比值、以及倒谱峰值振幅中的一者或组合。4.根据权利要求1所述的音频处理系统,其中,所述处理器被配置为:使用所述神经网络从所述输入音频混合中仅提取与所述父子层级体系的叶节点对应的子音频源;从所述父子层级体系中提取与提取的子音频源相关联的一个或多个路径;以及通过根据所述父子层级体系的通向父节点的所述一个或多个路径混合所述子音频源,重构所述父子层级体系的父节点的至少一个父音频源。5.根据权利要求1所述的音频处理系统,其中,所述处理器还被配置为通过使用应用于不同子音频源的不同权重混合所述子音频源来对不同的音频源进行插值。6.根据权利要求1所述的音频处理系统,其中,所述输入接口被配置为接收指示目标音频源的输入数据,并且其中,所述处理器被配置为根据所述父子层级体系从所述输入音频混合中提取所述目标音频源和所述目标音频源的父音频源。7.根据权利要求6所述的音频处理系统,其中,所述输入数据包括所述父子层级体系中的节点的标签。8.根据权利要求6所述的音频处理系统,其中,所述输入数据包括查询音频信号,使得所述神经网络被训练为根据所述父子层级体系来分离最接近所述查询音频信号的子音频源和所述子音频源的父音频源。9.根据权利要求1所述的音频处理系统,其中,所述处理器与存储的实现所述音频处理系统的模块的指令联接,所述音频处理系统包括:谱图提取器模块,所述谱图提取器模块被配置为产生所述输入音频混合的帧序列的谱图;掩码确定模块,所述掩码确定模块被配置为将所述神经网络的输出形成为与在所述父子层级体系的不同等级提取的音频源对应的掩码集合,使得掩码到谱图的应用提取相应的音频源,其中,所述分级约束实施所述父子层级体系中的较高等级的掩码分派至少与所述父子层级体系中的较低等级的掩码相同量的能量;
源选择器模块,所述源选择器模块被配置为根据目标输出来选择所述掩码集合中的掩码;以及谱图逆变器模块,所述谱图逆变器模块被配置为将所选择的掩码应用于谱图以从所述输入音频混合中提取所述音频源。10.根据权利要求9所述的音频处理系统,其中,所述源选择器模块选择由所述掩码确定模块形成的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。