【技术实现步骤摘要】
【国外来华专利技术】用于源分离的帧级置换不变训练
[0001]相关申请的交叉引用
[0002]本申请要求以下优先权申请的优先权:2021年1月13日提交的欧洲专利申请第21151297.5号、2020年12月16日提交的美国临时申请第63/126,085号、以及2020年10月15日提交的西班牙专利申请第P202031039号,每一申请均通过引用而整体并入此。
[0003]本公开涉及音频处理领域。具体而言,本公开涉及使用深度学习模型或系统进行源分离(例如,讲话者分离)的技术,以及用于训练用于源分离的深度学习模型或系统的框架。
技术介绍
[0004]在下文中,将参考讲话者(speaker)、说话者或语音源分离作为声源分离的示例。应当理解,本公开不应被解释为限于讲话者、说话者或语音源分离,而是它通常涉及任何种类的声源分离。
[0005]语音源分离可以在深度学习(DL)框架中执行。这种框架的主要挑战之一是置换歧义问题,它可能会阻止将提取的语音帧明确归因于其中一位讲话者。这个问题可以通过执行语音源分离的基于深度学习的系统的话语级 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种训练用于声源分离的基于深度学习的系统的计算机实现的方法,其中该系统包括基于深度学习的分离级,其用于从音频信号的表示中逐帧提取声源的表示,以及聚类级,其用于为每个帧,生成在可能的分配置换中的所提取的声源表示的帧到相应声源的分配置换的估计,其中音频信号的表示是不同于频率表示的基于波形的表示,该方法包括:作为输入,获得混合音频信号的表示和至少两个参考音频信号的表示,其中表示是不同于频率表示的基于波形的表示,其中混合音频信号包括至少两个声源,并且其中参考音频信号对应于包括在混合音频信号中的声源中的相应声源;将混合音频信号的表示和至少两个参考音频信号的表示输入到分离级,并且训练分离级以如下方式从混合音频信号的表示中提取声源的表示:对于混合音频信号的表示的每一帧,差函数被最小化,其中差函数基于所提取的声源表示的帧和参考音频信号的表示的帧之间的差值,其中成对的所提取的声源表示的帧和参考音频信号的表示的帧以基于可能的分配置换之一被选择,以便取得该差值,并且其中对于每个帧,为了用于计算差函数,所提取的声源的表示和参考音频信号的表示的这种分配置换被选择为导致最小差函数,其中聚类级为每个帧生成指示相应分配置换的估计的向量;并且其中该方法还包括:输入混合音频信号的表示,并且对于混合音频信号的表示的每个帧,输入所提取的声源表示的帧以及已经对于混合音频信号的表示的相应帧被选择的分配置换的指示到聚类级,并且训练聚类级以如下方式生成指示所提取的声源表示的帧到相应声源的分配置换的向量:混合音频信号的帧的向量组之间的分离被最大化,其中帧的向量根据由这些向量指示的相应分配置换来分组,其中聚类级被训练为使得分离准则针对混合音频信号的表示的每个帧被优化;并且其中,分离准则基于向量和/或向量组之间的欧几里德距离。2.根据权利要求1所述的方法,其中差函数指示所提取的声源表示的帧与参考音频信号的表示的帧之间的差值的组合,其中对于每个提取的声源表示,差值的组合包括所提取的声源表示的帧与参考音频信号的表示的相应帧之间的差值。3.根据权利要求1或2所述的方法,其中,对于混合音频信号表示的给定帧,分离准则基于指示该帧的分配置换的向量与混合音频信号的表示的其他帧的向量组之间的欧几里德距离。4.根据权利要求1
‑
3中任一项所述的方法,其中优化分离准则对应于对于混合音频信号的表示的给定帧,最大化下式:其中e
i
是给定帧的向量,c
k
是第k分配置换的向量组的质心,P是分配置换的总数,并且d(
‑
,
‑
)是平方欧几里德距离。5.根据前述任一权利要求所述的方法,其中该系统还包括用于将混合音频信号变换为混合音频信号的表示的变换级;以及其中混合音频信号被变换到信号空间,该信号空间是不同于频域的基于波形的信号空间。
6.根据权利要求1至5中任一项所述的方法,其中,所述系统还包括变换级,用于将混合音频信号变换为混合音频信号的表示;并且其中所述变换涉及至少以下之一:将混合音频信号在时域分割成多个帧;基于深度学习的编码,用于将混合音频信号投射到针对声源分离优化的潜在特征空间;Mel空间编码;以及基于深度学习的问题不可知语音编码。7.根据前述任一权利要求所述的方法,其中混合音频信号的表示涉及将混合音频信号分割成波形帧;其中分离级被训练为对于混合音频信号的每一帧,以最小化如下损失函数的方式从混合音频信号的帧中确定所提取的声源的帧,其中t指示帧,l指示帧内样本数,L为帧内样本总数,n为所提取声源的标签,N为所提取声源的总数,est表示所提取声源的一帧,ref表示一帧参考音频信号,Π
k
(n)是对于标签n=1,...,N的置换...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。