用于讲话者无关的多讲话者语音分离的置换不变训练制造技术

技术编号:20290445 阅读:23 留言:0更新日期:2019-02-10 20:41
本文描述的技术改进了使计算设备能够在与讲话者无关的多讲话者场景中进行自动语音识别(“ASR”)的方法。在一些示例中,深度学习模型的置换不变训练可以用于与讲话者无关的多个讲话者场景。在一些示例中,该技术可以确定模型对源信号的估计与源信号之间的置换考虑的分配。在一些示例中,该技术可以包括训练生成估计的模型以最小化置换考虑的分配的偏差。这些技术可以实现为神经网络的结构本身,解决了标签置换问题,标签置换问题阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源追踪以在混合信号的帧中追踪源自相同源的流。

【技术实现步骤摘要】
【国外来华专利技术】用于讲话者无关的多讲话者语音分离的置换不变训练
技术介绍
近年来,由于在最近的ASR系统中利用的深度学习技术,自动语音识别(“ASR”)系统的准确性得到显着改善。2010年,广泛接受的Switchboard会话转录基准任务的单词错误率(WER)超过20%,2016年,由于深度学习的发展,它已降至7%以下。尽管在指示单个说话者语音方面已经取得了令人印象深刻的进步,但是多讲话者混合语音分离、追踪和识别的ASR的进步(通常被称为鸡尾酒会问题)已经不那么令人印象深刻了。尽管人类听众可以容易地感知声学混合物中的单独源,但是对于自动计算系统来说同样的任务似乎是困难的,尤其是当仅有混合语音的单通道可用时。当前的解决方案受限于仅用于闭集讲话者,不能随着增加的说话者或词汇量而扩展;只分离高度不同的信号(例如,将音乐与讲话者分开)而不是分离类似信号(诸如多个讲话者)的更困难的任务;依赖于取决于讲话者的模型,这些模型需要在训练时标识讲话者并从讲话者那里收集数据,从而导致有限的词汇、语法和讲话者集合;假设时频区间(bins)仅属于一个扬声器;或者具有不可共同训练的部分,因此限制了系统性能。
技术实现思路
提供本
技术实现思路
是为了介绍与用于讲话者无关的多讲话者语音分离的置换不变训练有关的简化概念。本
技术实现思路
不旨在标识所要求保护的户数方案的必要特征,也不旨在用于确定所要求保护的技术方案的范围。本文描述的技术使计算设备能够在与讲话者无关的多个讲话者场景中进行自动语音识别(“ASR”),这意味着这些技术能够检测混合信号的部分并将其归因于多个讲话者中对该混合信号有贡献的讲话者。无论这些技术之前是否先前已接收过与讲话者有关的数据,无论是在训练中还是在评估的早期。换句话说,这里描述的技术使得ASR能够用于多个讲话者,并且即使在语音重叠时,甚至当讲话者从信号中消失或者先前未遇到的讲话者出现时也是如此。通过本文讨论的技术启用计算设备的场景的示例包括自动会议和讲座转录;音频/视频录制的自动字幕;多方人机交互(例如,在物联网(IoT)世界中),其中通常观察到语音重叠;等。这对于信号增强技术(诸如,例如,智能助听器可以将特定信号从混合物隔离并增强、削减或以其他方式修改特定信号)、信号检测和增强、现场音频制作等等也很重要。在一些示例中,本文讨论的技术包括深度学习模型的置换不变训练。这里讨论的技术克服了先前尝试解决标签模糊或标签置换问题的缺点和局限性。例如,先前的尝试通常在每个时间频率上利用在平行组的混合物上训练的深度学习模型及其组成目标源来预测属于目标类的源。这些先前的尝试将讲话者与多个讲话者隔离的方式受到严重限制,因为他们依赖于讲话者相关的模型,假设在训练时间期间讲话者是已知的,这导致在评估时间闭集目标说话者并且通常仅对有限的词汇和语法起作用。先前的尝试也基于信号的瞬时能量来分配标签,这是有问题的,因为如果讲话者移动到不同的位置,如果讲话者面向的方向改变,或者如果讲话者讲话更大声或更温和,则讲话者的瞬时能量可以改变。本文所讨论的技术采用用于语音分离的深度学习模型的置换不变训练(“PIT”,也是在上下文中训练的置换不变性),其用于多个讲话者信号中的独立讲话者。与其中第一生成信号估计被视为可归因于第一信号源的将语音分离视为多级回归、分段或聚类问题的先前解决方案不同,本文所讨论的技术优化了分离回归误差(即偏差)的深度学习模型,忽略混合源的顺序。换句话说,对适当信号源的神经网络的给定输出可以变化,意味着在神经网络的输出和适当的信号源之间可能存在许多可能匹配的置换(即,S!可能的置换,其中S是信号源的数目)。具体地,这里讨论的技术可以首先确定最佳输出-目标分配,并且然后最小化最佳输出-目标分配的偏差(例如,误差)(其中“输出”是指深度学习模型的输出,以用于试图隔离特定“目标”源的特定源信号)。这些技术可以在神经网络的结构本身内实现,解决了标签置换问题,阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源(例如,讲话者、噪声)追踪,其与本文讨论的PIT深度学习模型一起工作,以通过混合信号的多个帧来追踪源自相同源的流。换句话说,这里讨论的技术可以补偿训练标签中的置换。这里讨论的技术提高了计算设备从混合信号(诸如,例如来自多个相等或接近相等的语音信号的语音信号)中分离信号的能力。这些技术改善了用于分离语音的深度学习模型的性能,包括提高独立讲话者和多讲话者场景的深度学习模型的准确性,减少计算时间,以及为包括两个或更多信号源的场景提供可扩展性。这些技术还通过提高ASR的准确性来改善人机交互,这使得计算设备能够将人类可理解的语音转换成机器可读或机器可执行的指令或信号。附图说明参考附图描述了详细描述。在附图中,附图标记的最左边的数字标识首次出现附图标记的图。不同图中的相同附图标记表示相似或相同的项。图1是描绘示例设备的框图,其中用于讲话者无关的多讲话者场景的深度学习模型的置换不变训练(“PIT”)的示例可以操作。图2A和图2B是描绘用于与讲话者无关的多讲话者场景的深度学习模型的PIT的示例系统和过程的框图。图3A和图3B描绘了具有1的帧移位的双源情况的分配顺序。图4A和图4B是示出了进行神经网络的PIT的示例过程的流程图。图5是示出了进行神经网络的PIT的示例过程的流程图。图6是示出了进行神经网络的PIT的示例过程的流程图。图7是示出了进行神经网络的PIT的示例过程的流程图。图8是示出了进行PIT语音分离的示例过程的流程图。具体实施方式概述在一些示例中,本公开可以使计算设备能够针对与讲话者无关的多讲话者场景进行深度学习模型的置换不变训练(“PIT”)。在一些示例中,这里讨论的技术提高了从混合信号(诸如,例如来自多个相等或接近相等的语音信号的语音信号)中分离信号的计算设备的能力,与从不同类型的音频信号(例如,从音乐分离语音,从机械噪声分离语音,从一般背景噪声分离语音)或从非常不同的语音(例如,从高语音寄存器内的语音分离深语音寄存器内的语音)分离语音信号相比,这些语音信号更难分离。在一些示例中,本文讨论的技术可以改善用于分离语音的深度学习模型的性能,包括提高针对独立讲话者和多讲话者场景的深度学习模型的准确性,减少计算时间,以及为包括两个信号源的场景提供可伸缩性。在一些示例中,本文所讨论的技术还通过提高自动语音识别(“ASR”)的准确性来改善人机交互,这使得计算设备能够将人类可理解的信号转换为机器可读或机器可执行指令和/或信号。这里讨论的技术还允许ASR继续前进,克服由先前解决方案产生的不准确的训练数据引起的ASR进展的停止,该解决方案抑制了对神经网络的进一步训练。在一些示例中,本文描述的技术使计算设备能够在与讲话者无关的多个讲话者场景中进行ASR,这意味着这些技术能够从多个讲话者中检测混合信号的部分并将其归因于多个讲话者中对混合信号有贡献的讲话者,无论这些技术之前是否曾接收过与讲话者相关的数据,无论是在训练中还是在评估的早期。换句话说,这里描述的技术使得ASR能够用于多个讲话者,即使在语音重叠时,甚至当讲话者从信号中消失或者先前未遇到的讲话者出现时也是如此。通过本文讨论的技术启用计算设备的场景的示例包括自动会议和讲座转录;音频/视频录制的自动字幕;多方人机交互(本文档来自技高网...

【技术保护点】
1.一种训练用于从混合信号中分离源信号的模型的方法,所述方法包括:通过所述模型,从所述混合信号生成输出层,所述输出层是所述源信号的估计;确定要分配给所述输出层的标签的分配顺序,个体标签与个体源信号相关联,并且所述分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数;和优化所述模型的模型参数以最小化所确定的所述分配顺序的总偏差分数。

【技术特征摘要】
【国外来华专利技术】2016.05.19 US 62/339,061;2016.08.02 US 15/226,5271.一种训练用于从混合信号中分离源信号的模型的方法,所述方法包括:通过所述模型,从所述混合信号生成输出层,所述输出层是所述源信号的估计;确定要分配给所述输出层的标签的分配顺序,个体标签与个体源信号相关联,并且所述分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数;和优化所述模型的模型参数以最小化所确定的所述分配顺序的总偏差分数。2.根据权利要求1所述的方法,其中确定所述标签的所述分配顺序包括:计算所述个体输出层和所述源信号之间的一组成对偏差;计算针对可能的分配顺序的总偏差分数,针对可能的分配顺序的总偏差分数包括所述个体输出层和根据所述可能的分配顺序与所述个体输出层相对应的所述个体源信号的相应对之间的所述成对偏差的总和;和至少部分地基于与所述分配顺序相关联的总偏差分数是所述总偏差分数中的最小总偏差分数,从所述可能的分配顺序中选择所述分配顺序。3.很据权利要求1或2所述的方法,针对分配顺序的所述总偏差分数包括所述个体输出源和根据所述分配顺序与所述个体输出源相关联的所述个体源信号之间的总均方误差。4.根据权利要求1所述的方法,还包括:选择针对所述混合信号、输出层和源信号的多个窗口的分配顺序;记录针对所述多个窗口的所述分配顺序;和至少部分地基于针对所述多个窗口的分配顺序的记录,追踪混合信号的多个帧中的可归因于信号产生源的源信号。5.根据权利要求4所述的方法,其中追踪可归因于信号产生源的所述源信号包括:标识被包括在窗口中的所述混合信号的所述多个帧的帧的子集,所述窗口具有通过相应的分配顺序与所述源信号相关联的中心帧。6.根据权利要求5所述的方法,还包括:获得与所述输出层的第一元帧相关联的第一最小总偏差;获得与所述输出层的第二元帧相关联的第二最小总偏差;计算所述输出层的嵌入的相似度分数;和至少部分地基于所述第一最小总偏差或者所述第二最小总偏差和所述相似度分数来确定针对所述第一元帧或者所述第一元帧的中心帧的分配顺序。7.根据权利要求1所述的方法,还包括:至少部分地基于针对所述混合信号、输出层和源信号的多个帧的分配顺序来估计分离的源信号,其中估计包括:对于可归因于所述源信号的...

【专利技术属性】
技术研发人员:俞栋
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1