用于讲话者无关的多讲话者语音分离的置换不变训练制造技术

技术编号：20290445 阅读：23 留言：0更新日期：2019-02-10 20:41

本文描述的技术改进了使计算设备能够在与讲话者无关的多讲话者场景中进行自动语音识别(“ASR”)的方法。在一些示例中，深度学习模型的置换不变训练可以用于与讲话者无关的多个讲话者场景。在一些示例中，该技术可以确定模型对源信号的估计与源信号之间的置换考虑的分配。在一些示例中，该技术可以包括训练生成估计的模型以最小化置换考虑的分配的偏差。这些技术可以实现为神经网络的结构本身，解决了标签置换问题，标签置换问题阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源追踪以在混合信号的帧中追踪源自相同源的流。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于讲话者无关的多讲话者语音分离的置换不变训练
技术介绍
近年来，由于在最近的ASR系统中利用的深度学习技术，自动语音识别(“ASR”)系统的准确性得到显着改善。2010年，广泛接受的Switchboard会话转录基准任务的单词错误率(WER)超过20％，2016年，由于深度学习的发展，它已降至7％以下。尽管在指示单个说话者语音方面已经取得了令人印象深刻的进步，但是多讲话者混合语音分离、追踪和识别的ASR的进步(通常被称为鸡尾酒会问题)已经不那么令人印象深刻了。尽管人类听众可以容易地感知声学混合物中的单独源，但是对于自动计算系统来说同样的任务似乎是困难的，尤其是当仅有混合语音的单通道可用时。当前的解决方案受限于仅用于闭集讲话者，不能随着增加的说话者或词汇量而扩展；只分离高度不同的信号(例如，将音乐与讲话者分开)而不是分离类似信号(诸如多个讲话者)的更困难的任务；依赖于取决于讲话者的模型，这些模型需要在训练时标识讲话者并从讲话者那里收集数据，从而导致有限的词汇、语法和讲话者集合；假设时频区间(bins)仅属于一个扬声器；或者具有不可共同训练的部分，因此限制了系统性能。
技术实现思路
提供本
技术实现思路
是为了介绍与用于讲话者无关的多讲话者语音分离的置换不变训练有关的简化概念。本
技术实现思路
不旨在标识所要求保护的户数方案的必要特征，也不旨在用于确定所要求保护的技术方案的范围。本文描述的技术使计算设备能够在与讲话者无关的多个讲话者场景中进行自动语音识别(“ASR”)，这意味着这些技术能够检测混合信号的部分并将其归因于多个讲话者中对该混合信号有贡献的讲话者。无论这些技术之前是...

【技术保护点】
1.一种训练用于从混合信号中分离源信号的模型的方法，所述方法包括：通过所述模型，从所述混合信号生成输出层，所述输出层是所述源信号的估计；确定要分配给所述输出层的标签的分配顺序，个体标签与个体源信号相关联，并且所述分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数；和优化所述模型的模型参数以最小化所确定的所述分配顺序的总偏差分数。

【技术特征摘要】
【国外来华专利技术】2016.05.19 US 62/339,061;2016.08.02 US 15/226,5271.一种训练用于从混合信号中分离源信号的模型的方法，所述方法包括：通过所述模型，从所述混合信号生成输出层，所述输出层是所述源信号的估计；确定要分配给所述输出层的标签的分配顺序，个体标签与个体源信号相关联，并且所述分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数；和优化所述模型的模型参数以最小化所确定的所述分配顺序的总偏差分数。2.根据权利要求1所述的方法，其中确定所述标签的所述分配顺序包括：计算所述个体输出层和所述源信号之间的一组成对偏差；计算针对可能的分配顺序的总偏差分数，针对可能的分配顺序的总偏差分数包括所述个体输出层和根据所述可能的分配顺序与所述个体输出层相对应的所述个体源信号的相应对之间的所述成对偏差的总和；和至少部分地基于与所述分配顺序相关联的总偏差分数是所述总偏差分数中的最小总偏差分数，从所述可能的分配顺序中选择所述分配顺序。3.很据权利要求1或2所述的方法，针对分配顺序的所述总偏差分数包括所述个体输出源和根据所述分配顺序与所述个体输出源相关联的所述个体源信号之间的总均方误差。4.根据权利要求1所述的方法，还包括：选择针对所述混合信号、输出层和源信号的多个窗口的分配顺序；记录针对所述多个窗口的所述分配顺序；和至少部分地基于针对所述多个窗口的分配顺序的记录，追踪混合信号的多个帧中的可归因于信号产生源的源信号。5.根据权利要求4所述的方法，其中追踪可归因于信号产生源的所述源信号包括：标识被包括在窗口中的所述混合信号的所述多个帧的帧的子集，所述窗口具有通过相应的分配顺序与所述源信号相关联的中心帧。6.根据权利要求5所述的方法，还包括：获得与所述输出层的第一元帧相关联的第一最小总偏差；获得与所述输出层的第二元帧相关联的第二最小总偏差；计算所述输出层的嵌入的相似度分数；和至少部分地基于所述第一最小总偏差或者所述第二最小总偏差和所述相似度分数来确定针对所述第一元帧或者所述第一元帧的中心帧的分配顺序。7.根据权利要求1所述的方法，还包括：至少部分地基于针对所述混合信号、输出层和源信号的多个帧的分配顺序来估计分离的源信号，其中估计包括：对于可归因于所述源信号的...

【专利技术属性】
技术研发人员：俞栋，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人