【技术实现步骤摘要】
【国外来华专利技术】用于讲话者无关的多讲话者语音分离的置换不变训练
技术介绍
近年来,由于在最近的ASR系统中利用的深度学习技术,自动语音识别(“ASR”)系统的准确性得到显着改善。2010年,广泛接受的Switchboard会话转录基准任务的单词错误率(WER)超过20%,2016年,由于深度学习的发展,它已降至7%以下。尽管在指示单个说话者语音方面已经取得了令人印象深刻的进步,但是多讲话者混合语音分离、追踪和识别的ASR的进步(通常被称为鸡尾酒会问题)已经不那么令人印象深刻了。尽管人类听众可以容易地感知声学混合物中的单独源,但是对于自动计算系统来说同样的任务似乎是困难的,尤其是当仅有混合语音的单通道可用时。当前的解决方案受限于仅用于闭集讲话者,不能随着增加的说话者或词汇量而扩展;只分离高度不同的信号(例如,将音乐与讲话者分开)而不是分离类似信号(诸如多个讲话者)的更困难的任务;依赖于取决于讲话者的模型,这些模型需要在训练时标识讲话者并从讲话者那里收集数据,从而导致有限的词汇、语法和讲话者集合;假设时频区间(bins)仅属于一个扬声器;或者具有不可共同训练的部分,因此限制了系统性能。专利 ...
【技术保护点】
1.一种训练用于从混合信号中分离源信号的模型的方法,所述方法包括:通过所述模型,从所述混合信号生成输出层,所述输出层是所述源信号的估计;确定要分配给所述输出层的标签的分配顺序,个体标签与个体源信号相关联,并且所述分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数;和优化所述模型的模型参数以最小化所确定的所述分配顺序的总偏差分数。
【技术特征摘要】
【国外来华专利技术】2016.05.19 US 62/339,061;2016.08.02 US 15/226,5271.一种训练用于从混合信号中分离源信号的模型的方法,所述方法包括:通过所述模型,从所述混合信号生成输出层,所述输出层是所述源信号的估计;确定要分配给所述输出层的标签的分配顺序,个体标签与个体源信号相关联,并且所述分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数;和优化所述模型的模型参数以最小化所确定的所述分配顺序的总偏差分数。2.根据权利要求1所述的方法,其中确定所述标签的所述分配顺序包括:计算所述个体输出层和所述源信号之间的一组成对偏差;计算针对可能的分配顺序的总偏差分数,针对可能的分配顺序的总偏差分数包括所述个体输出层和根据所述可能的分配顺序与所述个体输出层相对应的所述个体源信号的相应对之间的所述成对偏差的总和;和至少部分地基于与所述分配顺序相关联的总偏差分数是所述总偏差分数中的最小总偏差分数,从所述可能的分配顺序中选择所述分配顺序。3.很据权利要求1或2所述的方法,针对分配顺序的所述总偏差分数包括所述个体输出源和根据所述分配顺序与所述个体输出源相关联的所述个体源信号之间的总均方误差。4.根据权利要求1所述的方法,还包括:选择针对所述混合信号、输出层和源信号的多个窗口的分配顺序;记录针对所述多个窗口的所述分配顺序;和至少部分地基于针对所述多个窗口的分配顺序的记录,追踪混合信号的多个帧中的可归因于信号产生源的源信号。5.根据权利要求4所述的方法,其中追踪可归因于信号产生源的所述源信号包括:标识被包括在窗口中的所述混合信号的所述多个帧的帧的子集,所述窗口具有通过相应的分配顺序与所述源信号相关联的中心帧。6.根据权利要求5所述的方法,还包括:获得与所述输出层的第一元帧相关联的第一最小总偏差;获得与所述输出层的第二元帧相关联的第二最小总偏差;计算所述输出层的嵌入的相似度分数;和至少部分地基于所述第一最小总偏差或者所述第二最小总偏差和所述相似度分数来确定针对所述第一元帧或者所述第一元帧的中心帧的分配顺序。7.根据权利要求1所述的方法,还包括:至少部分地基于针对所述混合信号、输出层和源信号的多个帧的分配顺序来估计分离的源信号,其中估计包括:对于可归因于所述源信号的...
【专利技术属性】
技术研发人员:俞栋,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。