【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及经由迭代说话者嵌入的端到端说话者分离。
技术介绍
1、说话者分离是根据说话者身份将输入音频流划分为同质段的过程。在具有多个说话者的环境中,说话者分离回答了“谁在何时说话”的问题,并具有多种应用,包括多媒体信息检索、说话者转向分析、音频处理和对话语音的自动转录,此处仅举几例。例如,说话者分离涉及通过下述方式来注释对话中的说话者转向的任务:识别输入音频流的第一段可归属于第一人类说话者(而不具体地识别第一人类说话者是谁),输入音频流的第二段可归属于不同的第二人类说话者(而不具体地分识别第二人类说话者是谁),输入音频流中的第三段可归属于第一人类说话者,等等。
技术实现思路
1、本公开的一个方面提供了一种计算机实现的方法,该方法当在数据处理硬件上执行时使数据处理硬件执行操作。操作包括接收与由多个说话者说出的话语相对应的输入音频信号。操作还包括将输入音频信号编码成t个时间嵌入的序列。每个时间嵌入与对应的时间步长相关联并且表示在对应的时间步长处从输入音频信号提取的语音内容。在每个与多个说话者中
...【技术保护点】
1.一种计算机实现的方法(600),所述方法当在数据处理硬件(710)上执行时使所述数据处理硬件(710)执行操作,所述操作包括:
2.根据权利要求1所述的计算机实现的方法(600),其中,所接收的输入音频信号(122)中的所述话语(120)的至少一部分是重叠的。
3.根据任一前述权利要求所述的计算机实现的方法(600),其中,当接收到所述输入音频信号(122)时,所述多个说话者(10)的数量是未知的。
4.根据任一前述权利要求所述的计算机实现的方法(600),其中,所述操作还包括:在对所述输入音频信号(122)进行编码的同时,将从
...【技术特征摘要】
【国外来华专利技术】
1.一种计算机实现的方法(600),所述方法当在数据处理硬件(710)上执行时使所述数据处理硬件(710)执行操作,所述操作包括:
2.根据权利要求1所述的计算机实现的方法(600),其中,所接收的输入音频信号(122)中的所述话语(120)的至少一部分是重叠的。
3.根据任一前述权利要求所述的计算机实现的方法(600),其中,当接收到所述输入音频信号(122)时,所述多个说话者(10)的数量是未知的。
4.根据任一前述权利要求所述的计算机实现的方法(600),其中,所述操作还包括:在对所述输入音频信号(122)进行编码的同时,将从所述输入音频信号(122)编码的所述t个时间嵌入(220)的序列投影到下采样的嵌入空间。
5.根据任一前述权利要求所述的计算机实现的方法(600),其中,在针对所述时间嵌入(220)的序列中的每个时间嵌入(220)的所述多个迭代中的每个迭代期间,确定所述对应的时间嵌入(220)包括所述单个新说话者的所述话音活动的存在的概率包括确定针对所述对应的时间嵌入(220)的可能事件类型的概率分布,所述可能事件类型包括:
6.根据权利要求5所述的计算机实现的方法(600),其中,确定针对所述对应的时间嵌入(220)的可能事件类型的所述概率分布包括:
7.根据权利要求6所述的计算机实现的方法(600),其中,在训练音频信号(122)的语料库上训练所述多类线性分类器,每个训练音频信号(122)被编码成训练时间嵌入(220)的序列,每个训练时间嵌入(220)包括相应说话者标签(350)。
8.根据任一前述权利要求所述的计算机实现的方法(600),其中,在初始迭代之后的每个迭代期间,确定所述对应的时间嵌入(220)包括所述单个新说话者的所述话音活动的存在的概率是基于在对应的迭代之前的每个迭代期间先前选择的每个其他相应说话者嵌入(240)。
9.根据任一前述权利要求所述的计算机实现的方法(600),其中,所述操作还包括在所述多个迭代中的每个迭代期间:
10.根据权利要求9所述的计算机实现的方法(600),其中,所述操作还包括:在所述多个迭代中的每个迭代期间,当所述时间嵌入(220)的序列中的与所述单个新说话者的所述话音活动的存在的所述最高概率相关联的所述对应的时间嵌入(220)的概率未能满足所述置信度阈值时,在对应的迭代期间绕过对所述相应说话者嵌入(240)的选择。
11.根据权利要求10所述的计算机实现的方法(600),其中,所述操作还包括:在所述对应的迭代期间绕过对所述相应说话者嵌入(240)的选择之后,基于在所述对应的迭代之前的迭代期间先前选择的说话者嵌入(24)的数量来确定所述多个说话者(10)的数量n。
12.根据任一前述权利要求所述的计算机实现的方法(600),其中,在每个时间步长处预测所述多个说话者(10)中的每个相应说话者的所述相应话音活动指示符(262)是基于与对应的时间步长相关联的所述时间嵌入(220)、为所述相应说话者选择的所述相应说话者嵌入(240)、以及在所述多个迭代期间选择的所有所述说话者嵌入(240)的均值。
13.根据任一前述权利要求所述的计算机实现的方法(600),其中:
14.根据任一前述权利要求所述的计算机实现的方法(600),其中,训练过程(301)在训练音频信号(122)的语料库上训练所述话音活动指示符(262),每个训练音频信号被编码成训练时间嵌入(220)的序列,每个训练时间嵌入(220)包括对应的说话者标签(350)。
15.根据权利要求14所述的计算机实现的方法(600),其中,所述训练过程(301)包括项圈感知训练过程(302),所述项圈感知训练过程去除与所述训练时间嵌入(220)中...
【专利技术属性】
技术研发人员:大卫·格朗吉耶,尼尔·泽格多尔,奥利弗·特布尔,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。