使用说话者嵌入和所训练的生成模型的说话者日志制造技术

技术编号:27092768 阅读:21 留言:0更新日期:2021-01-25 18:27
说话者日志技术,使得能够处理音频数据以生成音频数据的一个或多个细化版本,其中,音频数据的每个细化版本分离单个相应的人类说话者的一个或多个话语。各种实现方式通过以下来生成分离单个人类说话者的话语的音频数据的细化版本:为单个人类说话者生成说话者嵌入,并且使用所训练的生成模型来处理音频数据,以及在处理期间,在确定所训练的生成模型的隐藏层的激活中使用说话者嵌入。基于该处理,在所训练的生成模型上生成输出,并且该输出是音频数据的细化版本。出是音频数据的细化版本。出是音频数据的细化版本。

【技术实现步骤摘要】
【国外来华专利技术】使用说话者嵌入和所训练的生成模型的说话者日志

技术介绍

[0001]说话者日志(diarization)是根据说话者身份,将输入音频流分成同质分段(segment)的过程。回答了在多说话者环境中“谁在何时说话”的问题。例如,可以利用说话者日志来标识输入音频流的第一分段可归因于第一人类说话者(没有特别地标识谁是第一人类说话者)、输入音频流的第二分段可归因于不同的第二人类说话者(没有特别地标识谁是第一人类说话者)、输入音频流的第三分段可归因于第一人类说话者等等。说话者日志具有广泛的应用,包括多媒体信息检索、说话者轮次分析和音频处理。
[0002]典型的说话者日志系统通常包括四个步骤:(1)语音分段,其中,将输入音频分段为假定具有单个说话者的短片段(section),并且过滤掉非语音片段;(2)音频嵌入提取,其中,从分段的片段中提取特定特征;(3)聚类,其中,确定说话者的数量,并且将所提取的音频嵌入聚类成这些说话者;以及可选地,(4)再分段,其中,进一步细化聚类结果以生成最终的日志结果。
[0003]利用这种典型的说话者日志系统,日志不能准确地识别在给定分段期间多个说话者说话的发生。相反,这样的典型系统将给定分段归因于仅一个说话者,或者不能将给定分段归因于任何说话者。这导致不正确的日志,并且可能对可能依赖于日志结果的其他应用生成不利影响。
[0004]而且,利用这样的典型的说话者系统,在每个步骤中都会引入错误,并且会传播到其他步骤,由此导致错误的日志结果,从而不利地影响可能依赖于错误的日志结果的其他应用。例如,由于长分段的低分辨率的结果和/或由于具有不足以生成准确的音频嵌入的音频的短分段的结果,在语音分段中可能会引入错误。作为另一个示例,可以在不使用任何全局信息的情况下,在本地生成音频嵌入,这可能附加或替代地引入错误。作为又一个示例,音频嵌入的聚类可以附加地或替代地引入错误,因为它涉及假定精度低的无监督学习。

技术实现思路

[0005]本文中描述了说话者日志技术,其使得能够处理音频数据序列以生成音频数据的一个或多个细化版本,其中,音频数据的每个细化版本分离单个相应的人类说话者的一个或多个话语,从而使得能够确定音频数据序列的哪一部分对应于相应的人类说话者。例如,假设音频数据序列包括来自第一人类说话者的第一话语、来自第二人类说话者的第二话语以及各种背景噪声的发生。本文公开的实现方式可以被用来生成第一细化的音频数据,该第一细化的音频数据仅包括来自第一人类说话者的第一话语,并且排除第二话语和背景噪声。此外,可以生成第二细化的音频数据,该第二细化的音频数据仅包括来自第二人类说话者的第二话语,并且排除第一话语和背景噪声。再者,在那些实现方式中,即使当第一和第二话语中的一个或多个在音频数据序列中重叠时,也可以分离第一和第二话语。
[0006]各种实现方式生成音频数据的细化版本,该音频数据的细化版本通过为单个人类说话者生成说话者嵌入,并且使用所训练的生成模型来处理音频数据,以及在处理期间,将说话者嵌入用在确定所训练的生成模型的隐藏层的激活中,分离单个人类说话者的话语。
基于该处理,在所训练的生成模型上顺序地生成输出,并且该输出是音频数据的细化版本。
[0007]在为单个人类说话者生成说话者嵌入时,可以使用所训练的说话者嵌入模型来处理与该人类说话者相对应的一个或多个说话者音频数据实例,以生成一个或多个相应的输出实例。然后,可以基于一个或多个相应的输出实例来生成说话者嵌入。所训练的说话者嵌入模型可以是机器学习模型,诸如递归神经网络(RNN)模型,其将任何长度的相应的音频数据帧的特征序列接受为输入,并且可以用来将相应的嵌入生成为基于该输入的输出。使用所训练的说话者嵌入模型处理序列的音频数据帧的每个特征以生成相应的嵌入可以基于音频数据的相应实例的相应部分,诸如25毫秒或其他持续时间部分。音频数据帧的特征可以是例如音频数据帧的梅尔频率倒谱系数(MFCC)和/或其他特征。在所训练的说话者嵌入模型是RNN模型的情况下,RNN模型包括一个或多个存储器层,每个存储器层包括可以顺序地对其应用输入的一个或多个存储器单元,并且在所应用的输入的每次迭代中,可以利用存储器单元来基于该迭代的输入和基于(可以基于先前迭代的输入的)当前隐藏状态来计算新的隐藏状态。在一些实现方式中,存储器单元可以是长短期(LSTM)LSTM单元。在一些实现方式中,可以利用附加的或替代的存储器单元,诸如门控循环单元(“GRU”)。
[0008]作为生成用于给定说话者的说话者嵌入的一个示例,可以在注册过程期间,生成说话者嵌入,在注册过程中给定说话者说出多种话语。每个话语可以具有相同的短语(与文本相关),也可以具有不同的短语(与文本无关)。可以在说话者嵌入模型上处理与说出相应话语的给定说话者的每个实例相对应的音频数据的特征,以生成作为值的相应向量的相应输出。例如,可以处理用于第一话语的第一音频数据以生成值的第一向量,可以处理用于第二话语的第二音频数据以生成值的第二向量等等。然后,可以基于值的向量来生成说话者嵌入。例如,说话者嵌入本身可以是值的向量,诸如值的相应向量的形心或其他函数。
[0009]在利用(例如,在注册过程期间)预生成的用于给定说话者的说话者嵌入的实现方式中,本文所述的技术可以将预先生成的说话者嵌入用在生成音频数据的细化版本中,从而分离给定说话者的话语,其中,经由与注册过程相关联的客户端设备和/或数字系统(例如,自动助理),从用户接收音频数据。例如,如果经由给定用户的客户端设备接收音频数据和/或(例如,使用来自较早话语的语音指纹和/或其他生物特征验证)验证给定用户之后接收到音频数据,可以利用用于给定用户的说话者嵌入以实时地生成音频数据的细化版本。可以将这种细化版本用于各种目的,诸如细化的音频数据的语音到文本转换、验证音频数据的分段来自该用户,和/或本文所述的其他目的。
[0010]在一些附加或替代实现方式中,用在生成音频数据的细化版本中的说话者嵌入可以基于(待细化的)音频数据本身的一个或多个实例。例如,可以使用语音活动检测器(VAD)来确定音频数据中的语音活动的第一实例,以及可以将第一实例的一部分用在生成用于第一人类说话者的第一说话者嵌入中。例如,可以基于使用说话者嵌入模型,处理语音活动的第一实例的第一X(例如0.5、1.0、1.5、2.0)秒的特征,生成第一说话者嵌入(可以假定语音活动的第一实例是来自单个说话者)。例如,基于该处理生成为输出的值的向量可以被用作第一说话者嵌入。然后,可以利用第一说话者嵌入来生成音频数据的第一细化版本,其分离第一说话者的话语,如本文所述。在那些实现方式中的一些实现方式中,可以利用音频数据的第一细化版本来确定对应于第一说话者话语的音频数据的那些分段以及可以利用VAD来确定音频数据中,在那些分段之外发生的语音活动的附加实例(如果有的话)。如果确定了
附加实例,则可以使用说话者嵌入模型,基于附加实例的处理部分,为第二人类说话者生成第二说话者嵌入。然后,可以利用第二说话者嵌入来生成音频数据的第二细化版本,其分离了第二说话者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:生成针对人类说话者的说话者嵌入,其中,生成针对人类说话者的说话者嵌入包括:使用所训练的说话者嵌入模型来处理与所述人类说话者相对应的一个或多个说话者音频数据实例,以及基于一个或多个输出实例生成所述说话者嵌入,每个输出实例基于使用所训练的说话者嵌入模型来处理所述一个或多个说话者音频数据实例中的相应实例而生成;接收音频数据,所述音频数据捕获所述人类说话者的一个或多个话语,并且还捕获不是来自所述人类说话者的一个或多个附加声音;生成所述音频数据的细化版本,其中,所述音频数据的细化版本将所述人类说话者的一个或多个话语与不是来自所述人类说话者的一个或多个附加声音分离,并且其中,生成所述音频数据的细化版本包括:使用所训练的生成模型顺序地处理所述音频数据,并且在顺序地处理期间,在确定所训练的生成模型的层的激活中使用所述说话者嵌入,以及基于所述顺序地处理来顺序地生成所述音频数据的细化版本作为来自所训练的生成模型的直接输出;以及对所述音频数据的细化版本执行进一步处理,执行所述进一步处理包括以下中的一者或两者:对所述音频数据的细化版本执行语音到文本处理,以生成针对所述人类说话者的一个或多个话语的预测文本,以及基于与所述音频数据的细化版本中的音频的至少阈值水平相对应的一个或多个时间部分,将单个给定的说话者标签分配给所述音频数据的所述一个或多个时间部分。2.如权利要求1所述的方法,其中,所训练的生成模型的层包括扩张因果卷积层的堆叠,并且其中,在确定所训练的生成模型的层的激活中使用所述说话者嵌入包括:在所述顺序地处理中,在确定所述因果卷积层的激活中使用所述说话者嵌入。3.如权利要求1所述的方法,其中,所述音频数据经由客户端设备的一个或多个麦克风而被捕获,并且其中,生成针对所述人类说话者的说话者嵌入发生在经由所述客户端设备的所述一个或多个麦克风捕获所述音频数据的至少一部分之后。4.如权利要求3所述的方法,其中,在生成所述说话者嵌入中使用的一个或多个说话者音频数据实例包括基于所述音频数据的实例,并且进一步包括:基于来自在所述音频数据中的语音活动检测的初始发生的实例来识别所述实例。5.如权利要求4所述的方法,进一步包括:确定与所述一个或多个附加声音的附加人类说话者相对应的音频数据的附加部分,其中,确定所述附加部分是基于来自所述音频数据中的语音活动检测的附加发生并且不与所述音频数据的细化版本中的音频的至少阈值水平相对应的附加部分;生成针对所述附加人类说话者的附加说话者嵌入,其中,生成针对所述附加人类说话者的附加说话者嵌入是基于使用所训练的说话者嵌入模型来处理所述音频数据的所述附加部分;生成所述音频数据的附加细化版本,其中,所述音频数据的所述附加细化版本将所述附加人类说话者的一个或多个附加说话者话语与所述人类说话者的一个或多个话语分离
并且与不是来自所述附加人类说话者的一个或多个附加声音中的任何一个分离,并且其中,生成所述音频数据的附加细化版本包括:使用所训练的生成模型顺序地处理所述音频数据,并且在顺序地处理期间,在确定所训练的生成模型的层的激活中使用所述附加说话者嵌入,以及基于所述顺序地处理来顺序地生成所述音频数据的附加细化版本作为来自所训练的生成模型的直接输出;对所述音频数据的附加细化版本执行进一步处理。6.如权利要求1所述的方法,其中,音频数据序列经由客户端设备的一个或多个麦克风而被捕获,并且其中,生成针对所述人类说话者的说话者嵌入发生在经由所述客户端设备的所述一个或多个麦克风捕获所述音频数据序列之前。7.如权利要求6所述的方法,其中,在生成所述说话者嵌入中处理的所述说话者音频数据包括在利用数字系统注册期间由所述人类说话者说出的一个或多个注册话语。8.如权利要求7所述的方法,其中,所述说话者嵌入在利用所述数字系统注册期间被本地存储在所述客户端设备处,并且其中,所述说话者嵌入被用在基于经由所述客户端设备捕获的所述音频数据序列来生成所述音频数据序列的细化版本中。9.如权利要求8所述的方法,其中,针对附加人类说话者的附加嵌入在利用所述数字系统进行所述附加人类说话者的附加注册期间被本地存储在所述客户端设备处,并且进一步包括:基于在所述客户端设备处捕获的指示所述人类说话者当前正在与所述客户端设备交互的传感器数据,选择所述嵌入来代替所述附加嵌入。10.如权利要求9所述的方法,其中,所述传感器数据是在所述音频数据序列之前的附加音频数据,其中,所述附加音频数据是用于调用所述数字系统的调用短语,并且其中,所述附加音频数据基于与所述人类说话者相对应的所述附加音频数据指示所述人类说话者当前正在与所述客户端设备交互。11.如权利要求1所述的方法,其中,所述音频数据经由自动助理的自动助理界面而被接收,其中,执行进一步处理包括:对所述音频数据的细化版本执行语音到文本处理,以生成针对所述人类说话者的一个或多个话语的预测文本,并且进一步包括:基于所述预测文本生成响应内容;以及使得所述响应内容经由所述自动助理...

【专利技术属性】
技术研发人员:伊格纳西奥
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1