使用说话者嵌入和所训练的生成模型的说话者日志制造技术

技术编号：27092768 阅读：21 留言：0更新日期：2021-01-25 18:27

说话者日志技术，使得能够处理音频数据以生成音频数据的一个或多个细化版本，其中，音频数据的每个细化版本分离单个相应的人类说话者的一个或多个话语。各种实现方式通过以下来生成分离单个人类说话者的话语的音频数据的细化版本：为单个人类说话者生成说话者嵌入，并且使用所训练的生成模型来处理音频数据，以及在处理期间，在确定所训练的生成模型的隐藏层的激活中使用说话者嵌入。基于该处理，在所训练的生成模型上生成输出，并且该输出是音频数据的细化版本。出是音频数据的细化版本。出是音频数据的细化版本。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用说话者嵌入和所训练的生成模型的说话者日志

技术介绍

[0001]说话者日志(diarization)是根据说话者身份，将输入音频流分成同质分段(segment)的过程。回答了在多说话者环境中“谁在何时说话”的问题。例如，可以利用说话者日志来标识输入音频流的第一分段可归因于第一人类说话者(没有特别地标识谁是第一人类说话者)、输入音频流的第二分段可归因于不同的第二人类说话者(没有特别地标识谁是第一人类说话者)、输入音频流的第三分段可归因于第一人类说话者等等。说话者日志具有广泛的应用，包括多媒体信息检索、说话者轮次分析和音频处理。
[0002]典型的说话者日志系统通常包括四个步骤：(1)语音分段，其中，将输入音频分段为假定具有单个说话者的短片段(section)，并且过滤掉非语音片段；(2)音频嵌入提取，其中，从分段的片段中提取特定特征；(3)聚类，其中，确定说话者的数量，并且将所提取的音频嵌入聚类成这些说话者；以及可选地，(4)再分段，其中，进一步细化聚类结果以生成最终的日志结果。
[0003]利用这种典型的说话者日志系统，日志不能准确地识别在给定分段期间多个说话者说话的发生。相反，这样的典型系统将给定分段归因于仅一个说话者，或者不能将给定分段归因于任何说话者。这导致不正确的日志，并且可能对可能依赖于日志结果的其他应用生成不利影响。
[0004]而且，利用这样的典型的说话者系统，在每个步骤中都会引入错误，并且会传播到其他步骤，由此导致错误的日志结果，从而不利地影响可能依赖于错误的日志结果的其他应用。例如，由于长分段的低...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法，所述方法包括：生成针对人类说话者的说话者嵌入，其中，生成针对人类说话者的说话者嵌入包括：使用所训练的说话者嵌入模型来处理与所述人类说话者相对应的一个或多个说话者音频数据实例，以及基于一个或多个输出实例生成所述说话者嵌入，每个输出实例基于使用所训练的说话者嵌入模型来处理所述一个或多个说话者音频数据实例中的相应实例而生成；接收音频数据，所述音频数据捕获所述人类说话者的一个或多个话语，并且还捕获不是来自所述人类说话者的一个或多个附加声音；生成所述音频数据的细化版本，其中，所述音频数据的细化版本将所述人类说话者的一个或多个话语与不是来自所述人类说话者的一个或多个附加声音分离，并且其中，生成所述音频数据的细化版本包括：使用所训练的生成模型顺序地处理所述音频数据，并且在顺序地处理期间，在确定所训练的生成模型的层的激活中使用所述说话者嵌入，以及基于所述顺序地处理来顺序地生成所述音频数据的细化版本作为来自所训练的生成模型的直接输出；以及对所述音频数据的细化版本执行进一步处理，执行所述进一步处理包括以下中的一者或两者：对所述音频数据的细化版本执行语音到文本处理，以生成针对所述人类说话者的一个或多个话语的预测文本，以及基于与所述音频数据的细化版本中的音频的至少阈值水平相对应的一个或多个时间部分，将单个给定的说话者标签分配给所述音频数据的所述一个或多个时间部分。2.如权利要求1所述的方法，其中，所训练的生成模型的层包括扩张因果卷积层的堆叠，并且其中，在确定所训练的生成模型的层的激活中使用所述说话者嵌入包括：在所述顺序地处理中，在确定所述因果卷积层的激活中使用所述说话者嵌入。3.如权利要求1所述的方法，其中，所述音频数据经由客户端设备的一个或多个麦克风而被捕获，并且其中，生成针对所述人类说话者的说话者嵌入发生在经由所述客户端设备的所述一个或多个麦克风捕获所述音频数据的至少一部分之后。4.如权利要求3所述的方法，其中，在生成所述说话者嵌入中使用的一个或多个说话者音频数据实例包括基于所述音频数据的实例，并且进一步包括：基于来自在所述音频数据中的语音活动检测的初始发生的实例来识别所述实例。5.如权利要求4所述的方法，进一步包括：确定与所述一个或多个附加声音的附加人类说话者相对应的音频数据的附加部分，其中，确定所述附加部分是基于来自所述音频数据中的语音活动检测的附加发生并且不与所述音频数据的细化版本中的音频的至少阈值水平相对应的附加部分；生成针对所述附加人类说话者的附加说话者嵌入，其中，生成针对所述附加人类说话者的附加说话者嵌入是基于使用所训练的说话者嵌入模型来处理所述音频数据的所述附加部分；生成所述音频数据的附加细化版本，其中，所述音频数据的所述附加细化版本将所述附加人类说话者的一个或多个附加说话者话语与所述人类说话者的一个或多个话语分离
并且与不是来自所述附加人类说话者的一个或多个附加声音中的任何一个分离，并且其中，生成所述音频数据的附加细化版本包括：使用所训练的生成模型顺序地处理所述音频数据，并且在顺序地处理期间，在确定所训练的生成模型的层的激活中使用所述附加说话者嵌入，以及基于所述顺序地处理来顺序地生成所述音频数据的附加细化版本作为来自所训练的生成模型的直接输出；对所述音频数据的附加细化版本执行进一步处理。6.如权利要求1所述的方法，其中，音频数据序列经由客户端设备的一个或多个麦克风而被捕获，并且其中，生成针对所述人类说话者的说话者嵌入发生在经由所述客户端设备的所述一个或多个麦克风捕获所述音频数据序列之前。7.如权利要求6所述的方法，其中，在生成所述说话者嵌入中处理的所述说话者音频数据包括在利用数字系统注册期间由所述人类说话者说出的一个或多个注册话语。8.如权利要求7所述的方法，其中，所述说话者嵌入在利用所述数字系统注册期间被本地存储在所述客户端设备处，并且其中，所述说话者嵌入被用在基于经由所述客户端设备捕获的所述音频数据序列来生成所述音频数据序列的细化版本中。9.如权利要求8所述的方法，其中，针对附加人类说话者的附加嵌入在利用所述数字系统进行所述附加人类说话者的附加注册期间被本地存储在所述客户端设备处，并且进一步包括：基于在所述客户端设备处捕获的指示所述人类说话者当前正在与所述客户端设备交互的传感器数据，选择所述嵌入来代替所述附加嵌入。10.如权利要求9所述的方法，其中，所述传感器数据是在所述音频数据序列之前的附加音频数据，其中，所述附加音频数据是用于调用所述数字系统的调用短语，并且其中，所述附加音频数据基于与所述人类说话者相对应的所述附加音频数据指示所述人类说话者当前正在与所述客户端设备交互。11.如权利要求1所述的方法，其中，所述音频数据经由自动助理的自动助理界面而被接收，其中，执行进一步处理包括：对所述音频数据的细化版本执行语音到文本处理，以生成针对所述人类说话者的一个或多个话语的预测文本，并且进一步包括：基于所述预测文本生成响应内容；以及使得所述响应内容经由所述自动助理...

【专利技术属性】
技术研发人员：伊格纳西奥，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人