【技术实现步骤摘要】
【国外来华专利技术】按讲话者进行语音识别的目标话音分离
技术介绍
[0001]自动助理(也称为“个人助理”、“移动助理”等)可以由用户经由诸如智能电话、平板计算机、可穿戴设备、汽车系统、独立个人助理设备等的各种客户端设备与之交互。自动助理从用户接收包括口语自然语言输入(即,话语)的输入并且可以通过执行动作、通过控制另一设备和/或提供响应内容(例如,可视和/或可听自然语言输出)来响应。经由客户端设备与之交互的自动助理可以经由客户端设备它本身和/或经由与客户端设备网络通信的一个或多个远程计算设备(例如,云中的计算设备)来实现。
[0002]自动助理可以将与用户的口语话语相对应的音频数据转换成对应的文本(或其它语义表示)。例如,可以基于经由包括自动助理的客户端设备的一个或多个麦克风对用户的口语话语的检测来生成音频数据。自动助理可以包括语音识别引擎,该语音识别引擎试图识别在音频数据中捕获的口语话语的各种特性,诸如由口语话语产生的声音(例如,音素)、发音声音的次序、语音的韵律、语调等。此外,语音识别引擎能够标识由此类特性表示的文本词或短语。自动助理然后可以在针对口语话语确 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:接收音频数据,所述音频数据捕获人类讲话者的话语并且还捕获不是来自所述人类讲话者的一个或多个附加声音;用自动语音识别(“ASR”)引擎的频率变换部分来处理所述音频数据以生成所述音频数据的频率表示;生成所述频率表示的修正版本,所述修正版本包括所述频率表示的与所述话语相对应的一个或多个部分,并且所述修正版本排除所述频率表示的捕获所述一个或多个附加声音的一个或多个其它部分,并且其中,生成所述频率表示的所述修正版本包括:使用话音滤波器模型来处理所述频率表示和讲话者嵌入以生成以所述频率表示和所述讲话者嵌入两者为条件的预测遮罩,其中,所述讲话者嵌入对应于所述人类讲话者;通过使用所述预测遮罩处理所述频率表示来生成所述频率表示的所述修正版本;以及使用所述ASR引擎的语音识别部分来处理所述频率表示的所述修正版本以生成所述人类讲话者的所述话语的文本表示。2.根据权利要求1所述的方法,其中,用所述ASR引擎的所述频率变换部分来处理所述音频数据以生成所述音频数据的所述频率表示进一步包括:使用所述ASR引擎的所述频率变换部分来处理所述音频数据以生成输出;以及使用幂律压缩过程来处理所述输出以生成所述频率表示。3.根据前述权利要求中的任一项所述的方法,进一步包括:在生成所述频率表示的所述修正版本之前,使用归一化过程来归一化所述频率表示,并且使用归一化过程来归一化所述讲话者嵌入。4.根据前述权利要求中的任一项所述的方法,其中,使用所述话音滤波器模型来处理所述频率表示和所述讲话者嵌入以生成以所述频率表示和所述讲话者嵌入两者为条件的所述预测遮罩包括:使用所述话音滤波器模型的一维卷积神经网络部分来处理所述频率表示以生成卷积输出;使用所述话音滤波器输出的单向长短期记忆模型部分来处理所述卷积输出和所述讲话者嵌入以生成递归输出;以及使用所述话音滤波器模型的前馈神经网络部分来处理所述递归输出以生成所述预测遮罩。5.根据前述权利要求中的任一项所述的方法,其中,通过使用所述预测遮罩处理所述频率表示来生成所述频率表示的所述修正版本包括:通过使用所述预测遮罩对所述频率表示进行卷积来使用所述预测遮罩处理所述频率表示。6.根据前述权利要求中的任一项所述的方法,其中,所述讲话者嵌入是通过使用讲话者嵌入模型来处理与所述人类讲话者相对应的讲话者音频数据的一个或多个实例而生成的。7.根据权利要求6所述的方法,其中,在生成所述讲话者嵌入时处理的所述讲话者音频数据包括由人类讲话者在向数字系统登记期间讲出的一个或多个登记话语。8.根据权利要求7所述的方法,其中,所述讲话者嵌入在向所述数字系统登记期间被本地存储在客户端设备处,并且其中,在生成所述音频数据的所述修正频率表示时使...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。