机器学习模型的短暂学习制造技术

技术编号:39602923 阅读:29 留言:0更新日期:2023-12-03 20:03
本文公开的实施方式涉及基于在远程系统

【技术实现步骤摘要】
【国外来华专利技术】机器学习模型的短暂学习

技术介绍

[0001](
多个
)
机器学习
(ML)
模型的联合学习是一种日益流行的用于训练
(
多个
)ML
模型的
ML
技术

在传统的联合学习中,设备上
ML
模型本地存储在用户的客户端设备上,并且全局
ML
模型,其是设备上
ML
模型的基于云的对应方,远程地存储在远程系统
(
例如,服务器集群
)。
使用设备上
ML
模型的客户端设备能够处理在客户端设备处检测到的用户输入以生成预测输出,并且能够将预测输出与地面实况输出进行比较以生成客户端梯度

此外,客户端设备能够将客户端梯度传输到远程系统

远程系统能够利用客户端梯度并且可选地在附加客户端设备处以类似方式生成的附加客户端梯度来更新全局
ML
模型的权重

远程系统能够将全局
ML
模型或全局
ML
模型的更新权重传输到客户端设备

然后客户端设备能够用全局
ML
模型替换设备上
ML
模型,或者用全局
ML
模型的更新后的权重替换设备上
ML
模型的权重,从而更新设备上
ML
模型

[0002]然而,在远程系统
(
例如,服务器群集
)
用于处理在客户端设备处检测到的用户输入的情况下,
(
多个
)ML
模型的联合学习不太适合训练
(
多个
)ML
模型

例如,假设基于云的自动语音识别
(ASR)
模型被用于为多个用户之间的基于云的视频会议生成闭路字幕文本

在该示例中,捕获多个用户之间的口头话语的音频数据通过一个或多个网络并且使用远程系统在多个用户的相应客户端设备之间传输,并且闭路字幕文本在远程系统处生成并且被传输到多个用户的相应客户端设备

因此,音频数据和闭路字幕文本可能不会被认为是任何相应客户端设备本地的,从而破坏了使用联合学习训练
(
多个
)ML
模型的隐私和安全益处

结果,需要能够以私密和安全的方式利用该数据的其它训练技术


技术实现思路

[0003]本文中公开的实施方式涉及基于在远程系统处生成的
(
多个
)
梯度的
(
多个
)
全局机器学习
(ML)
模型的短暂学习

远程系统的
(
多个
)
处理器能够从多个客户端设备接收对应客户端数据流,利用履行流水线处理对应客户端数据流以使得对应音频数据流的特定履行被执行,并且并行地利用训练流水线处理对应客户端数据流以生成一个或多个梯度,以用于使用无监督学习更新一个或多个全局
ML
模型的一个或多个全局权重

远程系统的
(
多个
)
处理器能够以基于处理对应客户端数据流生成的一个或多个梯度为基础来进一步更新一个或多个全局
ML
模型的一个或多个全局权重

一个或多个更新的全局
ML
模型和
/
或其一个或多个更新的权重能够被传输回多个客户端设备中的一个或多个

值得注意的是,对应客户端数据流不被存储或记录在远程系统的非暂时存储器中,并且对应客户端数据流在由履行流水线和
/
或训练流水线使用之后被远程系统丢弃,因此短语暂时学习

[0004]例如,假设捕获“嘿助理,天气怎么样?”的口头话语的音频数据流经由用户的给定客户端设备的一个或多个麦克风生成

在该示例中,捕获口头话语的音频数据流
(
或基于处理口头话语生成的自动语音识别
(ASR)
数据和
/
或自然语言理解
(NLU)
数据
)
可以被传输到远程系统,因为给定客户端设备需要与远程系统交互以获得响应于口头话语的天气信息

因此,远程系统能够利用履行流水线来使得特定履行基于口头话语被执行,诸如获得天气
信息并且经由给定客户端设备来提供天气信息以供呈现给用户

此外,虽然远程系统利用履行流水线以使得某个履行基于口头话语来执行,但是训练流水线也能够处理音频数据
、ASR
数据和
/

NLU
数据的流

例如,训练流水线能够处理在要训练的全局
ML
模型是全局
ASR
模型的情况下的音频数据流

在要训练的全局
ML
模型是全局
NLU
模型的情况下的
ASR
数据流
(
例如,在给定客户端设备处本地生成并且传输到远程系统,或者在远程系统处远程生成
)


此外,能够基于处理客户端数据并且使用无监督学习来生成一个或多个梯度,并且基于梯度中的一个或多个来更新全局
ML
模型的一个或多个全局权重

更新的全局
ML
模型
(
或其一个或多个全局权重
)
能够被传输回给定客户端设备,并且给定客户端设备能够替换给定客户端设备的设备上存储器中的对应设备上
ML
模型
(
或其一个或多个局部权重
)。
值得注意的是,更新的全局
ML
模型的实例还能够保留在一个或多个远程服务器上,以便随后由履行流水线用于处理附加对应客户端数据流和
/
或由训练流水线用于进一步更新更新的全局
ML
模型

[0005]尽管以上示例针对作为捕获用户的口头话语的音频数据的客户端数据来描述,但是应当理解,这出于示例的目的而不是限制性的

例如,客户端数据能够以附加地或替代地包括在给定客户端设备处生成的视觉数据或文本数据

在这些和其它实例中,基于客户端数据被更新的全局
ML
模型中的一个或多个可以对应于基于视觉的
ML
模型和
/
或基于文本的
ML
模型

此外,尽管以上示例关于作为
ASR
模型的全局
ML
模型来描述,但是应当理解,这也是出于示例的目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种由一个或多个远程服务器处的一个或多个处理器实现的方法,所述方法包括:从用户的客户端设备接收捕获所述用户的口头话语的音频数据流,所述音频数据流由所述客户端设备的一个或多个麦克风生成;处理所述音频数据流以使得所述口头话语的特定履行被执行;在所述音频数据流正在被处理以使得所述口头话语的所述特定履行被执行时:使用远程地存储在所述远程服务器中的一个或多个远程服务器处的全局机器学习
ML
模型来处理所述音频数据流以生成预测输出;基于所述预测输出使用无监督学习来生成梯度;以及丢弃所述音频数据流;以及在基于所述预测输出并且使用无监督学习来生成所述梯度之后:基于所述梯度来更新远程地存储在所述远程服务器中的一个或多个远程服务器处的所述全局
ML
模型的全局权重
。2.
根据权利要求1所述的方法,其中,处理所述音频数据流以使得所述口头话语的所述特定履行被执行包括:使用自动语音识别
ASR
模型来处理所述音频数据流以生成
ASR
数据流;使用自然语言理解
NLU
模型来处理所述
ASR
数据流以生成
NLU
数据流;以及使得所述口头话语的所述特定履行基于所述
NLU
数据流被执行
。3.
根据权利要求1或2所述的方法,还包括:在使用所述全局
ML
模型来处理所述音频数据流以生成所述预测输出之前:确定所述音频数据流是否满足一个或多个条件;以及其中,使用所述全局
ML
模型来处理所述音频数据流以生成所述预测输出响应于确定所述音频数据流满足所述一个或多个条件,或者其中,基于所述梯度来更新所述全局
ML
模型的所述全局权重响应于确定所述音频数据流满足所述一个或多个条件
。4.
根据权利要求3所述的方法,其中,确定所述音频数据流是否满足所述一个或多个条件包括:使用远程地存储在所述远程服务器处的全局基准
ML
模型来处理所述音频数据流以生成基准输出以及与所述基准输出相关联的一个或多个基准值;以及基于与所述基准输出相关联的所述一个或多个基准值来确定所述音频数据流是否满足所述一个或多个条件
。5.
根据权利要求3或4所述的方法,其中,生成所述梯度是使用无监督学习直接地基于所述预测输出的,并且其中,使用无监督学习基于所述预测输出直接地生成所述梯度包括:将使用所述全局
ML
模型生成的预测输出与使用所述全局基准
ML
模型生成的基准输出进行比较;以及基于将所述预测输出与所述基准输出进行比较来生成所述梯度
。6.
根据权利要求3所述的方法,还包括:响应于确定所述音频数据流未能满足所述一个或多个条件:丢弃所述音频数据流,而不处理音频数据流以生成预测输出
。7.
根据权利要求1至3中任一项所述的方法,其中,生成所述梯度是使用无监督学习间
接地基于所述预测输出的,并且其中,使用无监督学习基于所述预测输出间接地生成所述梯度包括:识别所述音频数据流的目标部分,所述音频数据流的所述目标部分在所述音频数据流的在所述目标部分之前接收到的前置部分之后,并且所述音频数据流的所述目标部分在所述音频数据流的在所述目标部分之后接收到的附加部分之前;掩蔽所述音频数据流的所述目标部分;以及其中,使用所述全局
ML
模型处理音频数据流以生成所述预测输出包括处理所述音频数据流的所述前置部分和所述音频数据流的所述附加部分以生成以下各项中的一个或多个:被预测为与所述音频数据流的所述目标部分对应的所述音频数据流的预测目标部分作为所述预测输出;或者被预测为与所述音频数据流的所述目标部分对应的所述音频数据流的所述预测目标部分的一个或多个预测特征作为所述预测输出
。8.
根据权利要求7所述的方法,其中,使用无监督学习基于所述预测输出间接地生成所述梯度还包括:将所述音频数据流的所述预测目标部分与所述音频数据流的所述目标部分进行比较;以及基于将所述预测目标部分与所述目标部分进行比较来生成所述梯度
。9.
根据权利要求7所述的方法,其中,所述音频数据流的所述目标部分对应于所述音频数据流的目标音频波形部分,其中,所述音频数据流的在所述目标部分之前接收到的所述前置部分对应于所述音频数据流的在所述目标音频波形部分之前接收到的前置音频波形部分,并且其中,所述音频数据流的在所述目标部分之后接收到的所述附加部分对应于所述音频数据流的在所述目标音频波形部分之后接收到的附加音频波形部分
。10.
根据权利要求7所述的方法,其中,所述音频数据流的所述目标部分对应于所述音频数据流的目标向量表示部分,其中,所述音频数据流的在所述目标部分之前接收到的所述前置部分对应于所述音频数据流的在所述目标向量表示部分之前接收到的前置向量表示部分,并且其中,所述音频数据流的在所述目标部分之后接收到的所述附加部分对应于所述音频数据流的跟随在所述目标向量表示部分之后的附加向量表示部分
。11.
根据任一前述权利要求所述的方法,还包括:响应于接收到捕获所述用户的所述口头话语的所述音频数据流并且在使用所述全局
ML
模型来处理所述音频数据流以生成所述预测输出之前:选择一个或多个音频缓冲器来暂时地存储所述音频数据流,其中,选择所述一个或多个音频缓冲器来暂时地存储所述音频数据流基于连同所述音频数据流一起接收到的识别与所述客户端设备相关联的主语言或与所述客户端设备相关联的地理区域的数据
。12.
根据权利要求
11
所述的方法,其中,用于生成所述预测输出的所述全局
ML
模型特定于以下各项中的一个或多个:与所述客户端设备相关联的所述主语言或与所述客户端设备相关联的所述地理区域
。13.
根据任一前述权利要求所述的方法,在更新远程地存储在所述远程服务器中的一个或多个远程服务器处的所述全局
ML
模型的所述权重之后,还包括:将所述全局
ML
模型的所述全局权重传输到至少所述客户端设备,其中,将所述全局
ML
模型的所述全局权重传输到所述客户端设备使得所述客户端设备用所述全局权重替换本
地存储在所述客户端设备处的设备上
ML
模型的局部权重
。14.
根据权利要求
13
所述的方法,其中,将所述全局
ML
模型的所述全局权重传输到所述客户端设备响应于确定在所述客户端设备处满足所述一个或多个条件
。15.
根据权利要求
14
所述的方法,其中,所述一个或多个条件包括以下各项中的一个或多个:所述客户端设备正在充电

所述客户端设备至少具有阈值充电状态

所述客户端设备的温度低于阈值

所述客户端设备未被所述用户持有

一天中的特定时间

一周...

【专利技术属性】
技术研发人员:弗朗索瓦丝
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1