当前位置: 首页 > 专利查询>苹果公司专利>正文

使用代理以实现设备上的机器学习制造技术

技术编号:20759357 阅读:23 留言:0更新日期:2019-04-03 13:07
本发明专利技术公开了多种系统和方法,该系统和方法供服务器为多个应用程序的每个生成多个代理预测模型以由客户端设备使用。与通用模型相反,基于更密切匹配客户端设备实际用户的用户私有数据的数据分布提供预测模型,能够改善预测精确性并改善对客户端设备用户的益处。多个预测模型由服务器生成并被提供给多个客户端。对于特定应用程序而言,客户端设备可使用先前收集的私有用户数据来为应用程序选择多个预测模型之一作为最密切匹配的预测模型以用于特定用户。

【技术实现步骤摘要】
【国外来华专利技术】使用代理以实现设备上的机器学习相关专利申请本美国专利申请依据35U.S.C.§119(e)要求2016年7月20日提交的名称为“USINGPROXIESTOENABLEON-DEVICEMACHINELEARNING”(使用代理实现设备上的机器学习)的美国临时专利申请No.62/364,810(代理人案卷号4860.P31848Z)的优先权,并且该申请在与本公开一致的程度上以引用方式并入本文。
本公开涉及客户端设备上的机器学习的领域。
技术介绍
常规的机器学习依赖于从大用户样本收集大型数据集并训练预测模型。训练预测模型以在训练数据集上实现可能最高的预测精确度,但将常常需要通过考虑特定用户的个人数据而针对个体用户进行个性化。一个示例是适于特定用户的书写方式的手写识别算法或者适于或经校准适于特定用户心跳或活动模式的健康传感器算法。语音识别子系统可能需要针对特定用户的语音模式或语调进行调节。优选针对特定用户的口味、偏好和收听模式调节音乐建议子系统。在现有技术中,可以仅使用特定用户的数据在客户端设备上训练用于增强特定用户体验的机器学习。仅使用设备上的数据进行训练可以训练精确度和时间为代价保护隐私。机器学习算法通常需要在机器学习能够生成相当准确的预测模型之前收集大量数据。在一些情况下,诸如测量用户身体的一个或多个属性的健康传感器,传感器可能需要在机器学习算法能够使用所收集数据为该用户在客户端设备上生成预测器之前针对该人被校准。针对特定的人校准传感器可能是侵入性的、非常个人化的,并且耗时很久,因此是用户可能不希望采取的不希望步骤。生成可用于增强用户的设备上体验的机器学习预测模型的另一种方式可以包括服务器系统,该服务器系统收集可用于生成一个或多个预测模型的大量众包数据。训练预测器的这种方法收集用户的个人数据,并且可能侵犯隐私,即使对所收集的信息进行了去识别化。如果维护隐私,那么使用众包数据训练预测器的另一个问题在于,服务器不知道特定客户端应当使用例如针对音乐偏好的多个预测模型中的哪个预测模型。维护隐私意味着确保服务器无法识别具有任何特异性的特定客户端。如果服务器无法识别具有特异性的特定客户端,例如由于隐私约束,则服务器不能向客户端设备提供个性化预测模型以增强用户的设备上体验。
技术实现思路
公开了通过为客户端设备上多个应用程序的每个提供多个预测模型而增强用户使用客户端设备时体验的系统和方法。提供与客户端设备的实际用户更紧密匹配的预测模型可改善代表客户端设备用户的预测模型的机器学习的速度和精确度。如本文所用,在一个实施方案中,术语“模型”是指数据分布或数据分布的草图,连同机器学习模型。因此,每个模型都具有对应的数据分布。如本文所用,短语“匹配模型”或“比较模型”,在一个实施方案中,是指对第一模型的数据分布和第二模型的数据分布进行偏离估计,以确定第一数据分布和第二数据分布之间的估计偏离。多个预测模型由服务器生成并被提供给多个客户端。对于特定应用程序而言,客户端设备可使用先前收集的私有用户数据来为应用程序选择多个预测模型之一作为特定用户的最密切匹配的预测模型。多个预测模型中所选择的密切或最密切匹配的一个被用作客户端设备实际用户的代理预测模型(“代理模型”)。客户端设备可使用客户端设备上的私有用户数据来进一步训练或调整代理模型以更精确地针对客户端设备的用户预测或表示传感器的偏好、特征或校准。在一个实施方案中,服务器可收集大量匿名化或去识别化的用户数据(众包数据),或自愿给出的用户数据(或一些或全部此类数据的组合),以针对应用程序或使用情形生成多个代理模型。在一个实施方案中,代理模型可使用多个预测模型之一作为用于校准特定用户和传感器的代理模型,来针对用户校准一个或多个传感器。在一个实施方案中,代理模型向用户提供适用于应用程序的单词、短语或媒体的建议或选择。在一个实施方案中,服务器可针对媒体呈现应用程序构建多个代理模型。可以为例如特定流派的音乐、年龄人口统计信息、艺术家、乐器、媒体上下文生成代理模型。在一个实施方案中,上下文可以是用于锻炼的音乐、用于工作期间后台收听的音乐、用于驾车的音乐、用于聚会的音乐等。不同的代理模型可以考虑特定用户类型或人口统计信息的偏好。可以为用于撰写或编辑文本的应用程序(诸如消息程序、文字处理程序等)生成代理模型。在一个实施方案中,客户端设备可包括多个应用程序,每个应用程序都可使用预测模型来增强用户在操作客户端设备时的体验。应用程序可包括,例如语音识别、针对用户校准健康传感器、针对特定主题(例如法律)自动完成文本、识别用户的语音、识别用户的手写体以及为用户建议媒体选择。客户端设备可针对每个应用程序获得多个预测模型(代理模型),从其中选择最密切匹配的代理模型作为训练起点,以训练精确表示客户端设备的用户操作。在一个实施方案中,客户端设备具有多个初始安装于客户端设备上的代理模型。在一个实施方案中,客户端设备可在客户端设备初始化期间从模型服务器请求针对一个或多个应用程序的多个代理模型。在一个实施方案中,客户端设备上的模型选择逻辑初始可以从针对应用程序的多个代理模型中选择默认或通用代理模型作为机器学习的起点。在用户与客户端设备交互时,可以由客户端设备收集私有用户数据。偏离估计算法可确定私有用户数据的数据分布中与代理模型之一的数据分布最密切的匹配。可以为应用程序或数据的不同方面选择不同的代理模型。可以由客户端设备对收集的私有用户数据使用机器学习以调整初始选择的代理模型,或者可以使用代理数据和用户数据的混合来训练新的混合模型。可以将初始选择的代理模型或用户数据分布与针对应用程序的多个代理模型的其他模型进行比较,以确定最密切匹配的代理模型。在一些实施方案中,可使用被采集并认为在模型库中有效的其他不同代理模型的适当加权混合来合成代理模型。可使用偏离估计技术进行代理模型的比较(即,比较私有用户数据的数据分布与一个或多个代理模型的数据分布)。如果最密切匹配的代理模型与初始选择并训练的代理模型在阈值相似度,例如90%或更大匹配之内(10%或更少偏离),那么可选择最密切匹配代理模型用于该应用程序并在客户端设备上使用机器学习进行训练。如果针对该应用程序的多个代理模型中没有代理模型充分匹配初始选择并训练的代理模型,则客户端设备可通知模型服务器,该用户不能为应用程序找到匹配的代理模型。模型服务器可以用户提供其私有用户数据的请求做出响应,以换取合适的补偿,使得模型服务器能够为客户端设备的用户生成匹配的代理模型。在一个实施方案中,客户端设备可请求针对应用程序的更新的代理模型。在一个实施方案中,可提示客户端设备的用户回答简短调查,以辅助针对应用程序的初始代理模型选择过程。该调查回答可作为用户私有数据保留在客户端设备上。例如,可询问用户其年龄、专业、一般健康(例如身高、体重)、肤色、运动频率、音乐或其他媒体的一般偏好等。也可以在选择适当代理模型和训练所选择的代理模型时使用对调查的回答。在一个实施方案中,可从多个代理模型通过合成方式生成特征属性的加权混合作为最佳匹配代理。加权因子可由某些特征的相邻性来确定(例如,在一些实施方案中,诸如身高、体重的物理特征)。在一个实施方案中,非暂态计算机可读介质可以存储可执行指令,该可执行指令在由处本文档来自技高网
...

【技术保护点】
1.一种在客户端设备上实践的计算机实现的方法,所述方法包括:收集所述客户端设备上的私有用户数据以产生用于应用程序的初始数据分布;在一组代理模型的所述初始数据分布和对应数据分布之间执行偏离估计;从所述一组代理模型中选择在所述所选择的代理模型的所述初始数据分布和数据分布之间具有低偏离的代理模型,所述低偏离低于阈值;以及将所述所选择的代理模型与所述应用程序关联,使得所述所选择的代理模型成为所述应用程序的用户预测模型。

【技术特征摘要】
【国外来华专利技术】2016.07.20 US 62/364,810;2016.09.24 US 15/275,3551.一种在客户端设备上实践的计算机实现的方法,所述方法包括:收集所述客户端设备上的私有用户数据以产生用于应用程序的初始数据分布;在一组代理模型的所述初始数据分布和对应数据分布之间执行偏离估计;从所述一组代理模型中选择在所述所选择的代理模型的所述初始数据分布和数据分布之间具有低偏离的代理模型,所述低偏离低于阈值;以及将所述所选择的代理模型与所述应用程序关联,使得所述所选择的代理模型成为所述应用程序的用户预测模型。2.根据权利要求1所述的方法,其中所述低偏离是所述最低偏离,并且其中执行如下一种情况:所述一组代理模型驻留在所述客户端设备上;响应于所述客户端设备对与所述应用程序相关的一组代理模型的请求,从服务器接收所述一组代理模型。3.根据权利要求1所述的方法,还包括从所述一组代理模型中选择通用代理模型作为默认用户预测模型,并基于所述私有用户数据来训练所述默认用户预测模型。4.根据权利要求1所述的方法,其中所述用户预测模型针对所述用户校准所述客户端设备的一个或多个传感器。5.根据权利要求4所述的方法,其中所述一个或多个传感器包括健康传感器,所述健康传感器包括心率监视器。6.根据权利要求1所述的方法,其中所述用户预测模型针对所述用户校准语音识别模块,其中所述用户预测模型结合了包括分量的特征矢量,所述分量包括所述用户讲话所用的语言、梅尔频率倒谱系数和深度神经网络的激活。7.根据权利要求1所述的方法,其中所述用户预测模型预测以下中的一者:用户正在所述应用程序中撰写或编辑的文本主题,且所述用户预测模型在所述应用程序中向所述用户建议单词或短语;或者呈现给所述用户的媒体类型的流派或艺术家,所述模型在所述应用程序中建议或播放媒体项目。8.根据权利要求1所述的方法,其中执行偏离估计包括向所述多个代理模型之一的所述初始数据分布和数据分布应用K最近邻偏离估计算法。9.一种用指令编程的非暂态计算机可读介质,所述指令当由处理系统执行时执行操作,所述操作包括:收集所述客户端设备上的私有用户数据以产生用于应用程序的初始数据分布;在一组代理模型的所述初始数据分布和对应数据分布之间执行偏离估计;从所述一组代理模型中选择在所述所选择的代理模型的所述初始数据分布和数据分布之间具有低偏离的代理模型,所述低偏离低于阈值;以及将所述所选择的代理模型与所述应用程序关联,使得所述所选择的代理模型成为所述应用程序的用户预测模型。10.根据权利要求9所述的介质,其中所述低偏离是所述最低偏离,并且其中执行以下一种情况:所述一组代理模型驻留在所述客户端设备上;响应于所述客户端设备对与所述应用程序相关的一组代理模型的请求,从服务器接收所述一组代理模型。11.根据权利要求9所述的介质,还包括从所述一组代理模型中选择通用代理模型作为默认用户预测模型,并基于所述私有用户数据来训练所述默认用户预测模型。12.根据权利要求9所述的介质,其中所述用户预测模型针对所述用户校准所述客户端设备的一个或多个传感器。13.根据权利要求12所述的介质,其中所述一个或多个传...

【专利技术属性】
技术研发人员:B·K·马修J·C·吴J·L·泽贝
申请(专利权)人:苹果公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1