使用符号编程的机器学习算法搜索制造技术

技术编号:35731863 阅读:17 留言:0更新日期:2022-11-26 18:32
描述了一种用于搜索输出机器学习(ML)算法以执行ML任务的方法。该方法包括:接收指定输入ML算法的数据;接收指定搜索候选ML算法的搜索算法和评估候选ML算法的性能的评估功能的数据;从输入ML算法生成表示符号树的数据;从符号树生成表示超符号树的数据;为候选ML算法搜索从超符号树定义一组可能的具体符号树的算法搜索空间,并训练候选ML算法以确定每个候选ML算法的相应性能度量;并且,基于确定的性能度量,在训练的候选ML算法中选择一种或多种训练的候选ML算法。种训练的候选ML算法。种训练的候选ML算法。

【技术实现步骤摘要】
【国外来华专利技术】使用符号编程的机器学习算法搜索
[0001]相关申请的交叉引用
[0002]本申请是在2020年5月5日提交的美国临时专利申请No.63/035,551的非临时申请并要求对于其的优先权,该临时申请的全部内容通过引用并入本文。


[0003]本说明书涉及确定机器学习算法以执行机器学习任务。

技术介绍

[0004]机器学习算法可以是例如神经网络。神经网络是机器学习模型,它使用一层或多层非线性单元来对于接收的输入预测输出。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作对于在网络中下一层的输入,该下一层即下一个隐藏层或输出层。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0005]本说明书描述了在一个或多个位置的一个或多个计算机上实现为计算机程序的系统,该系统确定输出机器学习算法以执行特定机器学习任务。
[0006]本说明书中描述的主题可以在特定实施例中实施,以便实现以下优点中的一个或多个。通过将通过搜索空间的搜索(即神经架构搜索)作为控制流原语来操纵在定义搜索空间的符号树中的符号,所描述的系统可以有效地识别用于多种机器学习任务中的任何一个的高性能机器学习算法。特别是,通过使用符号编程在符号范式下制定机器学习算法的关键元素,所描述的技术允许目标机器学习算法(或目标程序)的所有部分普遍可搜索,并使搜索空间变得简单、富有表现力并且易于修改。因此,搜索算法可以以几乎零成本被重用和切换,使它们能够以计算有效的方式在复杂的搜索流中相互协作。此外,搜索过程可以被大大简化为带有反馈操作的for循环,允许基本的控制流模式表达任意复杂的搜索流。因此,通过使用所描述的手段,可以很容易地部署复杂的搜索流来识别高性能算法,可以容易地研究新的搜索空间,并且可以以较低的成本引入新的搜索算法。因此,本文描述的技术可以基于项目的不同概况、共享代码的比例以及引导新搜索以及引入复杂搜索方法和算法上的开发成本,在深度和广度上有效地扩展自动化机器学习(AutoML)。
[0007]本说明书的主题的一个或多个实施例的细节在附图和以下描述中被阐述。本主题的其他特征、方面和优点将从描述、附图和权利要求中变得显而易见。
附图说明
[0008]图1示出了示例机器学习算法搜索系统。
[0009]图2A示出了输入机器学习算法的示例。
[0010]图2B示出了示例符号树。
[0011]图2C示出了超符号树的示例。
[0012]图3图示了用于针对候选ML算法搜索搜索空间的示例过程。
[0013]图4是用于搜索输出机器学习算法以执行机器学习任务的示例过程的流程图。
[0014]不同附图中相同的附图标号和标记指示相同的元件。
具体实施方式
[0015]本说明书描述了在一个或多个位置的一个或多个计算机上实现为计算机程序的系统,该系统确定输出机器学习算法以执行特定机器学习任务。
[0016]该机器学习算法定义了以下一项或多项:用于执行任务的机器学习模型(神经网络)的模型架构;用于训练模型以执行任务的超参数;或,在训练期间、之后或两者应用于输入的预处理技术(例如,数据增强策略)。
[0017]机器学习模型可以被配置为执行任何类型的机器学习任务,即可以被配置为接收任何类型的数字数据输入并基于该输入生成任何类型的分数、分类或回归输出。
[0018]在某些情况下,机器学习模型是神经网络,该神经网络被配置为执行图像处理任务,即接收输入图像并处理输入图像中像素的强度值或颜色值以对于输入图像生成网络输出。例如,任务可能是图像分类,并且神经网络为给定图像生成的输出可能是一组对象类别中每个类别的分数,每个分数表示图像包含属于某个类别的对象的图像的估计可能性。作为另一示例,任务可以是图像嵌入生成,并且神经网络生成的输出可以是输入图像的数字嵌入。作为又一示例,任务可以是对象检测,并且由神经网络生成的输出可以识别输入图像中描绘特定类型对象的位置。作为又一示例,任务可以是图像分割,并且神经网络生成的输出可以将输入图像的每个像素分配给来自一组类别的类别。
[0019]作为另一示例,如果对于神经网络的输入是互联网资源(例如网页)、文档或文档的部分或从互联网资源、文档或文档的部分中提取的特征,则任务可以是对资源或文档进行分类,即,神经网络为给定的互联网资源、文档或文档的部分生成的输出可以是一组主题中每个主题的分数,每个分数代表互联网资源、文档或文档的部分是关于该主题的估计可能性。
[0020]作为另一示例,如果对于神经网络的输入是特定广告的印象上下文的特征,则神经网络生成的输出可以是表示特定广告将被点击的估计可能性的分数。
[0021]作为另一示例,如果对于神经网络的输入是针对用户的个性化推荐的特征,例如表征推荐的上下文的特征,例如表征用户先前采取的动作的特征,则神经网络生成的输出可能是一组内容项中的每个的分数,每个分数表示用户将对被推荐内容项做出积极响应的估计可能性。
[0022]作为另一示例,如果对于神经网络的输入是一种语言的文本序列,则神经网络生成的输出可以是另一种语言的一组文本片段中的每个的分数,每个分数表示另一种语言的文本片段是输入文本正确翻译成另一种语言的估计可能性。
[0023]作为另一示例,该任务可以是音频处理任务。例如,如果对于神经网络的输入是表示口头话语的序列,则神经网络生成的输出可以是一组文本片段中的每个的分数,每个分数表示该文本片段是话语的正确转录本的估计可能性。作为另一示例,如果对于神经网络的输入是表示口头话语的序列,则神经网络生成的输出可以指示在话语中是否说出了特定的单词或短语(“热词”)。作为另一示例,如果对于神经网络的输入是表示口头话语的序列,
则神经网络生成的输出可以识别出说出该话语所使用的自然语言。
[0024]作为另一示例,任务可以是自然语言处理或理解任务,例如,蕴涵任务、释义任务、文本相似性任务、情感任务、句子完成任务和语法任务等,其运行在一些自然语言的文本序列上。
[0025]作为另一示例,该任务可以是文本到语音的任务,其中,输入是自然语言的文本或自然语言的文本的特征,而网络输出是定义以自然语言正在说出的文本的音频频谱图或其他数据。
[0026]作为另一示例,该任务可以是健康预测任务,其中,输入是患者的电子健康记录数据,并且输出是与患者未来健康相关的预测,例如,应该对患者而言规定的预测治疗、对于患者发生不良健康事件的可能性或对于患者的预测诊断。这种电子健康记录数据可以包括与患者有关的生理数据,例如血糖、血压、体温或心率等。不良健康事件的示例包括低血糖和/或高血糖事件、心脏病发作或中风等。
[0027]作为另一示例,该任务可以是代理控制任务,其中,输入是表征环境状态的观察,并且输出定义代理响应于观察要执行的动作。例如,代理可以是现实世界或模拟机器人、工业设施的控制系统或控制不同类型代理的控制系统。观察或其他表征环境状态的数据的示例包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在给定输入机器学习算法的情况下搜索输出机器学习算法以执行特定机器学习任务的方法,所述方法包括:接收指定执行所述特定机器学习任务的输入机器学习算法的数据;接收指定搜索候选机器学习算法的搜索算法和评估候选机器学习算法的性能的评估功能的数据;从所述输入机器学习算法生成表示符号树的数据,其中,所述符号树是多个节点的树,其中,每个节点代表在所述输入机器学习算法中的组件并与具体值相关联;通过将所述符号树中的所述多个节点的一子集中的每个节点改变为具有带有对应的一组可能的具体值的相应占位符值的相应新节点,从所述符号树生成表示超符号树的数据;从所述超符号树中搜索定义一组可能的具体符号树的算法搜索空间,其中,在可能的具体符号树中的每个节点对应于在所述超符号树中的相应节点,并从与在所述超符号树中的相应节点相关联的对应的一组可能的具体值中获取特定的具体值,其中,每个可能的具体符号树对应于候选机器学习算法,并且其中,搜索所述算法搜索空间包括执行至少一次以下操作:通过使用所述搜索算法在所述算法搜索空间中搜索所述候选具体符号树,生成表示候选具体符号树的数据;从所述候选具体符号树生成候选机器学习算法,关于所述特定机器学习任务训练所述候选机器学习算法,使用所述评估功能确定性能度量,所述性能度量指定所训练的候选机器学习算法关于所述特定机器学习任务的性能;以及基于所确定的性能度量,在所训练的候选机器学习算法中选择一种或多种训练的候选机器学习算法。2.根据权利要求1所述的方法,其中,所述特定机器学习任务是以下任务之一:分类任务、回归任务或图像识别任务。3.根据权利要求1或2所述的方法,其中,节点的占位符值是超值。4.根据权利要求3所述的方法,其中,所述超值是连续值、离散值或分类值之一。5.根据前述权利要求中任一项所述的方法,其中,所述符号树中的至少一个节点与符号操作相关联。6.根据权利要求5所述的方法,其中,与所述符号树中的至少一个节点相关联的符号操作是以下之一:(i)变换所述节点的变换操作,(ii)提供关于所述节点的属性的信息的推断操作,(iii)提供关于所述节点的相邻节点的信息的查询操作,或(iv)提供所述节点的副本的复制操作,并且其中,所述方法包括将所述符号操作应用于由所述至少一个节点表示的输入机器学习算法的组件。7.根据前述权利要求中任一项所述的方法,还包括从所述算法搜索空间生成抽象搜索空间,其中,所述抽象搜索空间是决策节点树,其中,每个决策节点被映射到所述超符号树中的相应占位符值。8.根据权利要求7所述...

【专利技术属性】
技术研发人员:彭代毅卢一峰
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1