用于基于约束的超参数调优的方法和系统技术方案

技术编号:35731083 阅读:18 留言:0更新日期:2022-11-26 18:31
公开了用于对模型的超参数进行调优的技术。获得用于训练模型的数据集并选择用于评估模型的性能的度量。每个度量被指派指定对模型的性能的重要性的权重。创建基于加权度量测量性能的函数。对超参数进行调优以优化模型性能。对超参数进行调优包括:(i)训练基于超参数的当前值配置的模型;(ii)使用函数评估模型的性能;(iii)确定模型是否针对度量被优化;(iv)响应于模型未被优化,搜索超参数的新值,用新值重新配置模型,并使用重新配置的模型重复步骤(i)

【技术实现步骤摘要】
【国外来华专利技术】用于基于约束的超参数调优的方法和系统
[0001]相关申请的交叉引用
[0002]本申请要求以下申请的优先权权益:(1)2020年3月30日提交的美国临时申请No.63/002,159,(2)2020年11月30日提交的美国临时申请No.63/119,577,(3)2021年3月29日提交的美国非临时申请No.17/216,496,以及(4)2021年3月29日提交的美国非临时申请No.17/216,498。出于所有目的,上面引用的申请通过引用整体并入本文。


[0003]本公开一般而言涉及聊天机器人系统,并且更具体地,涉及对在聊天机器人系统中使用的机器学习模型的超参数(hyperparameter)进行调优(tuning)的技术。

技术介绍

[0004]世界各地的许多用户都在即时消息传递或聊天平台上以便获得即时反应。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时交谈。但是,组织雇用服务人员与客户或最终用户进行实时交流的成本可能非常高。已经开始开发聊天机器人或机器人来模拟与最终用户的交谈,尤其是通过互联网。最终用户可以通过最终用户已经安装和使用的消息传递应用与机器人通信。通常由人工智能(AI)提供支持的智能机器人可以在实时交谈中更智能地并且更基于上下文地进行交流,因此可以允许机器人与最终用户之间进行更自然的交谈以改善交谈体验。不是让最终用户学习机器人知道如何进行响应的关键字或命令的固定集合,而是,智能机器人可以能够基于用户的自然语言话语来理解最终用户的意图并相应地做出响应。
[0005]通常,个体的机器人采用被训练为分类器(classifier)的模型并从类或类别的集合中预测或推断针对输入的类或类别。在创建机器学习模型时,必须确定定义模型的体系架构的模型参数。此类参数被称为模型的超参数。确定超参数的理想配置(即,要指派给模型的每个超参数的值)的过程被称为超参数调优。
[0006]标准超参数调优算法在考虑单一目标(例如,模型准确性)的情况下执行超参数的调优操作。为了实现这个目标,超参数调优算法搜索使单个目标优化的最佳超参数配置。因此,该模型是为优化该单一目标而量身定制的。对于不同的目标,必须训练不同的模型,每一个模型都是为了优化相应的目标而量身定制的。
[0007]本文描述的实施例单独地和共同地解决了这些和其它问题。

技术实现思路

[0008]提供了用于对聊天机器人系统中使用的机器学习模型的超参数进行调优的技术(例如,方法、系统、存储可由一个或多个处理器执行的代码或指令的非暂态计算机可读介质)。本文描述了各种实施例,包括方法、系统、存储可由一个或多个处理器执行的程序、代码或指令的非暂态计算机可读存储介质等。
[0009]通过本公开的一个方面,提供了一种用于对聊天机器人系统中使用的机器学习模
型的超参数的集合进行调优的方法。该方法获得用于训练机器学习模型的一个或多个数据集,并选择用于评估机器学习模型在该一个或多个数据集上的性能的多个度量(或目标)。第一权重被指派给该多个度量中的每个度量。第一权重指定每个度量对机器学习模型的性能的重要性。创建成本或损失函数,其基于该多个度量和指派给该多个度量中的每个度量的第一权重来测量机器学习模型的性能。对与机器学习模型相关联的超参数的集合进行调优,以便针对该多个度量优化机器学习模型。对超参数的集合进行调优的过程包括:(i)在一个或多个数据集上,训练基于超参数的集合的当前值集合而配置的机器学习模型;(ii)使用成本或损失函数评估机器学习模型在该一个或多个数据集上的性能;(iii)基于该评估,确定机器学习模型是否针对多个度量被优化;(iv)响应于机器学习模型没有针对多个度量被优化,调优过程为超参数的集合搜索新的值集合,用新的值集合重新配置机器学习模型,以及使用经重新配置的机器学习模型重复步骤(i)

(iii);以及(v)响应于机器学习模型针对多个度量被优化,提供机器学习模型作为经训练的机器学习模型。
[0010]通过本公开的一个方面,提供了一种系统,该系统包括一个或多个数据处理器和包含指令的非暂态计算机可读存储介质。指令在被执行时使一个或多个数据处理器执行本文所述的一种或多种方法的一部分或全部。
[0011]通过本公开的另一方面,提供了一种有形地实施在非暂态机器可读存储介质中的计算机程序产品,其包括被配置为使一个或多个数据处理器执行本文描述的一种或多种方法的全部或部分的指令。
[0012]在参考以下说明书、权利要求和附图时,前述内容以及其它特征和实施例将变得更加清楚。
附图说明
[0013]图1是结合示例性实施例的分布式环境的简化框图。
[0014]图2描绘了根据各种实施例的示例性类型的超参数。
[0015]图3描绘了根据各种实施例的示例性类型的度量。
[0016]图4图示了根据各种实施例的超参数调优系统。
[0017]图5描绘了根据各种实施例的与度量相关联的示例性规范集。
[0018]图6描绘了说明由根据各种实施例的超参数调优系统执行的训练过程的流程图。
[0019]图7描绘了说明由根据各种实施例的超参数调优系统执行的验证过程的流程图。
[0020]图8描绘了用于实现各种实施例的分布式系统的简化图。
[0021]图9是根据各种实施例的系统环境的一个或多个组件的简化框图,通过该系统环境可以将实施例系统的一个或多个组件提供的服务提供为云服务。
[0022]图10图示了可以用于实现各种实施例的示例计算机系统。
具体实施方式
[0023]在以下描述中,出于解释的目的,阐述了具体细节以便提供对某些专利技术性实施例的透彻理解。但是,显然可以在没有这些具体细节的情况下实践各种实施例。附图和描述并非旨在限制。“示例性”一词在本文用于表示“用作示例、实例或说明”。本文描述为“示例性”的任何实施例或设计不一定被解释为优于或有利于其它实施例或设计。
[0024]引言
[0025]数字助理是人工智能驱动的接口,其帮助用户在自然语言交谈中完成各种任务。对于每个数字助理,客户可以组合一个或多个技能(skill)。技能(本文也称为聊天机器人、机器人或技能机器人)是专注于特定类型任务的单个机器人,特定类型任务诸如跟踪库存、提交工时卡和创建费用报告。当最终用户与数字助理对接时,数字助理评估最终用户输入并将交谈路由到适当的聊天机器人和从适当的聊天机器人发出。数字助理可以通过多种通道提供给最终用户,诸如Messenger、SKYPEmessenger或短消息服务(SMS)。通道从各种消息传递平台上的最终用户向数字助理及其各种聊天机器人来回传送聊天。这些通道还可以支持用户代理升级、事件发起的交谈、以及测试。
[0026]意图(intent)允许聊天机器人理解用户希望聊天机器人做什么。意图由典型用户请求和语句的排列(permutation)组成,也称为话语(例如,获取账户余额、进行购买等)。如本文所使用的,话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:获得用于训练机器学习模型的一个或多个数据集;选择用于评估机器学习模型在所述一个或多个数据集上的性能的多个度量;向所述多个度量中的每个度量指派第一权重,其中第一权重指定每个度量对所述机器学习模型的性能的重要性;创建成本或损失函数,其基于所述多个度量和指派给所述多个度量中的每个度量的第一权重来测量所述机器学习模型的性能;对与所述机器学习模型相关联的超参数的集合进行调优,以便针对所述多个度量优化所述机器学习模型,其中,所述调优包括:(i)在所述一个或多个数据集上训练所述机器学习模型,其中所述机器学习模型是基于所述超参数的集合的当前值集合而配置的;(ii)使用所述成本或损失函数评估所述机器学习模型在所述一个或多个数据集上的性能;(iii)基于所述评估确定所述机器学习模型是否针对所述多个度量被优化;(iv)响应于所述机器学习模型没有针对所述多个度量被优化,为超参数的集合搜索新的值集合,用所述新的值集合重新配置所述机器学习模型,以及使用经重新配置的机器学习模型重复步骤(i)

(iii);以及(v)响应于所述机器学习模型针对所述多个度量被优化,提供所述机器学习模型作为经训练的机器学习模型。2.如权利要求1所述的方法,其中,所述多个度量至少包括机器学习模型的尺寸、机器学习模型的训练时间、机器学习模型的准确性、机器学习模型的稳定性、机器学习模型的回归误差、和机器学习模型的置信度分数。3.如权利要求1所述的方法,还包括:向所述一个或多个数据集中的每个数据集指派第二权重,其中第二权重指定每个数据集在训练机器学习模型中的重要性。4.如权利要求1所述的方法,还包括:基于超参数的集合中的一个或多个超参数建立一个或多个约束,并且其中经优化的机器学习模型满足所述一个或多个约束中的每个约束。5.如权利要求4所述的方法,其中,所述一个或多个约束中的第一约束对应于要求机器学习模型的模型尺寸小于阈值模型尺寸或要求机器学习模型的训练时间小于阈值时间限制。6.如权利要求1所述的方法,其中,所述机器学习模型是神经网络模型,并且超参数的集合至少包括机器学习模型的层数、机器学习模型的学习速率、机器学习模型的每一层中隐藏单元的数量、用于训练机器学习模型的学习算法。7.一种计算设备,包括:处理器;以及存储器,包括指令,所述指令在用所述处理器执行时使所述计算设备至少执行以下操作:获得用于训练机器学习模型的一个或多个数据集;
选择用于评估机器学习模型在所述一个或多个数据集上的性能的多个度量;向所述多个度量中的每个度量指派第一权重,其中第一权重指定每个度量对所述机器学习模型的性能的重要性;创建成本或损失函数,其基于所述多个度量和指派给所述多个度量中的每个度量的第一权重来测量所述机器学习模型的性能;对与所述机器学习模型相关联的超参数的集合进行调优,以便针对所述多个度量优化所述机器学习模型,其中,对所述超参数的集合进行所述调优包括:(i)在所述一个或多个数据集上训练所述机器学习模型,其中所述机器学习模型是基于所述超参数的集合的当前值集合而配置的;(ii)使用所述成本或损失函数评估所述机器学习模型在所述一个或多个数据集上的性能;(iii)基于所述评估确定所述机器学习模型是否针对所述多个度量被优化;(iv)响应于所述机器学习模型没有针对所述多个度量被优化,为超参数的集合搜索新的值集合,用所述新的值集合重新配置所述机器学习模型,以及使用经重新配置的机器学习模型重复步骤(i)

(iii);以及(v)响应于所述机器学习模型针对所述多个度量被优化,提供所述机器学习模型作为经训练的机器学习模型。8.如权利要求7...

【专利技术属性】
技术研发人员:M
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1