【技术实现步骤摘要】
【国外来华专利技术】用于基于约束的超参数调优的方法和系统
[0001]相关申请的交叉引用
[0002]本申请要求以下申请的优先权权益:(1)2020年3月30日提交的美国临时申请No.63/002,159,(2)2020年11月30日提交的美国临时申请No.63/119,577,(3)2021年3月29日提交的美国非临时申请No.17/216,496,以及(4)2021年3月29日提交的美国非临时申请No.17/216,498。出于所有目的,上面引用的申请通过引用整体并入本文。
[0003]本公开一般而言涉及聊天机器人系统,并且更具体地,涉及对在聊天机器人系统中使用的机器学习模型的超参数(hyperparameter)进行调优(tuning)的技术。
技术介绍
[0004]世界各地的许多用户都在即时消息传递或聊天平台上以便获得即时反应。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时交谈。但是,组织雇用服务人员与客户或最终用户进行实时交流的成本可能非常高。已经开始开发聊天机器人或机器人来模拟与最终用户的交谈,尤其是通过互联网。最终用户可以通过最终用户已经安装和使用的消息传递应用与机器人通信。通常由人工智能(AI)提供支持的智能机器人可以在实时交谈中更智能地并且更基于上下文地进行交流,因此可以允许机器人与最终用户之间进行更自然的交谈以改善交谈体验。不是让最终用户学习机器人知道如何进行响应的关键字或命令的固定集合,而是,智能机器人可以能够基于用户的自然语言话语来理解最终用户的意图并相应地做出响应。
...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:获得用于训练机器学习模型的一个或多个数据集;选择用于评估机器学习模型在所述一个或多个数据集上的性能的多个度量;向所述多个度量中的每个度量指派第一权重,其中第一权重指定每个度量对所述机器学习模型的性能的重要性;创建成本或损失函数,其基于所述多个度量和指派给所述多个度量中的每个度量的第一权重来测量所述机器学习模型的性能;对与所述机器学习模型相关联的超参数的集合进行调优,以便针对所述多个度量优化所述机器学习模型,其中,所述调优包括:(i)在所述一个或多个数据集上训练所述机器学习模型,其中所述机器学习模型是基于所述超参数的集合的当前值集合而配置的;(ii)使用所述成本或损失函数评估所述机器学习模型在所述一个或多个数据集上的性能;(iii)基于所述评估确定所述机器学习模型是否针对所述多个度量被优化;(iv)响应于所述机器学习模型没有针对所述多个度量被优化,为超参数的集合搜索新的值集合,用所述新的值集合重新配置所述机器学习模型,以及使用经重新配置的机器学习模型重复步骤(i)
‑
(iii);以及(v)响应于所述机器学习模型针对所述多个度量被优化,提供所述机器学习模型作为经训练的机器学习模型。2.如权利要求1所述的方法,其中,所述多个度量至少包括机器学习模型的尺寸、机器学习模型的训练时间、机器学习模型的准确性、机器学习模型的稳定性、机器学习模型的回归误差、和机器学习模型的置信度分数。3.如权利要求1所述的方法,还包括:向所述一个或多个数据集中的每个数据集指派第二权重,其中第二权重指定每个数据集在训练机器学习模型中的重要性。4.如权利要求1所述的方法,还包括:基于超参数的集合中的一个或多个超参数建立一个或多个约束,并且其中经优化的机器学习模型满足所述一个或多个约束中的每个约束。5.如权利要求4所述的方法,其中,所述一个或多个约束中的第一约束对应于要求机器学习模型的模型尺寸小于阈值模型尺寸或要求机器学习模型的训练时间小于阈值时间限制。6.如权利要求1所述的方法,其中,所述机器学习模型是神经网络模型,并且超参数的集合至少包括机器学习模型的层数、机器学习模型的学习速率、机器学习模型的每一层中隐藏单元的数量、用于训练机器学习模型的学习算法。7.一种计算设备,包括:处理器;以及存储器,包括指令,所述指令在用所述处理器执行时使所述计算设备至少执行以下操作:获得用于训练机器学习模型的一个或多个数据集;
选择用于评估机器学习模型在所述一个或多个数据集上的性能的多个度量;向所述多个度量中的每个度量指派第一权重,其中第一权重指定每个度量对所述机器学习模型的性能的重要性;创建成本或损失函数,其基于所述多个度量和指派给所述多个度量中的每个度量的第一权重来测量所述机器学习模型的性能;对与所述机器学习模型相关联的超参数的集合进行调优,以便针对所述多个度量优化所述机器学习模型,其中,对所述超参数的集合进行所述调优包括:(i)在所述一个或多个数据集上训练所述机器学习模型,其中所述机器学习模型是基于所述超参数的集合的当前值集合而配置的;(ii)使用所述成本或损失函数评估所述机器学习模型在所述一个或多个数据集上的性能;(iii)基于所述评估确定所述机器学习模型是否针对所述多个度量被优化;(iv)响应于所述机器学习模型没有针对所述多个度量被优化,为超参数的集合搜索新的值集合,用所述新的值集合重新配置所述机器学习模型,以及使用经重新配置的机器学习模型重复步骤(i)
‑
(iii);以及(v)响应于所述机器学习模型针对所述多个度量被优化,提供所述机器学习模型作为经训练的机器学习模型。8.如权利要求7...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。