用于快速构建、管理和共享机器学习模型的系统和方法技术方案

技术编号:24019928 阅读:24 留言:0更新日期:2020-05-02 04:54
在一些方面,提供用于快速构建、管理和共享机器学习模型的系统和方法。管理所述机器学习模型的生命周期可包括:接收未注释数据集;请求所述未注释数据的样本的注释以产生注释数据集;基于所述注释数据集构建机器学习模型;将所述机器学习模型部署到客户端系统,其中生成生产注释;收集所生成的生产注释并生成并入所述生产注释的新机器学习模型;以及选择基于所述注释数据集构建的所述机器学习模型或所述新机器学习模型中的一者。

Systems and methods for quickly building, managing, and sharing machine learning models

【技术实现步骤摘要】
【国外来华专利技术】用于快速构建、管理和共享机器学习模型的系统和方法相关申请的交叉引用本申请要求2017年5月14日提交的美国临时专利申请号62/505,936的优先权和权益,所述申请以引用的方式整体并入本文。
技术介绍
常规的机器学习技术分别处理有助于数据注释、数据探索和模型创建。在用于数据注释的一些界面中,用户可突出显示他们感兴趣的文本范围,并将注释分配给突出显示的文本。替代地,用户可突出显示图像中他们感兴趣的部分,并将注释分配给图像中突出显示的部分。这些方法常常采用手动“蛮力”注释数据,并且要求用户按顺序遍历数据,从而导致生成机器学习模型的大量成本和时间延迟。此外,此类现有工具可能需要关于数据预处理、特征提取和可视化类型的广泛知识来运行。在一些常规方法的其他缺点、短处和不利中,他们可能遭受以下问题:他们常常需要先前所注释数据,并且在此类数据不存在时不提供起点;他们常常不针对非结构化数据;模型训练常常缓慢并且需要大量的硬件资源;他们可能无法有效地处理不平衡的数据(即,在所需结果的发生率较低的情况下的数据,例如,低于时间的10%);并且他们可能不提供集成工作流。
技术实现思路
本公开涉及用于快速构建、管理和共享机器学习模型的系统和方法。本公开提供一种管理机器学习模型的生命周期的方法。在一些方面,所述方法包括:管理所述机器学习模型的生命周期可包括:接收未注释数据集;请求所述未注释数据的样本的注释以产生注释数据集;基于所述注释数据集构建机器学习模型;将所述机器学习模型部署到客户端系统,其中生成生产注释;收集所生成的生产注释并生成并入所述生产注释的新机器学习模型;以及选择基于所述注释数据集构建的所述机器学习模型或所述新机器学习模型中的一者。根据本公开的上述方面中的任一个,所述方法还可包括:报告所述机器学习模型的质量的一个或多个量度,所述一个或多个量度包括精度、召回率、平均精度、接收者操作员特征分数或F-β分数。根据本公开的上述方面中的任一个,所述方法还可包括:与第三方共享所述模型。根据本公开的上述方面中的任一个,所述方法还可包括:与第三方共享所述模型。根据本公开的上述方面中的任一个,请求样本的注释可包括:基于用户输入或自动化采样器选择来从所述未注释数据集选择样本。根据本公开的上述方面中的任一个,所述用户输入可包括语义搜索、类似样本的选择或所述未注释数据的可视图上的选择中的一者或多者。根据本公开的上述方面中的任一个,所述自动化采样器选择可来自进展中的多个采样器中的一个。根据本公开的上述方面中的任一个,所述多个采样器中的每一个可使用不同的采样算法。根据本公开的上述方面中的任一个,所述相应的采样算法可选自:密度采样算法;熵采样算法;所估计误差减小采样算法;详尽采样算法;标记预测算法;难例挖掘采样算法;高置信度采样算法;线性采样算法;图可视化采样算法;元数据搜索采样算法;最小裕度采样算法;委员会查询采样算法;随机采样算法;审查采样算法;搜索采样算法;相似性采样算法;对针对其所述输入为跳过样本类型算法的样本的采样;分层采样算法;最高置信度样本算法;或最不确定样本算法。根据本公开的上述方面中的任一个,所述进展可包括所述多个所述采样器中的采样器之间的连续改变。根据本公开的上述方面中的任一个,所述多个采样器中的每个采样器可具有预期的结果分布,所述预期的结果分布确定是移动到所述进展中的前一还是后一采样器。根据本公开的上述方面中的任一个,在接收到具有不正确的模型预测的预定数量的样本注释后,所述进展在采样器之间可改变为所述进展中的前一采样器。根据本公开的上述方面中的任一个,在接收到具有一致的模型预测的预定数量的样本注释后,所述进展在采样器之间可改变为所述进展中的后一采样器。根据本公开的上述方面中的任一个,构建所述机器学习模型可包括:接收共享模型,并且将中间模型的权重初始化为所述共享模型的权重并以不同的学习速率进行训练。根据本公开的上述方面中的任一个,请求所述未注释数据的样本的注释可包括:请求测试数据集的详尽注释。根据本公开的上述方面中的任一个,所述测试数据集的所述详尽注释可以是通过包括密度采样、水平集树或随机采样中的一者或多者的远程监督来执行。根据本公开的上述方面中的任一个,请求所述未注释数据的样本的注释可包括:在多个采样器中的采样器的图形用户界面上呈现用于从所述未注释数据集中选择样本的推荐。根据本公开的上述方面中的任一个,所述方法还可包括:在所述图形用户界面上呈现数据质量和数量指标。根据本公开的上述方面中的任一个,所述数据数量指标可包括多个训练的样本、多个正实例、多个负实例、或针对一类样本训练的多个样本中的一者或多者。根据本公开的上述方面中的任一个,所述数据质量指标可包括准确度、精度、召回率或F1分数中的一者或多者。根据本公开的上述方面中的任一个,所述方法还可包括:在图形用户界面上呈现跨所述未注释数据集的注释的不一致性。根据本公开的上述方面中的任一个,构建所述机器学习模型可包括:选择建立所述机器学习模型的算法和损失函数。根据本公开的上述方面中的任一个,选择所述算法是基于模型类型。根据本公开的上述方面中的任一个,所述方法还可包括:通过基于从所述未注释数据集进行注释的注释训练数据集对模型进行多次训练并测量跨运行的质量指标的分散度来测试收敛性。根据本公开的上述方面中的任一个,所述质量指标可包括学习曲线的斜率。根据本公开的上述方面中的任一个,所述模型可以是使用针对给定模型类型选择的默认超参数和所述算法来训练。根据本公开的上述方面中的任一个,所述超参数可以是使用随机选择、网格搜索或贝叶斯估计方法中的一者或多者来选择。根据本公开的上述方面中的任一个,可针对所述模型存储随机种子、算法选择、损失函数、超参数、数据集分割、数据集散列或类权重中的一者或多者。根据本公开的上述方面中的任一个,可对所述机器学习模型进行版本化、更改或回滚。根据本公开的上述方面中的任一个,所述方法还可包括:通过数据漂移或概念漂移来监测模型之间的变化。根据本公开的上述方面中的任一个,概念漂移可以是通过基于对所述注释数据集与所述生产注释之间的多个变化预测的量化训练模型来计算。根据本公开的上述方面中的任一个,数据漂移可以是基于所述注释数据集与所述生产注释之间的语料库统计和/或语料库对比来测量。根据本公开的上述方面中的任一个,警示可以是在识别出数据漂移或概念漂移时生成。根据本公开的上述方面中的任一个,所述数据漂移或所述概念漂移可包括基于随时间推移的未注释数据的指标或基于随时间推移的模型预测的指标。根据本公开的上述方面中的任一个,共享所述模型可包括:执行特征散列、加密散列或随机投影中的一者或多者。根据本公开的上述方面中的任一个,共享所述模型可包括:共享所述模型的梯度更新。根据本公开的上述方面中的任一个,所述梯度更新可被添加到计算图形中的层。根本文档来自技高网...

【技术保护点】
1.一种管理机器学习模型的生命周期的方法,所述方法包括:/n接收未注释数据集;/n请求所述未注释数据的样本的注释以产生注释数据集;/n基于所述注释数据集构建机器学习模型;/n将所述机器学习模型部署到客户端系统,其中生成生产注释;/n收集所生成的生产注释并生成并入所述生产注释的新机器学习模型;以及/n选择基于所述注释数据集构建的所述机器学习模型或所述新机器学习模型中的一者。/n

【技术特征摘要】
【国外来华专利技术】20170514 US 62/505,9361.一种管理机器学习模型的生命周期的方法,所述方法包括:
接收未注释数据集;
请求所述未注释数据的样本的注释以产生注释数据集;
基于所述注释数据集构建机器学习模型;
将所述机器学习模型部署到客户端系统,其中生成生产注释;
收集所生成的生产注释并生成并入所述生产注释的新机器学习模型;以及
选择基于所述注释数据集构建的所述机器学习模型或所述新机器学习模型中的一者。


2.如权利要求1所述的方法,其还包括:
报告所述机器学习模型的质量的一个或多个量度,所述一个或多个量度包括精度、召回率、平均精度、接收者操作员特征分数或F-β分数。


3.如权利要求1所述的方法,其还包括:
与第三方共享所述模型。


4.如权利要求1所述的方法,其中请求样本的注释包括:
基于用户输入或自动化采样器选择来从所述未注释数据集选择样本。


5.如权利要求4所述的方法,其中所述用户输入包括语义搜索、类似样本的选择或所述未注释数据的可视图上的选择中的一者或多者。


6.如权利要求4所述的方法,其中所述自动化采样器选择来自进展中的多个采样器中的一个。


7.如权利要求6所述的方法,其中所述多个采样器中的每一个使用不同的采样算法。


8.如权利要求7所述的方法,其中所述相应的采样算法选自:密度采样算法;熵采样算法;所估计误差减小采样算法;详尽采样算法;标记预测算法;难例挖掘采样算法;高置信度采样算法;线性采样算法;图可视化采样算法;元数据搜索采样算法;最小裕度采样算法;委员会查询采样算法;随机采样算法;审查采样算法;搜索采样算法;相似性采样算法;对针对其所述输入为跳过样本类型算法的样本的采样;分层采样算法;最高置信度样本算法;或最不确定样本算法。


9.如权利要求7所述的方法,其中所述进展包括所述多个所述采样器中的采样器之间的连续改变。


10.如权利要求9所述的方法,其中所述多个采样器中的每个采样器具有预期的结果分布,所述预期的结果分布确定是移动到所述进展中的前一还是后一采样器。


11.如权利要求10所述的方法,其中在接收到具有不正确的模型预测的预定数量的样本注释后,所述进展在采样器之间改变为所述进展中的前一采样器。


12.如权利要求10所述的方法,其中在接收到具有一致的模型预测的预定数量的样本注释后,所述进展在采样器之间改变为所述进展中的后一采样器。


13.如权利要求1所述的方法,其中构建所述机器学习模型包括:接收共享模型,并且将中间模型的权重初始化为所述共享模型的权重并以不同的学习速率进行训练。


14.如权利要求1所述的方法,其中请求所述未注释数据的样本的注释包括:请求测试数据集的详尽注释。


15.如权利要求14所述的方法,其中所述测试数据集的所述详尽注释是通过包括密度采样、水平集树或随机采样中的一者或多者的远程监督来执行。


16.如权利要求1所述的方法,其中请求所述未注释数据的样本的注释包括:在多个采样器中的采样器的图形用户界面上呈现用于从所述未注释数据集中选择样本的推荐。


17.如权利要求16所述的方法,其还包括:在所述图形用户界面上呈现数据质量和数量指标。


18.如权利要求17所述的方法,其中所述数据数量指标包括多个训练的样本、多个正实例、多个负实例、或针对一类样本训练的多个样本中的一者或多者。


19.如权利要求17所述的方法,其中所述数据质量指标包括准确度、精度、召回率或F1分数中的一者或多者。


20.如权利要求1所述的方法,其还包括:在图形用户界面上呈现跨所述未注释数据集的注释的不一致性。


21.如权利要求1所述的方法,其中构建所述机器学习模型包括:选择建立所述机器学习模型的算法和损失函数。


22.如权利要求21所述的方法,其中选择所述算法是基于模型类型。


23.如权利要求21所述的方法,其还包括:
通过基于从所述未注释数据集进行注释的注释训练数据集对模型进行多次训练并测量跨运行的质量指标的分散度来测试收敛性。


24.如权利要求23所述的方法,其中所述质量指标包括学习曲线的斜率。


25.如权利要求21所述的方法,其中所述模型是使用针对给定模型类型选择的默认超参数和所述算法来训练。


26.如权利要求25所述的方法,其中所述超参数是使用随机选择、网格搜索或贝叶斯估计方法中的一者或多者来选择。


27.如权利要求25所述的方法,其中针对所述模型存储随机种子、算法选择、损失函数、超参数、数据集分割、数据集散列或类权重中的一者或多者。


28.如权利要求1所述的方法,其中对所述机器学习模型进行版本化、更改或回滚。


29.如权利要求1所述的方法,其还包括:
通过数据漂移或概念漂移来监测模型之间的变化。


30.如权利要求29所述的方法,其中概念漂移是通过基于对所述注释数据集与所述生产注释之间的多个变化预测的量化训练模型来计算。


31.如权利要求29所述的方法,其中数据漂移是基于所述注释数据集与所述生产注释之间的语料库统计和/或语料库对比来测量。


32.如权利要求29所述的方法,其中警示是在识别出数据漂移或概念漂移时生成。


33.如权利要求32所述的方法,其中所述数据漂移或所述概念漂移包括基于随时间推移的未注释数据的指标或基于随时间推移的模型预测的指标。


34.如权利要求3所述的方法,其中共享所述模型包括:执行特征散列、加密散列或随机投影中的一者或多者。


35.如权利要求3所述的方法,其中共享所述模型包括:共享所述模型的梯度更新。


36.如权利要求35所述的方法,其中所述梯度更新被添加到计算图形中的层。


37.如权利要求3所述的方法,其中共享所述模型包括:共享一个或多个模型资产。


38.如权利要求37所述的方法,其中所述一个或多个模型资产包括基于数据集、词向量、注释集、关键字和短语列表、实例列表、语言模型、词典以及训练的模型和模型架构训练的词嵌入。


39.如权利要求38所述的方法,其中所述一个或多个模型资产被清除个人可识别信息。


40.如权利要求6所述的方法,其中所述进展包括从种子采样器到难例采样器、到分层采样器、到不确定性采样器的进展。


41.如权利要求1所述的方法,其中请求样本的注释包括:在图形用户界面上将问题呈现给用户以获得注释反馈。


42.如权利要求1所述的方法,其还包括:预测所述未注释数据的样本的一个或多个注释。


43.如权利要求42所述的方法,其中所述一个或多个注释的所述预测在请求所述未注释数据的样本的注释之前进行。


44.如权利要求42所述的方法,其还包括:基于采样分数将所预测的一个或多个注释存储在优先级队列中。


45.如权利要求44所述的方法,其中所述采样分数是所预测的一个或多个注释的置信度分数。


46.如权利要求44所述的方法,其还包括:在将所预测的一个或多个注释存储在所述优先级队列中之前确定所述采样分数是否大于阈值采样分数。


47.如权利要求46所述的方法,其还包括:丢弃所具有的采样分数被确定为小于所述阈值采样分数的预测。


48.如权利要求44所述的方法,其中所述优先级队列存储预定最大数量的预测。


49.如权利要求44所述的方法,其还包括:在将所述预测存储在所述优先级队列中之前确定存储在所述优先级队列中的预测数量小于所述预定最大预测数量。


50.如权利要求44所述的方法,其还包括:在将所述预测存储在所述优先级队列中之前确定所述采样分数大于所述优先级队列中的至少一个先前存储的预测。


51.如权利要求44所述的方法,其还包括:丢弃所述优先级队列中具有最低采样分数的先前存储的预测。


52.如权利要求44所述的方法,其中请求所述未注释数据的样本的注释包括:从多个优先级队列中选择所述优先级队列。


53.一种用于管理机器学习模型的生命周期的系统,其包括:
处理器;以及
非暂时性存储器装置,所述非暂时性存储器装置联接到所述处理器并存储计算机可读指令,所述计算机可读指令在由所述处理器执行时致使所述系统执行包括以下的...

【专利技术属性】
技术研发人员:科里·休斯提莫西·埃斯蒂斯约翰·刘布兰登·卡尔乌黛·卡马斯
申请(专利权)人:数字推理系统有限公司
类型:发明
国别省市:美国;US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1