主动机器学习制造技术

技术编号:15919495 阅读:33 留言:0更新日期:2017-08-02 04:40
本文描述了用于主动机器学习的技术。一种主动机器学习方法可以包括:通过主动机器学习系统发起主动机器学习,主动机器学习系统被配置为对辅助机器学习模型进行训练,以产生至少一个新的被标记的观察;基于主动机器学习改善目标机器学习模型的容量;以及在改善目标机器学习模型的容量之后,利用至少一个新的被标记的观察重新训练辅助机器学习模型。另外,根据本文提供的描述,目标机器学习模型是有限容量的机器学习模型。

【技术实现步骤摘要】
【国外来华专利技术】主动机器学习
技术介绍
机器学习一般包括可以根据数据进行学习的机器学习算法的构造或生成。这些算法用于基于特征来构建用于生成针对特定目的的分类器的模型。主动机器学习是一种“老师”(例如用户)提供训练样本来训练模型的函数的方法。历史上,训练样本是被标记的还是未被标记的基于特定的目的。例如,在现有系统中,用于实现对关于棒球的主题的文档进行分类的分类器的训练样本通常包括被标记为与棒球有关的文档样本以及被标记为与棒球无关的文档样本。其它现有训练样本是未被标记的。例如,未被标记的样本可能与棒球有关或者可能与棒球无关。因此,第三方(例如老师)必须对现有的未被标记的训练样本进行标记,使得模型具有有价值的输入,通过该输入来学习相关联的函数。具体地,主动学习需要相对高质量的被标记训练样本,使得模型能够充分学习期望的函数,以用于将来对任意数量的未被标记的输入文档进行分类。然而,在实际上无限数量的未被标记文档中发现可用于机器学习算法的高质量的被标记训练样本通常是很耗费成本的。例如,许多用户被雇佣来解释未被标记的文档,以确定用于机器学习目的的可行性。然而,如果需要对被现有机器学习算法训练的特定模型进行限制,则每个可能候选用于被标记的训练样本的可行性必须被甚至更仔细地考虑,并且成本可能超过期望的目标。
技术实现思路
本文讨论的技术通过利用辅助机器学习模型递增地特征化目标机器学习模型来便于主动机器学习。辅助机器学习模型可以是与目标机器学习模型相比具有相对较大范围的机器学习模型。上述技术方案还可以被实现为计算机控制装置、计算机过程、计算系统、或例如计算机存储介质的制品。提供该“
技术实现思路
”是为了以简化形式介绍将在下文在“具体实施方式”中进一步描述的技术的精华。该
技术实现思路
并不旨在标识所要求保护技术方案的关键特征或必要特征,该
技术实现思路
也不旨在用于限制所要求保护技术方案的范围。术语“技术”例如可以指代系统、方法、计算机可读介质、计算机可执行指令、模块、算法、硬件逻辑(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)),和/或上述上下文和贯穿本文档允许的技术。此外,所要求保护的技术方案不限于解决在本公开的任何部分中提到的任意或所有缺点的例子。附图说明参考附图描述具体实施方式。在图中,附图标记的最左侧数字标识该附图标记第一次出现的附图。在不同图中的相同附图标记表示类似或相同的项目。图1是示出了示例性操作环境和本文描述的技术提供的若干部件的各方面的图。图2是示出了本文所描述的用于主动机器学习的一个示例性方法的各方面的流程图。图3是示出了本文描述的包括选择具有多样性的未被标记观察的用于主动机器学习的一个示例性方法的各方面的流程图。图4是示出了本文描述的包括考虑来自辅助机器学习模型和目标机器学习模型两者的输出的用于主动机器学习的一个示例性方法的各方面的流程图。图5示出的图描绘了本文中所描述的示例性辅助机器学习模型的输出分数和用于实现未被标记观察的选择的多样性的相关联的子集标记集合。图6是示出了示例性计算机硬件和软件架构的计算机架构图。具体实施方式概述后续具体实施方式针对的是可以由软件产品或一组软件产品提供的用于主动机器学习的技术。本文呈现的技术便于相对准确地识别高质量的训练样本以用于主动机器学习算法或者相关联的模型。此外,所述技术可以提高对有限容量的模型进行训练的效率。此外,所述技术可以便于针对有限容量的模型进行递增的特征化,以实现来自通过有限容量模型创建的分类器的准确和期望的输出。如本文使用的,短语“有限容量的模型”及其变型指的是在容量方面有限或受限的机器学习模型。一个示例性有限容量的模型是具有有限数量的特征的机器学习模型。然而,所述特征可以包括正特征和负特征。另一示例性有限容量的模型是寻找的n元语法(例如,在文档中寻找的词语或词语元组)的总数量有限或受限的机器学习模型。有限容量的模型允许部署尺寸也有限的分类器,以在存储器效率方面实现增益。另外,传输有限容量的模型和/或尺寸也有限的分类器可以减少移动网络中的网络业务,例如在将分类器和/或模型传输到移动设备用于部署时。如本文使用的,短语“色盲”及其变型指的是目标机器学习模型缺乏区别单独的或不同的观察的能力,虽然这些不同的观察在定义方式上不同。例如,在目标机器学习模型中训练的分类器可能对描述鸟笼的网页和描述击球笼的网页之间的差别是“色盲的”。然而,相同的分类器可能对棒球棒的广告和与有翼球棒的博物馆展示有关的广告之间的区别并不是“色盲的”。如本文使用的,短语“多样性”及其变型指的是观察集合在该集合中的个体观察之间存在许多差别。例如,多样化的观察集合包括跨包含于其中的观察的许多或所有观察的多样性。如上面简单提到的,特征是本文描述的机器学习模型的部件。术语“特征”及其变型指的是包含于机器学习模型中的数据。特征的例子包括词、短语、n元语法以及词典编纂的数据。另外,如本文使用的,短语“递增特征化”及其变型具体是指以递增的方式从目标机器学习模型添加或移除特征。相反,传统的机器学习技术通常以非递增方式添加多个特征或者操纵机器学习模型。一般而言,本文描述的用于主动机器学习的技术包括基于第二辅助机器学习模型的主动机器学习,通过递增特征化和/或通过改善目标机器学习模型的容量,来训练目标机器学习模型。辅助机器学习模型可以具有无限容量,或者与目标机器学习模型相比可以具有相对较大的容量。主动机器学习系统可以利用辅助机器学习模型的主动机器学习,来识别目标机器学习模型的色盲的范围。之后,在识别了色盲的范围之后,可以产生新的高质量的被标记训练样本,并将新的高质量的被标记训练样本用于确定要从目标机器学习模型添加或移除的特征。目标机器学习模型的色盲、其范围和其它属性将在下文参考附图更全面地描述。在辅助机器学习模型的主动机器学习中实现多样性能够至少部分地提高本文描述的技术的效率。例如,主动机器学习系统可以选择新的未被标记观察,其跨所有选择的未被标记观察是多样性的。以这种方式,主动机器学习系统可以组装较高质量的训练集合。可以以多种不同方式实现多样性,这将在下文参考图5更全面地描述。如上文额外简单讨论的,软件产品或一组软件产品可以提供一些或所有本文描述的涉及主动机器学习的功能。例如,可以通过服务提供商网络(例如,利用操作系统和/或应用程序)部署网络服务。网络服务可以允许第三方使用本文描述的技术用于基于具有相对较大容量的辅助机器学习模型的主动机器学习来训练有限容量的机器学习模型。可以跨一个或多个主机处理器、计算机、服务器、或其它计算机硬件来部署网络服务,并可以通过一个或多个网络连接提供网络服务。另外,根据至少一个例子,涉及被标记的训练观察的尺寸和属性的知识可以存储或保持在服务提供商网络处。因此,如果期望的话,可以在预先被标记的数据上构建新的分类器,与从头实现新分类器相比减少了构建成本。虽然本文描述的技术方案是在结合在计算机系统上执行操作系统和应用程序而执行的程序模块的通用上下文中给出的,但是本领域技术人员将认识到可以组合其它类型的程序模块执行其它例子。一般而言,程序模块包括例程、程序、部件、数据结构、以及执行特定任务或实现特定抽象数据类型的其它类型的结构本文档来自技高网
...
主动机器学习

【技术保护点】
一种主动机器学习系统,所述系统包括:辅助机器学习模型,被配置为将第一分数分配给未被标记的观察;目标机器学习模型,被配置为将第二分数给所述未被标记的观察,其中所述目标机器学习模型和所述辅助机器学习模型来自不同的机器学习模型类别,并且其中所述目标机器学习模型是有限容量的机器学习模型;比较部件,被配置为比较所述第一分数和所述第二分数,以确定所述目标机器学习模型已经返回假肯定或假否定的结果的概率;以及特征化部件,被配置为接收所述比较部件的输出。

【技术特征摘要】
【国外来华专利技术】2014.12.07 US 14/562,7471.一种主动机器学习系统,所述系统包括:辅助机器学习模型,被配置为将第一分数分配给未被标记的观察;目标机器学习模型,被配置为将第二分数给所述未被标记的观察,其中所述目标机器学习模型和所述辅助机器学习模型来自不同的机器学习模型类别,并且其中所述目标机器学习模型是有限容量的机器学习模型;比较部件,被配置为比较所述第一分数和所述第二分数,以确定所述目标机器学习模型已经返回假肯定或假否定的结果的概率;以及特征化部件,被配置为接收所述比较部件的输出。2.根据权利要求1所述的系统,其中,被配置为比较所述第一分数和所述第二分数的所述比较部件还被配置为执行包括以下操作的比较:确定所述第一分数和所述第二分数之间的差的幅度;在所述幅度为负时,确定所述目标机器学习模型已经返回假肯定;以及在所述幅度为正时,确定所述目标机器学习模型已经返回假否定。3.根据权利要求1或权利要求2所述的系统,还包括与所述特征化部件处于操作通信的容量改善部件,所述容量改善部件被配置为:在所述目标机器学习模型已经返回假肯定时,延伸所述目标机器学习模型的范围以包括先前不在所述目标机器学习模型的所述范围内的新特征。4.根据权利要求1或权利要求2所述的系统,还包括与所述特征化部件处于操作通信的容量改善部件,所述容量改善部件被配置为:在所述目标机器学习模型已经返回假肯定时,缩小所述目标机器学习模型的范围以移除先前在所述目标机器学习模型的所述范围内的特征。5.一种计算机实现的主动机器学习的方法,包括:通过主动机器学习系统发起主动机器学习,所述主动机器学习系统被配置为训练辅助机器学习模型,以产生至少一个新的被标记的观察;至少基于所述主动机器学习来改善目标机器学习...

【专利技术属性】
技术研发人员:D·M·奇克林C·A·米克P·Y·西马德R·K·伊耶
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1