机器学习中的错误驱动的特征构思制造技术

技术编号:15919499 阅读:53 留言:0更新日期:2017-08-02 04:40
这里公开了涉及特征构思器的技术。特征构思器可以启动在分类过程中分析数据的训练集合的分类器。特征构思器可以生成与在分类过程期间被生成的错误有关的一个或者多个建议的特征。特征构思器可以生成输出以使得错误按照提供与用户的交互的格式被渲染。用户可以回顾错误的概要或者个体错误并且选择一个或者多个特征以增加分类器的准确度。

【技术实现步骤摘要】
【国外来华专利技术】机器学习中的错误驱动的特征构思
技术介绍
通常,在文本分类问题中的特征化使用生成大量特征的自动化方式。最常用的是“词包”或者n-gram包,其中每个特征对应于文档中的具体词或者n词短语的存在或者频率。常规词包方式产生具有数千个到数百万个的维度的稀疏特征集合。大特征空间需要更多训练数据以减少过度拟合的风险(该风险使分类器对新数据的性能劣化)并且具有减少的可解释性。由于词包特征和其它自动地生成的特征没有运用人类输入,所以几乎没有机会来结合用户的域知识。这造成高标注和维护成本。
技术实现思路
这里公开了涉及一种特征构思器的实现方式的技术。特征构思器可以有助于对特征的构思和修改。可以应用创建和/或修改的特征以在机器学习(ML)过程中创建模型。在一些示例中,技术可以使用分类器。分类器可以接收训练数据作为输入并且输出错误集合。可以基于错误集合向教师提供有助于来自教师的输入的界面。来自教师的输入可以用来重新训练教师。分类器可以基于从教师的接收的输入更新错误集合。在一些示例中,为了增加错误集合对教师的可用性,可以在界面中渲染错误的可视概要。错误的可视概要在一些实例中可以增加用户对相对大的样本错误集合进行排序的能力。提供这一
技术实现思路
以用简化形式介绍以下在具体实施方式中被进一步描述的技术的选集。这一
技术实现思路
旨在于在确定要求保护的主题内容时用作辅助。术语“技术”例如可以指代系统、方法、计算机可读介质/指令、模块、算法、硬件逻辑(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD))和/或如由以上描述的上下文和贯穿本文所允许的技术。附图说明参照附图描述具体实施方式。在不同图中的相同标号指示相似或者相同项目。图1是描绘了特征构思器的示例可以操作于其中的示例环境的框图。图2是描绘了能够实施这里呈现的实施例的各方面的说明性设备的框图。图3至图6是描绘了对特征构思用户界面的使用的示图。图7是描绘看示例特征构思例程的流程图。图8是图示了用于生成用于用户界面(比如图3至图6的特征构思用户界面)的错误和对比部分的候选词项的示例过程的流程图。具体实施方式本公开内容涉及用于使用特征构思器来构思或者修改将被应用于模型的特征的技术。可以用多种方式来实施这里描述的技术和系统。以下参照下图来提供示例实现方式。可以组合这里描述的实现方式、示例和说明。概述本公开内容涉及用于在机器学习系统中的特征构思的技术。根据各种示例,机器学习系统利用用户界面以引起来自教师(或者学生)的输入。一些示例利用人类作为教师,而一些示例利用各种计算过程作为教师,并且一些示例利用它们的组合。根据一些示例,用户界面被设计为呈现候选特征以供用户考虑。候选特征在机器学习系统对数据的训练集合分类时由机器学习系统生成。数据的训练集合可以包括但不限于文本数据、文档、视频数据、音频数据、图解数据以及它们的各种组合。经由用户界面向用户呈现产生自对数据的训练集合的分类的一个或者多个错误或者与错误关联的词项。在用户界面中显示的候选特征可以基于各种标准由机器学习系统选择。对一个或者多个候选特征的选择可以由机器学习系统接收。选择的候选特征由机器学习系统使用作为用于后续分类操作的输入。在一些示例中,候选特征选择的更多迭代和对机器学习系统的重新训练增加机器学习系统在对数据的训练集合分类时的准确度。一些示例可以向用户(或者教师)提供辅助以确被应用以创建模型的一个或者多个特征。这样的辅助可以包括对候选特征的标识,这些候选特征可以帮助用户构想用于模型的特征。辅助也可以包括显示信息和提供帮助指导用户的可选择控件的用户界面。这些方面可以造成来自计算机的更准确的输出。示例也可以训练分类器,该分类器以降低计算使用和/或减少网络带宽的使用的方式而被应用于模型。可以用多种方式来施这里描述的技术和系统。以下参照下图提供示例实现方式。可以组合这里描述的实现方式、示例和说明。示例环境图1是描绘了这里描述的示例可以操作于其中的示例环境100的框图。环境100可以包括用户设备102和服务器计算机104。用户设备102和/或服务器计算机104在一些示例是分布式计算架构的部分。在一些配置中,用户设备102和/或服务器计算机104是设备。虽然不限于任何特定配置,但是设备可以包括固定设备、移动设备或者嵌入式设备。固定设备的示例包括但不限于台式计算设备、服务器计算设备、专用游戏控制台等。移动设备的示例包括但不限于膝上计算机、笔记本计算机、超便携计算机、上网本计算机或者计算设备(比“智能”移动电话、平板设备、托板设备、便携视频游戏设备)等。嵌入式设备的示例包括但不限于具有因特网功能的电视、汽车、电器等。就这一点而言,一般地应当认识到,包括用户设备102和服务器计算机104的硬件部件仅为说明性并且可以使用其它类型的硬件设备来实施这里描述的实施例。服务器计算机104可以具有经由总线110被可操作地连接到计算机可读介质108的处理单元106。计算机可读介质108存储用于实施这里描述的各种技术的计算机可执行指令。用户设备102经由网络112与服务器计算机104通信。应当认识到,这里描述的技术不限于要求用户设备102经由网络112与服务器计算机104通信,因为可以完全地或者部分地在用户设备102上实施这里描述的方面而没有服务器计算机104。这里描述的技术不限于用于网络112的任何特定类型的联网实现方式。例如,网络112可以包括公共网络(比如因特网)、私人网络(比如机构和/或个人内部网)或者公共和网络私人网络的某个组合。网络112也可以包括任何类型的有线网络和/或无线网络,包括但不限于局域网(LAN)、广域网(WAN)、卫星网络、线缆网络、Wi-Fi网络、WiMax网络、移动通信网络(例如,3G、4G等等)或者它们的任何组合。网络112可以利用通信协议,包括基于分组和/或基于数据报的协议(比如网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP))或者其它类型的协议。另外,网络112也可以包括有助于网络通信和/或形成用于网络的硬件基础的多个设备,比如交换机、路由器、网关、接入点、防火墙、基站、重发器、主干设备等。在一些示例中,网络112还可以包括实现连接到无线网络的设备,比如无线接入点(WAP)。示例支持通过WAP的连通,这些WAP通过各种电磁频率(例如,射频)来发送和接收数据,包括支持电气和电子工程师协会(IEEE)1302.11标准(例如1302.11g、1302.11n等等)的WAP)和其它标准。在一个实现方式中,服务器计算机104执行特征构思器114。特征构思器114可以用来生成和/或修改一个或者多个特征以训练分类器116。分类器116可以接收数据的训练集合118作为输入。数据的训练集合118是由分类器116使用的数据全集。在一些示例中,数据是文本数据。在其它示例中,数据可以是音频数据或者可视数据。当前公开的主题内容不限于由特征构思器114使用的任何特定类型的数据。可以在数据存储库120或者远程数据存储库122或者它们的组合中存储数据的训练集合118。可以用多种方式生成数据的训练集合118。在一些示例中,数据的训练集合118可以是在远程数据存储库12本文档来自技高网...
机器学习中的错误驱动的特征构思

【技术保护点】
一种特征构思方法,包括:确定标注的文本数据的训练集合中的多个错误;确定候选特征的集合以纠正所述多个错误中的至少一个错误;接收对将是应用的特征的、所述特征候选的集合中的至少一个特征候选的选择;以及基于所述应用的特征来重新训练分类器。

【技术特征摘要】
【国外来华专利技术】2014.12.07 US 14/562,7501.一种特征构思方法,包括:确定标注的文本数据的训练集合中的多个错误;确定候选特征的集合以纠正所述多个错误中的至少一个错误;接收对将是应用的特征的、所述特征候选的集合中的至少一个特征候选的选择;以及基于所述应用的特征来重新训练分类器。2.根据权利要求1所述的方法,其中确定标注的文本数据的训练集合中的多个错误包括:接收包括多个标注的文本数据的数据的训练集合;以及启动所述分类器以检查所述标注的文本数据以确定所述多个错误。3.根据权利要求2所述的方法,还包括将所述多个标注的文本数据解构成组成成分。4.根据权利要求1至3中的任一权利要求所述的方法,还包括通过确定由所述分类器正确地标识的文本数据的百分比来生成错误百分比。5.根据权利要求1至4中的任一权利要求所述的方法,还包括:接收对用于进一步探索的、所述特征候选的集合中的至少一个特征候选的选择;以及呈现与对用于进一步探索的、所述特征候选的集合中的所述至少一个特征候选的所述选择关联的多个词或者n-gram。6.根据权利要求1至5中的任一权利要求所述的方法,还包括渲染包括所述应用的特征的特征化区域。7.根据权利要求1至6中的任一权利要求所述的方法,还包括:基于所述应用的特征来确定标注的文本数据的训练集合中的更新后的多个错误;基于所述训练集合来显示更新后的特征候选的集合以纠正所述更新后的多个错误中的至少一个错误;接收对将是第二应用的特征的、所述更新后的特征候选的集合中的至少一个特征候选的选择;以及基于所述第二应用的特征来重新训练分类器。8.根据权利要求1至7中的任一权利要求所述的方法,还包括利用候选特征的第二集合来更新所述特征化区域,所述候选特征的第二集合由利用所述第二应用的特征训练的所述分类器确定。9.根据权利要求1至8中的任一权利要求所述的方法,还包括与所述特征候选的集合的至少一个特征候选邻近显示频率指示符,所述频率指示符指示其中所述特征候选的集合的所述至少一个特征候选与错误关联的出现频率以及其中所述特征候选的集合的所述至少一个特征候选与肯定匹配关联的出...

【专利技术属性】
技术研发人员:S·阿默施M·J·布鲁克斯李奉信S·M·德鲁克P·Y·西马德J·A·苏A·卡珀尔
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1