作为服务的自适应特征化制造技术

技术编号:14872446 阅读:95 留言:0更新日期:2017-03-23 20:14
描述了针对所提供的数据集和机器学习应用执行特征化的自动选择和推荐的服务。该服务可以是云服务。选择/推荐可以覆盖可用于大多数常见原始数据格式(例如,图像和文本数据)的多个特征化。提供数据集和任务,服务可以评估不同的可能的特征化,以基于性能、数据集和任务与已知数据集的相似度来选择一个或多个特征化,这些已知数据集具有已知在类似任务上具有高预测准确性和低预测误差的特征化,通过学习算法训练以获取多个输入等。服务可以包括请求响应方面,其提供对针对给定数据集和任务选择的最佳特征化的访问。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
将机器学习算法应用于数据需要从原始数据到可以由训练和预测算法消耗的特征的集合的变换。例如,原始图像数据可以是表示像素强度的矩阵。文本文档的原始数据可以是二进制向量,其中向量的元素表示文档中出现的词。原始数据表示通常是机器学习算法的次优表示。通常,原始数据表示通过被称为特征化的过程而转换为相对于学习任务更具表现力的特征。特征化将原始数据表示转换为语义上有意义的表示,该语义上有意义的表示描述与手头的学习任务相关的数据的特性。原始数据可以用很多不同的方式来特征化。一些特征化可以比用于训练高精度的预测模型的其他特征化的效率高得多。特征化通常在数学上是复杂的并且在计算上是密集的。
技术实现思路
针对特定的数据域和应用选择有效的特征化通常需要大量的实验。描述了针对所提供的数据集和机器学习应用自动选择和推荐一个或多个特征化的服务。服务可以是云服务。选择和/或推荐可以覆盖可用于包括但不限于图像和文本数据的原始数据格式的多个特征化。给定数据集和任务,服务可以评估不同的可能的特征化,以选择被认为提供最高性能的一个或多个特征化。性能可以在最高精度和/或计算性能方面来测量。特征化的自动选择和/或推荐可以是基于数据集和任务与具有已知在类似任务上具有高预测准确性的特征化的已知的数据集的相似度。自动选择和/或推荐可以是基于在特定任务上产生低预测误差的特征化。自动选择和/或推荐可以是基于使用得到表示不同相关因素(例如,数据集属性、特征化相关性等)的多个输入的机器学习算法的训练。服务可以包括请求响应方面,其提供对针对给定的数据集和任务选择的最佳特征化的访问。提供本
技术实现思路
以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本
技术实现思路
不旨在标识要求保护的主题的关键特征化或必要特征化,也不旨在用于限制要求保护的主题的范围。附图说明在附图中:图1示出了根据本文中描述的主题的各个方面的包括特征化模块或服务的示例的系统100的示例;图2示出了根据本文中公开的主题的各个方面的用于自动选择特征化的方法200的示例;以及图3是根据本文中公开的主题的各个方面的计算环境的示例的框图。具体实施方式概述假设能够使用来自被放置在家庭周围的相机的图像数据来区分入侵者和家庭猫的系统是期望的。机器学习技术可以被用于训练软件以区分猫和入侵者。通常,这是通过收集大量原始数据(在此情况下,是大量猫的图像和大量人的图像)来进行的。图像可以表示宽种类的数据或更受限制的种类的数据。例如,猫图像可以是驯养的猫科动物的任何图像,而人类图像可以是表示入侵者的可能外观的图像(与穿芭蕾舞短裙的6岁女孩相比穿连帽衫的成年人更可能是入侵者)。针对图像接收的原始数据通常是像素数据的二维阵列。在本示例中,收集图像以提供给机器学习系统的目的是训练正确地做出诸如“是,它是入侵者”或“不,它不是入侵者”等预测的模型。数据可以被用于训练被转换成做出预测的代码的算法。基于来自图像的原始数据进行预测不可能提供最高可能的准确度。为了获得更有效的结果,原始数据必须被翻译成与潜在种类(例如,种类在这种情况下为是入侵者或者不是入侵者)的数据的特性相关联的更高阶特征(诸如,边缘、轮廓和形状)的表示。基于这些高阶特征,可以训练更精确的入侵检测器。类似地,假设电子邮件应用将文档分类为“垃圾邮件”或“非垃圾邮件”,或者将新闻来源分类为“运动”或“非运动”。原始数据可以作为文档进入,文档是信的集合。信可以分割成单词。单词可以被子选择为诸如“可能是垃圾邮件”或“不可能是垃圾邮件”等集合。例如,“可能是垃圾邮件”的词语可以是包括处方药品名称或成人内容术语的词语。可能表示“运动”分类的词语可能包括运动员或运动组织的名称等。因此,原始数据可以被处理为诸如词语等一般种类,并且一般种类可以被转换成语义上更有意义的特征化(表示存在“可能是垃圾邮件”词语或“可能不是垃圾邮件”词语的特征)。机器学习算法可以使用语义上有意义的特征化来运行以获得更高精度的结果。根据本文中描述的主题的各个方面,提供了一种服务,其使得用户能够使用已经创建的特征化库来训练检测器、预测器或其他基于机器学习的软件。服务可以接收可以由服务的用户提供的原始数据。数据可以被标记。服务可以从用户接收要执行的任务的描述(例如,用户问题定义)。服务可以从用户接收可以测量“成功”的范例(度量)。作为响应,服务可以从特征化库中自动选择一个或多个特征化。服务可以确定特征化的什么组合提供与定义“成功”的方式一致的结果。例如,假设特征化库包括狗特征化数据集。为了训练猫与入侵者系统,与有助于将邮递员与入侵者区分开的特征化相比,狗特征化可能远远更加有用,因为基本的特性是“毛茸茸”对“非毛茸茸”,狗和猫二者的特性。这样的特征化使得分类器能够以更高的准确度区分不同的类。因此,可以提供不同特征化的库。响应于用户问题定义和可以是原始数据的样本数据集,服务可以选择要应用的一个或多个特征化。测试可以被运行以确定由用户定义的哪种特征化或特征化的组合性能最好(例如,最低误差或快速预测时间)。该结果可以被返回给用户。服务可以是“在云中”的服务。该服务可以基于可能的特征化的大型库。不同的特征化可以被提供用于不同类型的数据(诸如文本、图像、音频、事务事件数据、历史计数等)。用户可以提供用于机器学习任务的数据集。服务可以执行必要的计算和/或实验以确定针对给定任务在该数据集上性能最佳地的特征化。存在几种方式可以执行这些计算和/或实验。特征化的选择和/或推荐可以基于相似度函数,该相似度函数测量输入数据集与已知最佳特征化的类似的过去数据集之间的相似度。这样的相似度函数可以基于数据集统计,其可以包括但不限于大小、维度、稀疏性、因子分析、边缘等。特征化的选择和/或推荐可以基于直接优化预测任务的度量,诸如ROC(曲率半径)曲线(曲线下的AUC面积)下的精确度或面积。特征化的选择和/或推荐可以基于并入多个信号源以学习最有用、紧凑等的特征化。特征化的选择和/或推荐可以基于对多个可能的特征化及其组合的搜索。特征化的选择和/或推荐可以是基于以自动方式并入数据集和任务的领域知识。web服务(请求/响应服务或批处理服务)可以提供对针对给定的数据集和任务选择的最佳特征化的访问。考虑确定良好的特征化以将图像分类到分类法中的一个非限制性示例。来自计算机视觉领域的典型特征包括例如HOG(定向梯度直方图)和SIFT(尺度不变特征变换)特征、边缘检测器、卷积神经网络特征等。给定数据集,计算机视觉方面的非专家难以构建和实验这些功能,以实现所有这些从而选择获取高精度所需要的最小集合。根据本文中描述的主题的各个方面,可以执行以下操作。可以标识与数据集相似的其他数据集,其中对于预测任务的阵列已知良好的特征化,其中一些预测任务可以类似于手头的任务。这种知识可以来自服务中的历史实验,或者来自将其知识编码成特征化选择规则的领域专家。具有对于图像合理的各种特征化的实验(例如,HOG特征、SIFT特征、卷积神经网络等)可以自动进行。选择算法可以包括但不限于诸如神经网络或增强回归树等方法。它们也可以用于标识提供最佳分类精度的特征组。平台上的实验可以使用历史图像分类来执行,以使用自动推断的特征化来教导模型。作为服务的自适应特征化本文档来自技高网
...
作为服务的自适应特征化

【技术保护点】
一种自动选择并且推荐针对机器学习应用的至少一个特征化的系统,所述系统包括:至少一个处理器;连接至所述至少一个处理器的存储器;以及被加载到所述存储器中的至少一个程序模块,所述至少一个程序模块包括特征化选择模块,所述特征化选择模块自动选择针对用于机器学习应用的接收到的数据集和接收到的任务定义的至少一个特征化。

【技术特征摘要】
【国外来华专利技术】2014.07.12 US 62/023,833;2014.12.19 US 14/576,2531.一种自动选择并且推荐针对机器学习应用的至少一个特征化的系统,所述系统包括:至少一个处理器;连接至所述至少一个处理器的存储器;以及被加载到所述存储器中的至少一个程序模块,所述至少一个程序模块包括特征化选择模块,所述特征化选择模块自动选择针对用于机器学习应用的接收到的数据集和接收到的任务定义的至少一个特征化。2.根据权利要求1所述的系统,还包括:包括比较模块的至少一个程序模块,所述比较模块将所述接收到的数据集与数据集的库相比较并且基于所述比较选择至少一个特征化。3.根据权利要求2所述的系统,其中所述数据集包括原始数据。4.根据权利要求1所述的系统,还包括:包括比较模块的至少一个程序模块,所述比较模块将所述接收到的任务定义与任务定义的库相比较并且基于所述比较选择至少一个特征化。5.根据权利要求1所述的系统,还包括:包括模块的至少一个程序模块,所述模块检查所选择的所述至少一个特征化的过去训练运行的结果。6.根据权利要求1所述的系统,还包括:包括模块的至少一个程序模块,所述模块检查向所述接收到的数据集应用所选择的特征化而得到的多个测试运行结果并且基于所述结果选择至少一个特征化。7.根据权利要求1所述的系统,还包括:包括模块的至少一个程序模块,所述模块接收如何...

【专利技术属性】
技术研发人员:M·毕兰科A·卡梅尼夫V·纳拉亚南P·塔拉巴
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1