人机交互学习中的主动特征化制造技术

技术编号:13005640 阅读:97 留言:0更新日期:2016-03-10 17:17
非常大的数据的集合可能难以搜索和/或分析。通过在有用的类别中自动分类查询和网页,以及利用这些分类得分作为相关性特征,可能显著提升相关性。完整的方法可能需要构建大量的分类器,对应于各种类型的信息、活动和产品。在大的数据集上提供分类器和概要器的创建。在数亿条目上练习分类器和概要器可以通过添加可用的元数据来显露数据所固有的价值。一些方面包括主动标记探索、自动正则化和冷启动、通过条目数量和分类器数量缩放、主动特征化、以及分割和概要化。

【技术实现步骤摘要】
【国外来华专利技术】人机交互学习中的主动特征化
技术介绍
非常大的数据的集合可能难以搜索和/或分析。例如,在网络的情况下,数据的一大部分是无结构的并且价值被锁在数据本身中。存储服务提供商的网页是不够的。为了让该信息有用,该信息需要被理解。一个数字字符串取决于上下文可能是模型号码、银行账户、或者电话号码。例如,在滑雪板产品的上下文中,字符串“长度:170,175,180cm”指的是3种不同的滑雪板长度,而不是1700千米的滑雪板长度。不正确地解释数据可能得到没用的信息。作为一种示例,如果用户输入两个词“mtor”和“stock(股票)”到因特网搜索引擎中,结果主要由与药物mTor相关的网页构成,搜索引擎未能将搜索认作为股票报价查询。作为另一示例,如果用户输入两个词“seattle(西雅图)”和“sushi(寿司)”到因特网搜索引擎中,并且结果主要由与西雅图的酒店相关的网页构成,则搜索引擎未能将搜索认作为餐馆查询。虽然因特网搜索引擎经常针对标题查询和文档作出合理的工作,但是精确性快速地下降至很低,因为信息没有被搜索引擎自动理解。
技术实现思路
如果查询和网页可以被自动分类到有用的类别中,例如股票报价或餐馆,以及如果这些分类得分被用作相关性特征,则搜索结果的相关性可以被显著提升。周密的方法可能需要构建大量分类器,与信息、活动和产品的各种类型相对应。分类器的数量可能进一步乘以语言的数量和上下文(查询、网页、广告片段、产品提要等等)的数量。所期望的是,将计算机在分类和概要化(schematization)任务中的精确性带到人类层次,并且使普通人轻松地创建他们自己的计算机克隆以大量地执行这种任务。作为一种示例,提供被最优化用于允许在大数据集上在数小时内创建分类器和概要器的工具。当分类器和概要器被在数亿条目上练习时,分类器和概要器可以通过添加能够使用的元数据来暴露数据内在的价值。这种工具的一些应用包括搜索、广告、和商业。在此使用的术语概要化指的是识别并且填充概要(schema)的域的动作。例如,食谱的概要可以由四个域构成:标题、描述、成分和指导。食谱概要的网页的概要化是将页面分割成一个或多个食谱概要实例并且相应地填充域的动作。因特网搜索引擎已构建数百个分类器和实体提取器,以尝试理解查询、网页和广告。不幸的是,当前方法的效力受到机器学习专家的数量、程序员的数量和任务的复杂度的限制。人类在从数据中提取语义意义方面是杰出的。当数据为人类或由人类创作时这尤其是真实的。例如,人类可以容易地标记(label)(或者分割)网页、查询或产品提要。不幸的是,人类在大规模地做这些事情方面是令人尴尬地糟糕的。以每个页面十秒的速度,对于人来说一生时间将不够筛选一亿网页以识别所有与给定主题相关的页面。计算机具有恰好相反的能力。计算机在语义理解方面是令人尴尬地不佳的,而它们在大规模地做事情方面是杰出的。在此描述的方法后面的哲学是构建利用人类和计算机的优点的高度交互式以及直观的系统。“高度交互式”意指由人类输入的标记或特征应当对计算具有直接的影响。在数秒之内,其应当影响:犯了或避免了哪些错误,下一个应当标记哪个条目,用户应当注重哪个特征,以及应当添加或删除概要的哪个域。“直观”意指用户应当理解用户的动作的效果以及如何实现用户的目的而不需要机器学习或编程专业知识。该方法需要来自计算机和人类的循环。循环可以紧凑地通过快速机器学习“修正”而交织。人类在引导计算机并且反之亦然。效率的另一方面是以其他人的工作为基础进行工作的能力。网络爆炸的重要贡献者是“查看源代码”和复制-粘贴能力。在机器学习中,复制-粘贴能力来自以下事实:所训练的分类器可以用作其他的分类器的特征。通过创建可搜索以及记录的分类器资源库,人们能够以彼此的工作为基础进行工作。这均适用于分类器和概要器。附图说明图1根据本专利技术的实施例描绘示范性运行环境;图2根据本专利技术的实施例描绘表示可搜索数据条目的语料库的示范性数据集;图3根据本专利技术的实施例描绘示范性概率图;图4根据本专利技术的实施例描绘示范性主动标记探索信息流;图5根据本专利技术的实施例描绘示范性抽样分布;图6根据本专利技术的实施例描绘示范性主动标记探索缩放的总结;图7根据本专利技术的实施例描绘示范性分类函数;图8根据本专利技术的实施例描绘示范性接口;图9根据本专利技术的实施例描绘街道地址的示范性分割;图10根据本专利技术的实施例描绘分割器的示范性格图表示;图11根据本专利技术的实施例描绘从网页提取的地址的示范性部分;图12根据本专利技术的实施例描绘用于提取地址的示范性有限状态机;图13根据本专利技术的实施例描绘用于计算路径概率的示范性有限状态机格图;图14根据本专利技术的实施例描绘示范性格图边缘权重函数;图15根据本专利技术的实施例描绘示范性有限状态机模块;图16根据本专利技术的实施例描绘示范性有限状态机;图17根据本专利技术的实施例描绘用于地址的二进制标记的系统的示范性屏幕截图;图18根据本专利技术的实施例描绘用于地址的二进制标记的系统中的示范性搜索结果;图19根据本专利技术的实施例描绘用于地址的二进制标记的系统的示范性屏幕截图;图20根据本专利技术的实施例描绘用于地址的二进制标记的系统的示范性屏幕截图;图21根据本专利技术的实施例描绘标记审阅面板的示范性屏幕截图;图22根据本专利技术的实施例描绘用户标记文档中的模型预测的示范性屏幕截图;以及图23根据本专利技术的实施例描绘标记工具的示范性屏幕截图。具体实施方式在此描述的方案产生将要被论述的若干工程和科学挑战。所述挑战包括:主动标记探索自动正则化和冷启动利用条目的数量和分类器的数量来缩放主动特征化分割和概要化在第一方面,实施计算机可用指令的计算机可读介质被提供用于实现用于机器学习的交互式特征选择的方法。提供数据条目的第一集合,其中一个或多个数据条目先前已经被标记为特定类的数据条目的示例。分类器用来确定一个或多个数据条目的预测标记。识别出在先前标记和预测标记之间有差异的一个或多个数据条目。经由用户接口,呈现在先前标记与预测标记之间具有差异的一个或多个数据条目的指示。用户接口包括特征选择接口,其配置为接收可用作输入特征来训练分类器的一个或多个特征的用户选择。经由用户接口,接收一个或多个特征的用户选择。利用一个或多个用户选定特征作为输入特征来训练分类器。可以存储用户可选择特征,并且可以将选项呈现给用户以选择一个或多个用户可选择特征,其中一个或多个用户选定特征包括从用户可选择特征中选出的一个或多个特征。用户可选择特征可以包括内置特征、用户生成特征、训练过的分类器、训练过的区段提取器、或字典中的一个或多个。用户可选择特征可以包括多个用户生成的特征。用户可选择特征可以存储在由多个用户共享的共同可访问的系统上。可以重复记分、识别、呈现、接收和训练,并且可以继续,直到接收到表明特征选择完成的用户输入。在接收到表明特征选择完成的用户输入时,分类器可被指定为可用作输入特征来训练分类器或概要器的特征,其中分类器被冻结而使得不允许重新训练分类器。在第二方面,提供了用于实现用于机器学习的交互式特征选择的方法的实施计算机可用指令的计算机可读介质。提供数据条目的第一集合,其中一个或多个数据条目包括之前已经标记为特定概要的部分的记号。对于一个或多个数据条目,概要器用来确定之前已经标记过的一个或多个记号的预测标记。识本文档来自技高网...
人机交互学习中的主动特征化

【技术保护点】
一种用于机器学习的交互式特征选择的方法,包括:提供数据条目的第一集合,其中所述数据条目中的一个或多个数据条目先前已经被标记为特定类别的数据条目的示例;使用分类器来确定所述数据条目中的一个或多个数据条目的预测的标记;识别在先前标记与预测的标记之间具有差异的一个或多个数据条目;经由用户接口来呈现在所述先前标记与所述预测的标记之间具有所述差异的所述一个或多个数据条目的指示,其中所述用户接口包括特征选择接口,所述特征选择接口被配置为接收对一个或多个特征的用户选择,所述一个或多个特征能够用作输入特征来训练所述分类器;经由所述用户接口来接收对一个或多个特征的所述用户选择;以及利用一个或多个用户选定的特征作为输入特征来训练所述分类器。

【技术特征摘要】
【国外来华专利技术】2013.07.12 US 61/845,844;2013.11.08 US 14/075,7081.一种用于机器学习的交互式特征选择的计算机实现的方法,包括:提供数据条目的第一集合,其中所述数据条目中的一个或多个数据条目先前已经被标记为特定类别的数据条目的示例;提供将要被训练的分类器;使用所述分类器来确定所述数据条目中的一个或多个数据条目的预测的标记;识别在先前标记与预测的标记之间具有差异的一个或多个数据条目;经由用户接口来呈现在所述先前标记与所述预测的标记之间具有所述差异的所述一个或多个数据条目的指示,其中所述用户接口包括特征选择接口,所述特征选择接口被配置为接收对一个或多个特征的用户选择,所述一个或多个特征能够用作输入特征来训练所述分类器;经由所述用户接口来接收对一个或多个特征的所述用户选择;以及利用一个或多个用户选定的特征作为输入特征来训练所述分类器。2.如权利要求1所述的方法,所述方法进一步包括:存储用户能够选择的特征;以及将选择所述用户能够选择的特征中的一个或多个特征的选项呈现给所述用户;其中所述一个或多个用户选定的特征包括从所述用户能够选择的特征中选出的一个或多个特征。3.如权利要求2所述的方法,其中所述用户能够选择的特征包括内置特征、用户生成的特征、训练过的分类器、训练过的区段提取器、或字典中的一个或多个。4.如权利要求2所述的方法,其中所述用户能够选择的特征包括由多个用户生成的特征。5.如权利要求4所述的方法,其中所述用户能够选择的特征被存储在由多个用户共享的能够共同访问的系统上。6.如权利要求1所述的方法,所述方法进一步包括:重复...

【专利技术属性】
技术研发人员:P·Y·西马德D·M·奇克林D·G·格朗吉耶A·拉克希米拉坦S·A·阿默诗
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1