人机交互学习中的交互区段提取制造技术

技术编号:12999095 阅读:67 留言:0更新日期:2016-03-10 12:26
非常大的数据的集合可能难以搜索和/或分析。通过在有用的类别中自动对查询和网页进行分类,以及利用这些分类得分作为相关性特征,能够显著提升相关性。完整的方法可能需要构建大量的分类器,对应于各种类型的信息、活动和产品。在大的数据集上提供分类器和图式器的创建。在数十亿条目上练习分类器和图式器可以通过添加可用的元数据来显露数据所固有的价值。一些方面包括主动标注探索、自动正则化和冷启动,通过条目数量和分类器数量来进行缩放、主动特征化以及分割和图式化。

【技术实现步骤摘要】
【国外来华专利技术】人机交互学习中的交互区段提取
实施例涉及人机交互学习中的交互区段提取。
技术介绍
非常大的数据的集合可能难以搜索和/或分析。例如,在网络的情况下,数据的一大部分是无结构的并且值被锁在数据本身中。存储服务提供商的网页是不够的。为了让该信息有用,该信息需要被理解。一个数字字符串取决于上下文可能是模型号码、银行账户、或者电话号码。例如,在滑雪板产品的上下文中,字符串“长度:170,175,180cm”指的是3种不同的滑雪板长度,而不是1700千米的滑雪板长度。不正确地解释数据可能得到没用的信息。作为示例,如果用户将两个词“mtor”和“stock(股票)”输入到因特网搜索引擎中,并且结果主要由与药物mTor相关的网页构成,搜索引擎未能将搜索认作为股票报价查询。作为另一示例,如果用户将两个词“seattle(西雅图)”和“sushi(寿司)”输入到因特网搜索引擎中,并且结果主要由与西雅图的酒店相关的网页构成,则搜索引擎未能将搜索认作为餐馆查询。虽然因特网搜索引擎经常针对标题查询和文档作出合理的工作,但是精确性快速地下降至很低,因为信息没有被搜索引擎自动理解。
技术实现思路
如果查询和网页可以被自动分类到有用的类别中,例如股票报价或餐馆,以及如果这些分类得分被用作相关性特征,则搜索结果的相关性可以被显著提升。周密的方法可能需要构建大量分类器,与多种类型的信息、活动和产品相对应。分类器的数量可能进一步乘以语言的数量和上下文(查询、网页、广告片段、产品提要等等)的数量。所期望的是,将计算机在分类和图式化任务中的精确性带到人类层次,并且使普通人轻松地创建他们自己的计算机克隆以大量地执行这种任务。作为一种示例,提供被最优化用于允许在大数据集上在数小时内创建分类器和图式器的工具。当分类器和图式器被在数十亿条目上练习时,分类器和图式器可以通过添加可用的元数据来显露数据所固有的值。这种工具的一些应用包括搜索、广告、和商业。本文使用的术语图式化指的是识别并且填充图示的域的动作。例如,食谱的图示可以由四部分构成:标题、描述、成分和指导。食谱图式的网页的图式化是将页面分割成食谱图式的一个或多个实例并且相应地填充域的动作。在尝试理解查询、网页和广告中,因特网搜索引擎已构建数百个分类器和实体提取器。不幸的是,当前方法的效力受到机器学习专家的数量、程序员的数量和任务的复杂度的限制。人类在从数据中提取语义意义方面是杰出的。当数据为人类或由人类创作时这尤其是真实的。例如,人类可以容易地标注(或者分割)网页、查询或产品提要。不幸的是,人类在大规模地做这些事情方面是糟糕的。以每个页面十秒的速度,对于人来说一生时间将不够过滤一亿网页以识别所有与给定主题相关的页面。计算机具有恰好相反的能力。计算机在语义理解方面是令人尴尬地不佳的,而在大规模地做事情方面是杰出的。本文描述的方法之后的哲学是构建平衡人类和计算机的优点的高度交互式以及直观的系统。“高度交互式”意指由人类输入的标签或特征应当对计算具有直接的影响。在数秒之内,标签或特征应当影响犯了或避免了哪些错误,下一个应当标注哪个条目,用户应当注重哪个特征,以及应当添加或删除图式的哪个域。“直观”意指用户应当理解用户的动作的效果并且如果在不需要机器学习或编程专业知识的情况下如何实现用户的目的。该方法需要来自计算机和人类的循环。循环可以紧凑地通过快速机器学习“修正”来干预。人类在引导计算机并且反之亦然。效率的另一方面是以其他人的工作上为基础进行工作的能力。网络爆炸的重要贡献者是“查看源代码”和复制-粘贴能力。在机器学习中,复制-粘贴能力来自以下事实:所训练的分类器可以用作其他的分类器的特征。通过创建可搜索以及记录的分类器资源库,人们能够以彼此的工作为基础进行工作。这均适用于分类器和图式器。附图说明图1根据本专利技术的实施例描绘了示例性运行环境;图2根据本专利技术的实施例描绘了表示可搜索数据条目的语料库的示例性数据集;图3根据本专利技术的实施例描绘了示例性概率图;图4根据本专利技术的实施例描绘了示例性主动标注探索信息流;图5根据本专利技术的实施例描绘了示例性采样分布;图6根据本专利技术的实施例描绘了示例性主动标注探索缩放的概要;图7根据本专利技术的实施例描绘了示例性分类函数;图8根据本专利技术的实施例描绘了示例性界面;图9根据本专利技术的实施例描绘了街道地址的示例性分割;图10根据本专利技术的实施例描绘了分割器的示例性格图表示;图11根据本专利技术的实施例描绘了从网页提取的地址的示例性部分;图12根据本专利技术的实施例描绘了用于提取地址的示例性有限状态机;图13根据本专利技术的实施例描绘了用于计算路径概率的示例性有限状态机格图;图14根据本专利技术的实施例描绘了示例性格图边缘权重函数;图15根据本专利技术的实施例描绘了示例性有限状态机模块;图16根据本专利技术的实施例描绘了示例性有限状态机;图17根据本专利技术的实施例描绘了用于地址的二进制标注的系统的示例性屏幕截图;图18根据本专利技术的实施例描绘了用于地址的二进制标注的系统中的示例性搜索结果;图19根据本专利技术的实施例描绘了用于地址的二进制标注的系统的示例性屏幕截图;图20根据本专利技术的实施例描绘了用于地址的二进制标注的系统的示例性屏幕截图;图21根据本专利技术的实施例描绘了标注审阅面板的示例性屏幕截图;图22根据本专利技术的实施例描绘了用户标注文档中的模型预测的示例性屏幕截图;以及图23根据本专利技术的实施例描绘了标注工具的示例性屏幕截图。具体实施方式本文描述的方案产生若干工程和科学挑战,它们将在下文中进行论述。所述挑战包括:a)主动标注探索b)自动正则化和冷启动c)利用条目的数量和分类器的数量来缩放d)主动特征化e)分割和图式化在第一方面,实施计算机可用指令的计算机可读介质被提供用于实现由用户针对机器学习系统进行的区段提取的方法。存储数据条目集合,其中每个数据条目包括多个标记。提供区段提取器,所述区段提取器可训练用于将数据条目中的区段识别为概念示例,其中区段包括一组标记。在用户界面上,呈现表示概念的概念分级,其中概念分级包括是概念的构成部分的分级的子概念,并且其中子概念的一个或多个是用户可选择的,以用于将数据条目中的标记标注为选定子概念的示例。接收概念分级中的子概念的用户选择。区段提取器被用于从多个数据条目中选择第一数据条目,所述第一数据条目被预测为包括与概念分级相关联的概念的示例,其中所述示例由第一数据条目中的一个或多个标记来表示。显示第一数据条目,其中显示第一数据条目包括呈现一个或多个预标签的第一集合,所述一个或多个预标签的第一集合将一个或多个标记的第一集合识别为选定的子概念的预测的肯定示例。接收所显示的第二数据条目中的第一标记的用户选择,所述选择将第一标记标注为选定子概念的肯定或否定示例。一个或多个预标签的第一集合利用将一个或多个标记的第二集合识别为选定的子概念的预测的肯定示例的一个或多个预标签的第二集合来进行替换。至少基于将第一标记标注为选定子概念的示例来训练区段提取器。可以显示来自多个数据条目的第二数据条目,其中第二数据条目可以借助于用户提供的搜索查询来进行选择。可以接收所显示的第二数据条目中的第二标记的用户选择,所述选择将第二标记标注为选定的子概念的示例。可以至少基于将第二标记标注为选定的子概念的示例来训练区段提取器本文档来自技高网...

【技术保护点】
一种由用户针对机器学习系统进行区段提取的方法,包括:存储数据条目集合,其中,每个数据条目包括多个标记;提供区段提取器,所述区段提取器能够被训练用于将数据条目中的区段识别为概念的示例,其中,所述区段包括一组标记;在用户界面上呈现表示所述概念的概念分级,其中,所述概念分级包括作为所述概念的组成部分的分级子概念,以及其中,所述子概念中的一个或多个能够由用户选择以用于将所述数据条目中的标记标注为选定的子概念的示例;接收对所述概念分级中的子概念的用户选择;使用所述区段提取器以从多个数据条目中选择第一数据条目,所述第一数据条目被预测为包括与所述概念分级相关联的所述概念的示例,其中,所述示例由所述第一数据条目的标记中的一个或多个表示;显示所述第一数据条目,其中,显示所述第一数据条目包括呈现一个或多个预标签的第一集合,所述一个或多个预标签的第一集合将一个或多个标记的第一集合识别为所述选定的子概念的预测的肯定示例;接收在显示的第二数据条目中的第一标记的用户选择,所述用户选择将所述第一标记标注为所述选定的子概念的肯定示例或否定示例;将一个或多个预标签的所述第一集合替换为一个或多个预标签的第二集合,一个或多个预标签的所述第二集合将一个或多个标记的第二集合识别为所述选定的子概念的预测的肯定示例;以及至少基于将所述第一标记标注为所述选定的子概念的示例来训练所述区段提取器。...

【技术特征摘要】
【国外来华专利技术】2013.07.12 US 61/845,844;2013.11.08 US 14/075,7131.一种由用户针对机器学习系统来构建区段提取器的方法,包括:存储数据条目集合,其中,每个数据条目包括多个标记;提供区段提取器,所述区段提取器能够被训练用于将数据条目中的区段识别为概念的示例,其中,所述区段包括一组标记;在用户界面上呈现表示所述概念的概念分级,其中,所述概念分级描绘一个根节点以及一个或多个子节点,所述根节点对应于所述概念,所述子节点对应于作为所述概念的组成部分的分级子概念,其中所述子节点描绘标识与所述子节点对应的子概念的相应的标签,其中,所述子节点中的一个或多个能够由用户选择以用于对所述数据条目中的标记进行标注,以及其中,对所述概念分级中的子节点进行的选择标识了被用来对在所述数据条目中的标记进行标注的相应的标签;接收对与在所述概念分级中的选定的子概念相对应的子节点的用户选择;使用所述区段提取器以从多个数据条目中选择第一数据条目,所述第一数据条目被预测为包括与所述概念分级相关联的所述概念的示例,其中,所述示例由所述第一数据条目的标记中的一个或多个表示;显示所述第一数据条目,其中,显示所述第一数据条目包括呈现一个或多个预标签的第一集合,所述一个或多个预标签的第一集合将一个或多个标记的第一集合识别为所述选定的子概念的预测的肯定示例;接收在显示的第一数据条目中的第一标记的用户选择,所述用户选择将所述第一标记标注为所述选定的子概念的肯定示例或否定示例;将一个或多个预标签的所述第一集合替换为一个或多个预标签的第二集合,一个或多个预标签的所述第二集合将一个或多个标记的第二集合识别为所述选定的子概念的预测的肯定示例;以及至少基于将所述第一标记标注为所述选定的子概念的示例来训练所述区段提取器。2.如权利要求1所述的方法,所述方法进一步包括:显示来自所述多个数据条目的第二数据条目,其中,所述第二数据条目借助于用户提供的搜索查询来进行选择;接收在所述显示的第二数据条目中的第二标记的用户选择,所述用户选择将所述第二标记标注为所述选定的子概念的示例;以及至少基于将所述第二标记标注为所述选定的子概念的示例来训练所述区段提取器。3.如权利要求1所述的方法,其中,所述区段提取器能够被训练用于将所述区段中的标记识别为与所述概念的组成部分相对应的子概念的示例。4.如权利要求1所述的方法,所述方法进一步包括:将显示的第一数据条目或显示的第二数据条目中的至少一个划分成部分,并且表明包括所述概念的示例的部分,其中,选定的第一标记或选定的第二标记中的至少一个在所表明的部分内,并且其中,在所表明的部分之外的标记不用于训练所述区段提取器。5.如权利要求4所述的方法,其中,所表明的部分能够由所述用户重新调整大小。6.如权利要求2所述的方法,其中,一个或多个预标签的所述第二集合基于根据用户输入确定的约束来进行识别,所述用户输入...

【专利技术属性】
技术研发人员:P·Y·西马德D·M·奇克林D·G·格朗吉耶D·X·查理L·布特欧S·A·阿默诗A·拉克希米拉坦C·G·J·苏亚雷斯
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1