【技术实现步骤摘要】
【国外来华专利技术】人机交互学习中的交互区段提取
实施例涉及人机交互学习中的交互区段提取。
技术介绍
非常大的数据的集合可能难以搜索和/或分析。例如,在网络的情况下,数据的一大部分是无结构的并且值被锁在数据本身中。存储服务提供商的网页是不够的。为了让该信息有用,该信息需要被理解。一个数字字符串取决于上下文可能是模型号码、银行账户、或者电话号码。例如,在滑雪板产品的上下文中,字符串“长度:170,175,180cm”指的是3种不同的滑雪板长度,而不是1700千米的滑雪板长度。不正确地解释数据可能得到没用的信息。作为示例,如果用户将两个词“mtor”和“stock(股票)”输入到因特网搜索引擎中,并且结果主要由与药物mTor相关的网页构成,搜索引擎未能将搜索认作为股票报价查询。作为另一示例,如果用户将两个词“seattle(西雅图)”和“sushi(寿司)”输入到因特网搜索引擎中,并且结果主要由与西雅图的酒店相关的网页构成,则搜索引擎未能将搜索认作为餐馆查询。虽然因特网搜索引擎经常针对标题查询和文档作出合理的工作,但是精确性快速地下降至很低,因为信息没有被搜索引擎自动理解。
技术实现思路
如果查询和网页可以被自动分类到有用的类别中,例如股票报价或餐馆,以及如果这些分类得分被用作相关性特征,则搜索结果的相关性可以被显著提升。周密的方法可能需要构建大量分类器,与多种类型的信息、活动和产品相对应。分类器的数量可能进一步乘以语言的数量和上下文(查询、网页、广告片段、产品提要等等)的数量。所期望的是,将计算机在分类和图式化任务中的精确性带到人类层次,并且使普通人轻松地创建他们自己的计算机克隆以 ...
【技术保护点】
一种由用户针对机器学习系统进行区段提取的方法,包括:存储数据条目集合,其中,每个数据条目包括多个标记;提供区段提取器,所述区段提取器能够被训练用于将数据条目中的区段识别为概念的示例,其中,所述区段包括一组标记;在用户界面上呈现表示所述概念的概念分级,其中,所述概念分级包括作为所述概念的组成部分的分级子概念,以及其中,所述子概念中的一个或多个能够由用户选择以用于将所述数据条目中的标记标注为选定的子概念的示例;接收对所述概念分级中的子概念的用户选择;使用所述区段提取器以从多个数据条目中选择第一数据条目,所述第一数据条目被预测为包括与所述概念分级相关联的所述概念的示例,其中,所述示例由所述第一数据条目的标记中的一个或多个表示;显示所述第一数据条目,其中,显示所述第一数据条目包括呈现一个或多个预标签的第一集合,所述一个或多个预标签的第一集合将一个或多个标记的第一集合识别为所述选定的子概念的预测的肯定示例;接收在显示的第二数据条目中的第一标记的用户选择,所述用户选择将所述第一标记标注为所述选定的子概念的肯定示例或否定示例;将一个或多个预标签的所述第一集合替换为一个或多个预标签的第二集合,一个或多 ...
【技术特征摘要】
【国外来华专利技术】2013.07.12 US 61/845,844;2013.11.08 US 14/075,7131.一种由用户针对机器学习系统来构建区段提取器的方法,包括:存储数据条目集合,其中,每个数据条目包括多个标记;提供区段提取器,所述区段提取器能够被训练用于将数据条目中的区段识别为概念的示例,其中,所述区段包括一组标记;在用户界面上呈现表示所述概念的概念分级,其中,所述概念分级描绘一个根节点以及一个或多个子节点,所述根节点对应于所述概念,所述子节点对应于作为所述概念的组成部分的分级子概念,其中所述子节点描绘标识与所述子节点对应的子概念的相应的标签,其中,所述子节点中的一个或多个能够由用户选择以用于对所述数据条目中的标记进行标注,以及其中,对所述概念分级中的子节点进行的选择标识了被用来对在所述数据条目中的标记进行标注的相应的标签;接收对与在所述概念分级中的选定的子概念相对应的子节点的用户选择;使用所述区段提取器以从多个数据条目中选择第一数据条目,所述第一数据条目被预测为包括与所述概念分级相关联的所述概念的示例,其中,所述示例由所述第一数据条目的标记中的一个或多个表示;显示所述第一数据条目,其中,显示所述第一数据条目包括呈现一个或多个预标签的第一集合,所述一个或多个预标签的第一集合将一个或多个标记的第一集合识别为所述选定的子概念的预测的肯定示例;接收在显示的第一数据条目中的第一标记的用户选择,所述用户选择将所述第一标记标注为所述选定的子概念的肯定示例或否定示例;将一个或多个预标签的所述第一集合替换为一个或多个预标签的第二集合,一个或多个预标签的所述第二集合将一个或多个标记的第二集合识别为所述选定的子概念的预测的肯定示例;以及至少基于将所述第一标记标注为所述选定的子概念的示例来训练所述区段提取器。2.如权利要求1所述的方法,所述方法进一步包括:显示来自所述多个数据条目的第二数据条目,其中,所述第二数据条目借助于用户提供的搜索查询来进行选择;接收在所述显示的第二数据条目中的第二标记的用户选择,所述用户选择将所述第二标记标注为所述选定的子概念的示例;以及至少基于将所述第二标记标注为所述选定的子概念的示例来训练所述区段提取器。3.如权利要求1所述的方法,其中,所述区段提取器能够被训练用于将所述区段中的标记识别为与所述概念的组成部分相对应的子概念的示例。4.如权利要求1所述的方法,所述方法进一步包括:将显示的第一数据条目或显示的第二数据条目中的至少一个划分成部分,并且表明包括所述概念的示例的部分,其中,选定的第一标记或选定的第二标记中的至少一个在所表明的部分内,并且其中,在所表明的部分之外的标记不用于训练所述区段提取器。5.如权利要求4所述的方法,其中,所表明的部分能够由所述用户重新调整大小。6.如权利要求2所述的方法,其中,一个或多个预标签的所述第二集合基于根据用户输入确定的约束来进行识别,所述用户输入...
【专利技术属性】
技术研发人员:P·Y·西马德,D·M·奇克林,D·G·格朗吉耶,D·X·查理,L·布特欧,S·A·阿默诗,A·拉克希米拉坦,C·G·J·苏亚雷斯,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。