用于序列标签器的训练系统和方法技术方案

技术编号:16388504 阅读:56 留言:0更新日期:2017-10-16 08:58
用于比如条件随机场模型之类的序列标签器或者训练该序列标签器的系统和方法。更具体地,系统和方法利用用于具体应用的来自众包的数据的部分地标注的数据和来自搜索日志的部分地标注的数据来训练序列标签器。另外,在此公开的系统和方法通过利用受约束格构仅利用部分地标注的数据来训练序列标签器,其中受约束格构内的每个输入值可以具有多个候选标签,该多个候选标签具有置信分数。因而,系统和方法与利用至少一些完全地标注的训练数据而被训练的序列标签器相比,提供更准确的序列加标签系统、更可靠的序列加标签系统和更高效的序列加标签系统。

【技术实现步骤摘要】
【国外来华专利技术】用于序列标签器的训练系统和方法
技术介绍
机器学习、语言理解和人工智能正在改变用户与计算机交互的方式。计算机和应用的开发者总是试图改进人与计算机之间的交互。然而,语言理解模型的开发需要大量时间、金钱和其它资源来实现。鉴于这些和其它一般考虑而已经了做出在此公开的实施例。另外,虽然可以讨论相对地具体的问题,但是应当理解,实施例不应限于解决在
技术介绍
中或者在本公开内容中的别处指出的具体问题。
技术实现思路
概括而言,公开内容总体上涉及用于训练作为序列标签器(比如条件随机场模型)的系统和方法。更具体地,在此公开的系统和方法利用来自众包的数据的、用于具体应用的部分地标注的数据和来自搜索日志的部分地标注的数据来训练序列标签器。在此公开的系统和方法通过将部分地标注的数据合并成受约束格构、仅利用部分地标注的数据来训练序列标签器,其中受约束格构内的每个输入值可以具有多个候选标签,该多个候选标签具有置信分数。因而,在此公开的用于训练序列标签器的系统和方法提供更准确的序列加标签系统、更可靠的序列加标签系统和更高效的序列加标签系统。另外,在此描述的用于通过仅利用用于具体应用的部分地标注的数据和来自搜索日志的部分地标注的数据来训练序列标签器的系统和方法减少为了构建用于应用的语言理解模型而必需的时间和资源。公开内容的一个方面涉及一种用于利用机器学习技术来训练序列标签器的方法。该方法包括从第一来源获得用于具体应用的部分地标注的数据并且从第二来源获得部分地标注的数据。第二来源是搜索日志。该方法还包括将来自第一来源和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个输入值具有多个候选标签,该多个候选标签具有置信分数。该方法附加地包括基于受约束格构来运行训练算法以估计模型参数。与利用至少一些完全地标注的数据而被训练的序列标签器相比,该方法提供更准确的序列标签器和更可靠的序列标签器。公开内容的另一方面包括一种用于条件随机场的训练系统。训练系统包括计算设备。计算设备包括处理单元和存储器。处理单元实施受约束格构系统。受约束格构系统可操作用于从众包的数据获得用于具体应用的部分地标注的数据并且从搜索日志获得部分地标注的数据。受约束格构系统还可操作用于将来自众包的数据和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个词具有多个候选标签,该多个候选标签具有置信分数。附加地,受约束格构系统可操作用于基于受约束格构来运行训练算法以估计模型参数。公开内容的又一方面包括一种用于利用机器学习技术来构建语言理解模型的系统。该系统包括至少一个处理器和包括存储于其上的计算机可执行指令的一个或者多个计算机可读存储介质。计算机可执行指令由至少一个处理器执行。计算机可执行指令使得该系统执行操作,这些操作包括从众包的数据获得用于具体应用的部分地标注的数据并且从搜索日志获得部分地标注的数据。计算机可执行指令还使得该系统执行操作,这些操作包括将来自众包的数据和来自搜索日志的部分地标注的数据合并成受约束格构。受约束格构内的每个词具有多个候选标签,该多个候选标签具有置信分数。受约束格构系统由于每个词具有允许的候选标签类型的集合并且由于多个候选标签被结构化而被约束。附加地,计算机可执行指令使得该系统执行操作,这些操作包括基于受约束格构来运行训练算法以估计模型参数。语言理解模型是经训练的条件随机场。提供这一
技术实现思路
以用简化的形式介绍以下在具体实施方式中被进一步描述的概念的选集。这一
技术实现思路
并非旨在于标识要求保护的主题内容的关键特征或者实质特征,它也并非旨在于用来限制要求保护的主题内容的范围。附图说明参照以下各图来描述非限制和非穷举实施例。图1是图示了用于训练序列标签器的系统的示例的框图。图2是图示了将基于串的对准算法应用于来自商业数据库的点进数据以对准语义标签与查询-知识点击图形的示例的示意图。图3是图示了从查询“playthelatestbatmanmovie(播放最新的蝙蝠侠电影)”创建的受约束格构的示例的示意图。图4是图示了用于训练序列标签器的方法的示例的流程图。图5是图示了用于从获得自商业搜索引擎的未标注的数据自动地生成部分地标注的数据的方法的示例的流程图。图6是图示了可以用来实践公开内容的实施例的计算设备的示例物理部件的框图。图7A和图7B是可以用来实践本公开内容的实施例的移动计算设备的简化框图。图8是可以在其中实践本公开内容的实施例的分布式计算系统的简化框图。具体实施方式在以下具体实施方式中,参照附图,这些附图形成以下具体实施方式的部分并且在附图中通过说明示出了具体实施例或者示例。在并未脱离本公开内容的精神实质或者范围的情况下可以组合这些方面,可以利用其它方面并且可以做出结构改变。以下具体描述因此不会在限制意义上被解读,并且本公开内容的范围由权利要求及其等效含义限定。机器学习、语言理解和人工智能的进步正在改变用户与计算机交互的方式。数字助理应用(比如Siri、GoogleNow和Cortana)是人类计算机交互中的转变的示例。然而,目前让在创建这些数字应用的公司以外的开发者在这些已经创建的数字助理应用内为它们自己的应用构建语言理解体验是极为困难和/或资源密集的。换而言之,这些数字助理应用的第三方可扩展性经常是资源禁止性的。例如,在创建这些数字应用的公司以外的开发者经常被要求获得大量完全地标注的数据。完全地标注的数据经常需要大量时间和资源来开发。特别地,构建在语言理解中发挥关键作用以提取实体和语义作用的序列标签器需要大量完全地标注的数据,这经常妨碍第三方能够快速地将新域引导到系统中以便为它们自己的应用构建语言理解体验。通常地没有允许第三方开发者为另一方的应用构建语言理解模型而无需大量完全地标注的数据的系统或者方法。尽管先前系统已经尝试通过利用搜索日志来改进序列标签器的弱监督的训练,但是这些系统和方法已经无法将用于具体应用的部分地标注的众包的数据合并成概率模型框架,并且代之以需要使用一些完全地标注的众包的数据。在此公开的系统和方法能够通过利用用于具体应用的部分地标注的众包的数据和来自搜索日志的部分地标注的数据二者来训练序列标签器。因而,如在此公开的系统和方法允许第三方开发者为另一方的应用构建语言理解模型而无需任何完全地标注的数据。换而言之,如在此公开的系统和方法使第三方能够在“意图即服务”IaaS平台中构建语言理解模型,这允许第三方开发者从训练数据容易地构建语言理解模型。在此描述的系统和方法的用于通过利用用于具体应用的部分地标注的众包的数据和来自搜索日志的部分地标注的数据二者来训练序列标签器的能力提供更准确的序列加标签系统、更可靠的序列加标签系统和更高效的序列加标签系统。另外,在此描述的系统和方法的用于通过利用用于具体应用的部分地标注的众包的数据和来自搜索日志的部分地标注的数据二者来训练序列标签器的能力减少为了构建用于应用的语言理解模型而必需的时间和资源。图1总体上图示了用于训练序列标签器的系统100的示例。序列标签器被设计为利用机器学习技术对广泛多种不同输入进行分类(在此也被称为标注或者加标签)。输入可以是需要被集群或者分类的任何数据序列,比如查询、搜索查询、基因组序列等。在所图示的示例中,序列标签器(在此也被称为序列加标签系统)是条件随本文档来自技高网
...
用于序列标签器的训练系统和方法

【技术保护点】
一种用于利用机器学习技术来训练序列标签器的方法,所述方法包括:从第一来源获得用于具体应用的部分地标注的数据;从第二来源获得部分地标注的数据,其中所述第二来源是搜索日志;将来自所述第一来源和来自所述搜索日志的所述部分地标注的数据合并成受约束格构,其中所述受约束格构内的每个输入值具有多个候选标签,所述多个候选标签具有置信分数;基于所述受约束格构来运行训练算法以估计模型参数,其中与利用至少一些完全地标注的数据而被训练的序列标签器相比,所述方法提供更准确的序列标签器和更可靠的序列标签器,并且其中所述序列标签器是条件随机场。

【技术特征摘要】
【国外来华专利技术】2015.02.17 US 14/623,8461.一种用于利用机器学习技术来训练序列标签器的方法,所述方法包括:从第一来源获得用于具体应用的部分地标注的数据;从第二来源获得部分地标注的数据,其中所述第二来源是搜索日志;将来自所述第一来源和来自所述搜索日志的所述部分地标注的数据合并成受约束格构,其中所述受约束格构内的每个输入值具有多个候选标签,所述多个候选标签具有置信分数;基于所述受约束格构来运行训练算法以估计模型参数,其中与利用至少一些完全地标注的数据而被训练的序列标签器相比,所述方法提供更准确的序列标签器和更可靠的序列标签器,并且其中所述序列标签器是条件随机场。2.一种用于条件随机场的训练系统,所述训练系统包括:计算设备,包括处理单元和存储器,所述处理单元实施受约束格构系统,所述受约束格构系统可操作用于:从众包的数据获得用于具体应用的部分地标注的数据;从搜索日志获得部分地标注的数据;将来自所述众包的数据和来自所述搜索日志的所述部分地标注的数据合并成受约束格构,其中所述受约束格构内的每个词具有多个候选标签,所述多个候选标签具有置信分数;基于所述受约束格构来运行训练算法以估计模型参数。3.根据权利要求2所述的训练系统,其中来自所述搜索日志的所述部分地标注的数据从来自商业搜索引擎的未标注的数据而被生成。4.根据权利要求2所述的训练系统,其中当所述受约束格构中的词具有不确定的标签时,所述受约束格构向所述词指派来自方案的所有候选标签。5.根据权利要求2所述的训练系统,其中所述受约束格构由于每个词具有允许的候选标签类型的集合并且由于所述多个候选标签被结构化而被约束,并且其中所述多个候选标签由于一些候选标签类型无法跟随某些其它候选标签类型而被结构化。6.根据权利要求2所述的训练系统,其中所述训练算法将来自所述受约束格构的候选标签与来自未约束格构的对应候选标签之间的能量差距最小化。7.根据权利要求2所述的训练系统,...

【专利技术属性】
技术研发人员:郑珉宇金永邦R·萨里卡亚
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1