当前位置: 首页 > 专利查询>微软公司专利>正文

自动地生成训练数据制造技术

技术编号:6977761 阅读:241 留言:0更新日期:2012-04-11 18:40
本发明专利技术揭示了自动生成训练数据的技术。计算机可读介质、计算机系统,以及计算设备促进生成二进制分类器和实体提取器训练数据。选择种子URL,并标识种子URL内的URL模式。标识数据结构中的匹配URL,并将对应的查询以及它们的相关联的权重添加到从其中选择训练数据的潜在的训练数据集中。

【技术实现步骤摘要】

本专利技术涉及搜索技术,尤其涉及自动生成训练数据。
技术介绍
Web搜索已经变得用于查找信息的普通技术。流行的搜索引擎允许用户根据由用户在由搜索引擎所提供的用户界面(例如,在客户端设备上显示的搜索引擎网页)中输入的搜索项来执行广泛的基于web的搜索。广泛的搜索可以返回可包括来自各种域(其中, 域是指特定类别的信息)的结果。在某些情况下,用户可能希望搜索特定域所特定的信息。例如,用户可以试图执行音乐搜索或执行产品搜索。这样的搜索(被称为“域特定搜索”)是其中当执行搜索时(例如,搜索特定歌曲或记录歌星,搜索特定产品等等)用户在心中具有对于来自特定域的信息的特定查询意图。可以通过垂直搜索服务来提供域特定搜索,垂直搜索服务可以是由通用搜索引擎所提供的,或者可替换地,由垂直搜索引擎所提供的服务。垂直搜索服务提供来自特定域的搜索结果,并通常不从不与特定域相关的域返回搜索结果。一种特殊类型的垂直搜索服务的一个示例此处被称为即时应答服务。即时应答是指作为对在主要搜索结果网页上向用户提供的搜索查询的应答或响应的搜索结果。即,响应于查询,在搜索结果页面向用户呈现域特定内容,而用户可能需要以另外的方式选择搜索结果网页内的链接以导航到另一个网页,此后,进一步搜索所希望的信息。例如,假设用户搜索查询是“西雅图的天气”。搜索结果网页内的算法结果可包括到weather, com的URL。在这样的情况下,用户可以选择URL,转移到该网页,此后,输入 kattle(西雅图)以获取西雅图的天气。通过比较,在搜索结果网页上呈现的即时应答包含西雅图的天气,以便用户不需要导航到另一个网页以查找天气。可以理解,即时应答可以涉及任何主题,包括,例如,天气、新闻、地区码、货币兑换、词典术语、百科全书条目、金融、 航班、健康、假日、日期、宾馆、本地列表、数学、电影、音乐、购物、体育、包裹跟踪等等。即时应答可以采取图标、按钮、链接、文本、视频、图像、照片、音频、其组合等等形式。查询意图分类器可以被用来确定由搜索引擎接收到的查询是否应该触发诸如,例如,即时应答服务的垂直搜索服务。例如,词典一定义意图分类器可以确定接收到的查询是否可能与词典一定义搜索相关联。如果接收到的查询被分类为与词典一定义搜索关联,那么,可以调用对应的垂直搜索服务以标识词典一定义搜索域中的搜索结果(可包括,例如, 涉及词典一定义搜索的网站)。在一个具体示例中,词典一定义意图分类器可以将包含搜索阶段“定义保真度(fidelity),,的查询分类为如词典一定义意图搜索那样正的,因此,该查询将触发对包括“保真度(fidelity)”的单词和词组的词典定义的垂直搜索。另一方面,词典一定义意图分类器可能将包含搜索短语“Fidelity”(这是一家著名的金融机构的名称) 的查询分类为对于词典一定义意图搜索是负的(或不是正的),因此,将不会触发垂直搜索服务。由于“Fidelity”是一家著名的公司的名称,“保真度(fidelity)”在搜索短语中的单独存在不一定应该触发词典一定义相关的域特定搜索或即时应答。查询一意图分类器的开发人员所面临的挑战是,典型的训练技术(用于训练查询一意图分类器)必须配备有足够的训练数据量。在某些情况下,查询一意图分类器是使用被标记为对于查询意图是正的或者负的的训练数据来训练的,而在其他情况下,查询一意图分类器只是使用被标识为正的训练数据的训练数据来训练的。用不够的训练数据来构建分类器会导致不准确的分类器。传统上,标识给定查询是否是特定域的一部分(诸如,例如,音乐、电影、职业、词典定义等等)的机器一学习二元查询分类器,以及将一个查询分段为几个部分的集合的实体提取器,在大规模构建方面是昂贵的,因为每一个都要求数以万计正的训练一查询样本。 这些样本历史上是由鉴定人标记的,鉴定人通常每天只产生几百个样本,并导致大量的管理费。
技术实现思路
提供本
技术实现思路
是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围。本专利技术的各实施方式促进分类器和实体提取器正的训练数据的自动生成。通过实现本专利技术的各实施方式的各方面,搜索服务可以大规模地生成正的域内训练数据,允许以足够高的速率创建高质量的分类器以跟上搜索引擎,例如,连续地扩展为以跨多个域构建丰富的体验的分类器。此处所描述的方法可以完全自动化,从而不需要手动标记初始查询 (或标记任何类型)。另外,此处所描述的算法可以有效地在任意数量的服务器、机器等等上运行。在本专利技术的各实施方式的某些方面,分类器是通过接收将查询与由查询所标识的统一资源定位符(URL)进行关联的数据结构来构建的。选择种子(例如,初始)URL的集合,并基于URL,标识包括一个或多个子域的域。然后,检查数据结构,以标识数据结构中的具有匹配的子域的每一个URL。将与每一个标识的URL相关联的全部查询添加到潜在的训练数据的集合中,从该集合中选择满足某一准则的查询。然后,使用所选查询作为训练分类器的训练数据。在本专利技术的各实施方式的某些方面,实体提取器是通过接收将查询与由查询所标识的统一资源定位符(URL)进行关联的数据结构来构建的。选择种子(例如,初始)URL的集合,基于URL,标识包括一个或多个实体(并可包括排列、朝向等等)的实体模式。然后, 检查数据结构,以标识数据结构中的具有实体模式的每一个URL。将与每一个标识的URL相关联的全部查询添加到潜在的训练数据的集合中,从该集合中选择满足某一准则的查询。 然后,使用所选查询作为训练实体提取器的训练数据。对于上下文,假设某一 URL 模式(例如,www. contoso. com/music/artist/)被标识为特定域的一部分(例如,音乐),那么,在某些实施方式中,可以假设,带有到该同一模式的URL的点击的大多数查询还具有对于同一个域的意图(例如,{coldplay albums}导致在www. contoso. com/music/artist/coldplay/albums. jhtml 上的点击,如此,{coldplay albums}可能是与音乐相关的)。此外,还以这样的方式来构建某些这样的URL,以便可以从 URL本身中提取相关的实体名称,这可以促进将相同实体名称标记为查询的组件(在上面的相同URL示例中,跟随"/artist/"后面的URL段是实际歌星名称,“Coldplay”,然后, 可以使用该名称来标记到示例查询中的第一项)。此处所描述的技术提供了用于从点击数据生成大量的训练查询的可缩放的解决方案。例如,大型搜索引擎可以具有点击图,该点击图包含,例如,与从比方说2009年6月到当前的每一个查询相关联的由每个用户所发出的每个查询,以及每个用户对每个URL的点击。一旦标识了几个URL模式,可以将它们自动地针对点击图运行,并应用某一阈值。此过程的输出是正的查询样本的足够大的集合,用于现有的机器学习算法中,以创建二进制分类器和实体提取器分类器模型。这些模型可以在运行时被托管,并可以被用来分类和分段用户查询。将被视为具有对于某一域(例如,音乐)的意图的那些查询分段为它们的构成部分,并馈送给域的即时应答服务,以便检本文档来自技高网
...

【技术保护点】
1.在其上包含计算机可执行指令的一个或多个计算机可读介质,所述计算机可执行指令在由与搜索服务相关联的计算设备中的处理器执行时,使所述计算设备执行相对于内容域标识点击数据中的查询和统一资源定位符URL之间的正关联的方法;所述方法包括:接收将查询与由所述查询所标识的URL相关联的数据结构;标识与所述内容域相关联的第一URL模式;确定所述点击图中的第一URL的至少一部分与所述第一URL模式相匹配;标识与所述第一URL相关联的第一查询;以及确定所述第一查询和所述第一URL相对于所述内容域具有正关联。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:G·比勒P·沃拉A·麦克戈文S·阿哈里M·纳拉辛汉
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1