当前位置: 首页 > 专利查询>微软公司专利>正文

针对口语语言理解中的域检测利用查询点击记录制造技术

技术编号:9601165 阅读:86 留言:0更新日期:2014-01-23 05:45
口语语言理解系统中的域检测训练可以被提供。与搜索引擎相关联的记录数据可以被接收,所述记录数据的每一个都与搜索查询相关联。针对每个搜索查询的域标签可以被识别,并且所述域标签和链接数据可以被提供给针对口语语言理解模型的训练集。

【技术实现步骤摘要】
【国外来华专利技术】针对口语语言理解中的域检测利用查询点击记录
技术介绍
从搜索引擎查询记录挖掘(mined)的搜索查询可以被分析以便改进口语语言理解(SLU)应用中的域检测。理解应用中的三个关键任务是域分类、意图确定以及空位(slot)填充。域分类在SLU系统常常被首先完成,用作后续处理的顶层分类。域检测系统可以被框定(framed)为分类问题。给定用户表达或句子语义域标签的集合J,.C C可以与^相关联,其中C是覆盖的域的有限集。为了执行这个分类任务,具有最大条件概率的类可以被选择。在常规系统中,监督的分类方法可以被用来估计这些条件概率并且每个域类可以从一组贴标签的表达被训练。收集并且注解自然口语表达以便训练这些域类常常是昂贵的,表示在精力和财产两方面的部署的重大障碍。
技术实现思路

技术实现思路
被提供来以简化形式介绍选择的概念,这些概念在下面在【具体实施方式】中被进一步描述。本
技术实现思路
不旨在识别所要求保护的主题的关键特征或必要特征。本
技术实现思路
也不旨在被用来限制所要求保护的主题的范围。口语语言理解系统中的域检测训练可以被提供。每个都与搜索查询相关联的、与搜索引擎相关联的记录数据可以被接收。针对每个搜索查询的域标签可以被识别,并且所述域标签和链接数据可以被提供给针对口语语言理解模型的训练集。前述一般描述和以下具体描述提供例子并且仅仅是解释性的。因此,前述一般描述和以下具体描述不应该被认为为限制性的。进一步地,可以提供附加于本文中所阐述的那些的特征或变化。例如,实施例可以针对在【具体实施方式】中所描述的各种特征组合和子组合。【附图说明】被并入且构成本公开的一部分的附图图示了本专利技术的各种实施例。在图中: 图1是操作环境的框图; 图2是用于提供域检测训练的方法的流程图; 图3是用于对域标签进行分类的、图2的方法的子例程的流程图;以及 图4是计算装置的框图。【具体实施方式】以下具体描述参考附图。只要有可能,相同的参考标号在图和以下描述中被用来指代相同或相似的元素。虽然本专利技术的实施例可能被描述,但是修改、改编及其它实施方案是可能的。例如,可以对图中所图示的元素作出代替、附加或修改,并且本文中所描述的方法可以通过对所公开的方法代替、重新排序或添加阶段而被修改。因此,以下具体描述不限制本专利技术。本专利技术的实施例可以提供用于在口语语言表达(utterances)的域检测中利用查询点击记录的系统和/或方法。搜索引擎中的隐式地贴标签的web搜索查询的丰富可以被利用来帮助训练域检测类。诸如Bing?或Google?之类的大型引擎每天记录大于IOOM个搜索查询。记录中的每个查询可以与在用户键入查询之后被点击的一组统一资源定位符(URL)相关联。这个用户点击信息可以被用来推断域类标签,并且因此,可以在训练域分类器中提供(可能地嗜杂)监督。例如,在相同的URL(例如,http://www.hotels, com)上点击的两个用户的查询可能来自相同的域(例如,“hotels (旅馆)”)。点击的URL类别可以被分配作为用户查询的域标签。例如,当用户已在http://WWW.hotels, com上点击时,标签“hotels (旅馆)”可以被分配给用户查询“Holiday Innand Suites (假日酒店和套房)”。然而,点击数据可能是嘈杂的并且以低频率发生。因此,通过挖掘查询点击记录来收集人们通过使用相同的精确查询搜索过的URL的集合对于估计成功的点击也可能是有用的。诸如查询熵(entropy)、停延时间以及会话长度之类的若干特征可以被评估以用于挖掘高质量点击。用户动作模式和停延时间可以被用来估计成功的搜索会话。查询熵和频率可以与来自域检测的其它特征结合(所述其它特征诸如由在贴标签的数据上训练的域检测模型所分配的概率),以便取样都用于作为例子添加到训练集的高质量点击,并且以便预取样用于在监督的分类器训练和/或诸如标签传播之类的半监督和微监督的学习方法中使用的数据。标签传播算法可以将域注解从贴标签的自然语言(NL)表达转换为未贴标签的web搜索查询。点击信息还可以被认为是嘈杂监督,并且从已点击的URL类别中提取的域标签可以被合并到标签传播算法中。查询点击数据可以包括搜索引擎用户的查询的记录和他们从由搜索引擎所返回的站点的列表所点击的链接。然而,一些点击数据是非常嘈杂的,并且可能包括被几乎任意地点击的链接。取样措施可以是来自用于在域检测中使用的已点击URL的域标签和应用的查询。来自嘈杂的用户点击的监督然后可以被包括到标签传播算法中,所述标签传播算法可以将域标签从贴标签的例子转换为经取样的搜索查询。其用户在与目标域类别相关的URL上点击的一组查询可以被提取。查询点击记录然后可以被挖掘以便下载这些搜索查询的实例和由键入相同查询的搜索引擎用户点击的链接的集合。用于对查询的子集进行取样的标准可以包括查询频率、查询(点击)熵和/或查询长度。查询频率可以指的是查询已被不同用户在给定时间范围中搜索的次数。在口语对话系统中,用户可以与web搜索用户问相同的事情,从而将频繁的搜索查询添加到域检测训练集可以帮助提高它的准确性。查询(点击)熵旨在测量由查询7的用户所点进的URL的多样性(diversity),并且可以根据在下面的等式I被计算。本文档来自技高网...
针对口语语言理解中的域检测利用查询点击记录

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2011.05.13 US 61/485778;2011.05.13 US 61/485664;201.一种用于提供域检测训练的方法,所述方法包括: 接收与搜索引擎相关联的多个记录数据,其中所述多个记录数据中的每一个都与搜索查询相关联; 识别针对所述多个记录数据中的至少一个的所述搜索查询的域标签;以及 将所述域标签和所述多个链接数据中的至少一个提供给针对理解模型的训练集。2.根据权利要求1所述的方法,其中,所述多个记录数据中的每一个都包括选自与所述搜索查询相关联的多个搜索结果的至少一个统一资源定位符(URL)。3.根据权利要求2所述的方法,其中,识别所述域标签包括比较至少与所述多个记录数据的子集相关联的URL。4.根据权利要求1所述的方法,进一步包括: 确定所述多个链接数据中的所述至少一个是否包括成功的搜索;以及响应于确定所述多个链接数据中的所述至少一个不包括成功的搜索,从所述训练集中丢弃所述多个链接数据中的所述至少一个。5.根据权利要求4所述的方法,其中,确定所述多个链接数据中的所述至少一个是否包括成功的搜索包括分析与所述多个链接数据中的所述至少一个相关联的至少一个链接特性。6.一种用于提供域检测训练的系统,所述系统包括: 记忆储存器;以及 耦合到所述记忆储存器的处理单元,其中所述处理单元可操作来: 识别与目标域标签相关联的多个查询记录数据, 从所述多个查询记录数据中的每一个中提取搜索查询、至少一个跟随的链接以及至少一个链接特性, 根据所述至少一个链接特性来对所述多个查询记录数据的子集进行取样, 将所述目标域标签分配给所述多个查询记录数据的所述子集中的每一个,以及 将所述多个查询记录数据的所述子集提供给口语语言理解模型。7....

【专利技术属性】
技术研发人员:D哈卡尼图尔LP赫克G图尔
申请(专利权)人:微软公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1