【技术实现步骤摘要】
【国外来华专利技术】针对口语语言理解中的域检测利用查询点击记录
技术介绍
从搜索引擎查询记录挖掘(mined)的搜索查询可以被分析以便改进口语语言理解(SLU)应用中的域检测。理解应用中的三个关键任务是域分类、意图确定以及空位(slot)填充。域分类在SLU系统常常被首先完成,用作后续处理的顶层分类。域检测系统可以被框定(framed)为分类问题。给定用户表达或句子语义域标签的集合J,.C C可以与^相关联,其中C是覆盖的域的有限集。为了执行这个分类任务,具有最大条件概率的类可以被选择。在常规系统中,监督的分类方法可以被用来估计这些条件概率并且每个域类可以从一组贴标签的表达被训练。收集并且注解自然口语表达以便训练这些域类常常是昂贵的,表示在精力和财产两方面的部署的重大障碍。
技术实现思路
本
技术实现思路
被提供来以简化形式介绍选择的概念,这些概念在下面在【具体实施方式】中被进一步描述。本
技术实现思路
不旨在识别所要求保护的主题的关键特征或必要特征。本
技术实现思路
也不旨在被用来限制所要求保护的主题的范围。口语语言理解系统中的域检测训练可以被提供。每个都与搜索查询相关联的、与搜索引擎相关联的记录数据可以被接收。针对每个搜索查询的域标签可以被识别,并且所述域标签和链接数据可以被提供给针对口语语言理解模型的训练集。前述一般描述和以下具体描述提供例子并且仅仅是解释性的。因此,前述一般描述和以下具体描述不应该被认为为限制性的。进一步地,可以提供附加于本文中所阐述的那些的特征或变化。例如,实施例可以针对在【具体实施方式】中所描述的各种特征组合和子组合。【附图说明】被并入且构成本公开的 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】2011.05.13 US 61/485778;2011.05.13 US 61/485664;201.一种用于提供域检测训练的方法,所述方法包括: 接收与搜索引擎相关联的多个记录数据,其中所述多个记录数据中的每一个都与搜索查询相关联; 识别针对所述多个记录数据中的至少一个的所述搜索查询的域标签;以及 将所述域标签和所述多个链接数据中的至少一个提供给针对理解模型的训练集。2.根据权利要求1所述的方法,其中,所述多个记录数据中的每一个都包括选自与所述搜索查询相关联的多个搜索结果的至少一个统一资源定位符(URL)。3.根据权利要求2所述的方法,其中,识别所述域标签包括比较至少与所述多个记录数据的子集相关联的URL。4.根据权利要求1所述的方法,进一步包括: 确定所述多个链接数据中的所述至少一个是否包括成功的搜索;以及响应于确定所述多个链接数据中的所述至少一个不包括成功的搜索,从所述训练集中丢弃所述多个链接数据中的所述至少一个。5.根据权利要求4所述的方法,其中,确定所述多个链接数据中的所述至少一个是否包括成功的搜索包括分析与所述多个链接数据中的所述至少一个相关联的至少一个链接特性。6.一种用于提供域检测训练的系统,所述系统包括: 记忆储存器;以及 耦合到所述记忆储存器的处理单元,其中所述处理单元可操作来: 识别与目标域标签相关联的多个查询记录数据, 从所述多个查询记录数据中的每一个中提取搜索查询、至少一个跟随的链接以及至少一个链接特性, 根据所述至少一个链接特性来对所述多个查询记录数据的子集进行取样, 将所述目标域标签分配给所述多个查询记录数据的所述子集中的每一个,以及 将所述多个查询记录数据的所述子集提供给口语语言理解模型。7....
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。