The present example describes the system and method of transfer learning techniques for different tagged sets. In all aspects, data sets on the server device can be accessed. A dataset can include a tag and a set of words associated with a tag. The server device can cause the embed of the tag within the data set. The embedded markup can be represented by a multidimensional vector corresponding to a particular label. A vector can be used to build a tagged mapping of a set of data. Markup mappings can be used to train models to perform domain adaptation or transfer learning techniques. The model can be used to provide results to a statement / query or training model.
【技术实现步骤摘要】
【国外来华专利技术】不同标记集合的转移学习技术
技术介绍
自然语言理解(NLU)是计算机程序理解人类言语和提取口头或键入输入的含义的能力。NLU系统已经与各种领域(例如,地点、天气、通信、提醒)结合使用。通常,这些领域中的NLU基于统计机器学习模型,这些模型需要大量特定于领域的注释训练数据。出于这样的原因,建立新的领域需要大量的资源投资。虽然领域适应中的各种技术和方法已经发展到解决这些问题,但是这些解决方案假设使用不变的标记空间。因此,这些解决方案的直接应用目前是不可能的。本文所公开的方面就是针对这些以及其他一般考虑而提出的。而且,虽然可以讨论相对具体的问题,但是应当理解的是,这些示例不应该被限制为解决
技术介绍
或者本公开中的其他地方所标识的具体问题。
技术实现思路
提供本“
技术实现思路
”是为了以简化形式介绍将在以下具体实施方式部分中进一步描述的概念的选择。本
技术实现思路
不旨在标识所要求保护的技术主题的关键特征或必要特征,也不旨在用作帮助确定所要求保护的技术方案的范围。本公开的示例描述了用于不同标记集合的转移学习技术的系统和方法。在各方面中,可以在服务器设备上访问数据集。数据集可以包括标记以及与标记相关联的词集。服务器设备可以引起标记嵌入到数据集。嵌入的标记可以由对应于特定标记的多维向量表示。向量可以用于构建数据集的标记映射。标记映射可以用于训练模型以执行领域适应或转移学习技术。该模型可以用来向语句/查询提供结果或训练不同的模型。提供本
技术实现思路
是为了以简化形式介绍将在以下具体实施方式中进一步描述的概念的选择。本
技术实现思路
不旨在标识所要求保护的技术方案的关键特征或必要特征,也不旨在用 ...
【技术保护点】
一种系统,包括:至少一个处理器;以及耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指令,所述计算机可执行指令在由所述至少一个处理器执行时执行一种方法,所述方法包括:访问第一已标记数据集合;将所述第一已标记数据集合转换成向量集合;识别来自所述向量集合的至少两个向量当中的标记的共同性;基于所识别的所述共同性,使用所述至少两个向量来生成粗糙标记集合;使用所述粗糙标记集合来训练模型;以及使用所训练的所述模型,将与所述粗糙标记集合相关联的第一标记映射到与第二已标记数据集合相关联的第二标记。
【技术特征摘要】
【国外来华专利技术】2015.07.06 US 14/792,2691.一种系统,包括:至少一个处理器;以及耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指令,所述计算机可执行指令在由所述至少一个处理器执行时执行一种方法,所述方法包括:访问第一已标记数据集合;将所述第一已标记数据集合转换成向量集合;识别来自所述向量集合的至少两个向量当中的标记的共同性;基于所识别的所述共同性,使用所述至少两个向量来生成粗糙标记集合;使用所述粗糙标记集合来训练模型;以及使用所训练的所述模型,将与所述粗糙标记集合相关联的第一标记映射到与第二已标记数据集合相关联的第二标记。2.根据权利要求1所述的系统,其中转换所述第一已标记数据集合包括:使用所述第一已标记数据集合对一个或多个标记应用标准相关分析(CCA)。3.根据权利要求1所述的系统,其中生成所述粗糙标记集合包括:使用从以下组中选择的至少一种技术来聚合所述至少两个向量:所述组包括k均值聚类、谱聚类、相似性传播、均值漂移、Ward层级聚类、凝聚聚类、DBSCAN、Gaussian混合和Birch聚类。4.根据权利要求1所述的系统,其中训练所述模型包括:识别与所述粗糙标记集合在语义上相关的一个或多个标记。5.一种用于映射不同标记集合的系统,所述系统包括:至少一个处理器;以及耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指...
【专利技术属性】
技术研发人员:金永邦,R·萨里卡亚,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。