【技术实现步骤摘要】
【国外来华专利技术】针对序列标签器的预训练和/或迁移学习
技术介绍
数据的顺序标记和分类(在本文中还被称为序列加标签)具有许多应用,包括自然语言处理和语音处理中的那些应用。一些示例应用包括为搜索查询加标签、分割广告和语言识别/验证。几种不同的机器学习技术已被应用于为序列加标签的问题,诸如条件随机场(CRF)和神经网络。条件随机场(CRF)是直接估计以整个观测序列为条件的状态序列的概率的判别模型,并且也称为信息提取任务。例如,音频信号数据的帧可以被转换成特征,其中在所有帧上预测状态序列。因为CRF可以用于许多不同的任务,并且因为它们可以实现最小调谐下的高精度,条件随机场是应用于为序列加标签问题的最广泛使用的机器学习技术。然而,CRF未能利用未经标记的数据。针对这些和其他一般考虑,已经作出了本文中所公开的实施例。还有,尽管可以讨论相对具体的问题,但是应当理解,实施例不应该限于解决在本公开的背景或其他地方标识的具体问题。
技术实现思路
总而言之,本公开通常涉及用于预训练序列标签器标签器的系统和方法,诸如隐藏分层条件随机场模型。更具体地,本文中所公开的系统和方法使用未经标记的数据预训练隐藏分层条件随机场模型。进一步地,本文中所公开的系统和方法提供了迁移学习(在本文中也被称为多任务学习、多任务训练、迁移训练或域适应)。附加地,本文中所公开的系统和方法提供了将隐藏层的较低层从一个任务特定模型迁移到另一任务特定模型的技术。因而,本文中所公开的系统和方法构建更准确、更可靠和更有效的序列标签器。本公开的一个方面涉及用于利用机器学习技术为序列加标签的方法。该方法包括:预训练第一隐藏分层条件随机场(HCRF ...
【技术保护点】
一种用于利用机器学习技术的序列加标签的方法,所述方法包括:预训练第一隐藏分层条件随机场(HCRF)模型,其中所述预训练包括:获得未经标记的数据;对所述未经标记的数据运行词聚类算法以形成词簇;基于所述词簇来确定用于所述未经标记的数据的伪标记以形成伪标记数据;从所述伪标记数据中提取预训练特征;利用第一训练算法估计用于所述预训练特征的预训练模型参数;将所述预训练模型参数划分为第一隐藏层的第一较高层和第一较低层,其中所述第一较高层捕获任务特定特征,并且所述第一较低层捕获任务共享特征;以及将所述第一较低层迁移到第二HCRF模型,训练用于第一特定任务的所述第二HCRF模型,其中所述训练包括:从所述第一HCRF模型接收所述第一较低层;从所述第一特定任务获得第一标记数据集合;以及基于利用所述预训练模型参数被初始化的第二训练算法来估计第一任务特定模型参数。
【技术特征摘要】
【国外来华专利技术】2015.02.19 US 14/625,8281.一种用于利用机器学习技术的序列加标签的方法,所述方法包括:预训练第一隐藏分层条件随机场(HCRF)模型,其中所述预训练包括:获得未经标记的数据;对所述未经标记的数据运行词聚类算法以形成词簇;基于所述词簇来确定用于所述未经标记的数据的伪标记以形成伪标记数据;从所述伪标记数据中提取预训练特征;利用第一训练算法估计用于所述预训练特征的预训练模型参数;将所述预训练模型参数划分为第一隐藏层的第一较高层和第一较低层,其中所述第一较高层捕获任务特定特征,并且所述第一较低层捕获任务共享特征;以及将所述第一较低层迁移到第二HCRF模型,训练用于第一特定任务的所述第二HCRF模型,其中所述训练包括:从所述第一HCRF模型接收所述第一较低层;从所述第一特定任务获得第一标记数据集合;以及基于利用所述预训练模型参数被初始化的第二训练算法来估计第一任务特定模型参数。2.一种用于利用机器学习技术的序列加标签的方法,所述方法包括:获得未经标记的数据;对所述未经标记的数据运行词聚类算法以形成多个词簇;基于所述多个词簇来确定用于所述未经标记的数据的伪标记以形成伪标记数据;从所述伪标记数据中提取预训练特征;以及利用训练算法来估计用于所述预训练特征的预训练模型参数,其中所述序列标签器是隐藏分层条件随机场模型。3.一种提供迁移学习的序列加标签系统,所述序列加标签系统包括:计算设备,包括处理单元和存储器,所述处理单元实现第一隐藏分层条件随机场(HCRF)模型,所述第一HCRF模型包括预训练系统和第一训练系统,所述预训练系统可操作以:获得未经标记的数据110;对所述未经标记的数据运行词聚类算法以生成词簇;基于所述词簇来确定用于所述未经标记的数据的每个输入的伪标记以形成伪标记数据;从所述伪标记数据中提取预训练特征;以及利用第一训练算法来估计用于所述预训练特征的预训练模型参数,其中所述预训练模型参数被存储在所述第一HCRF模型的第一隐藏层中,所述第一训练系统可操作以:获得用于第一特定任务的第一标记数据集合;以及基于利用所述预训练模型参数被初始化的第二训练算法来估计第一任务特定模型参数。4.根据权利要求3所述的序列加标签系统,其中所述第一HCRF模型还可操作以:将所述第一HCRF模型的所述第一隐藏层的第一较低层发送到第二HCRF模型。5.根据权利要求4所述的序列加标签系统,其中所述处理单元还实施所述第二HCRF模型,所述第二HCRF模型包括第二训练系统,所述第二训练系统可操作以:获得用于第二特定任务的第二标记数据集合;以及基于利用来自所接收到的第一较低层的任务共享预训练模型参数被初始化的所述...
【专利技术属性】
技术研发人员:金永邦,郑珉宇,R·萨里卡亚,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。