针对序列标签器的预训练和/或迁移学习制造技术

技术编号:16388640 阅读:28 留言:0更新日期:2017-10-16 09:15
提供了使用未经标记的数据预训练序列标签器的系统和方法,诸如隐藏分层条件随机场模型。附加地,提供用于迁移学习的系统和方法。因而,系统和方法构建比先前利用的未经过未经标记的数据预训练和/或无法进行迁移学习/训练的序列标签器更准确,更可靠和/或更有效的序列标签器。

【技术实现步骤摘要】
【国外来华专利技术】针对序列标签器的预训练和/或迁移学习
技术介绍
数据的顺序标记和分类(在本文中还被称为序列加标签)具有许多应用,包括自然语言处理和语音处理中的那些应用。一些示例应用包括为搜索查询加标签、分割广告和语言识别/验证。几种不同的机器学习技术已被应用于为序列加标签的问题,诸如条件随机场(CRF)和神经网络。条件随机场(CRF)是直接估计以整个观测序列为条件的状态序列的概率的判别模型,并且也称为信息提取任务。例如,音频信号数据的帧可以被转换成特征,其中在所有帧上预测状态序列。因为CRF可以用于许多不同的任务,并且因为它们可以实现最小调谐下的高精度,条件随机场是应用于为序列加标签问题的最广泛使用的机器学习技术。然而,CRF未能利用未经标记的数据。针对这些和其他一般考虑,已经作出了本文中所公开的实施例。还有,尽管可以讨论相对具体的问题,但是应当理解,实施例不应该限于解决在本公开的背景或其他地方标识的具体问题。
技术实现思路
总而言之,本公开通常涉及用于预训练序列标签器标签器的系统和方法,诸如隐藏分层条件随机场模型。更具体地,本文中所公开的系统和方法使用未经标记的数据预训练隐藏分层条件随机场模型。进一步地,本文中所公开的系统和方法提供了迁移学习(在本文中也被称为多任务学习、多任务训练、迁移训练或域适应)。附加地,本文中所公开的系统和方法提供了将隐藏层的较低层从一个任务特定模型迁移到另一任务特定模型的技术。因而,本文中所公开的系统和方法构建更准确、更可靠和更有效的序列标签器。本公开的一个方面涉及用于利用机器学习技术为序列加标签的方法。该方法包括:预训练第一隐藏分层条件随机场(HCRF)模型,将第一HCRF的第一较低层迁移到第二HCRF模型,以及训练用于第一特定任务的第二HCRF模型。该预训练包括:获得未经标记的数据,在未经标记的数据上运行词聚类算法以形成词簇,以及基于词簇为未经标记的数据确定伪标记以形成伪标记数据。该预训练还包括:从伪标记数据中提取预训练特征并且利用训练算法为预训练特征估计预训练模型参数。训练用于第一特定任务的第二HCRF模型包括:从第一HCRF模型接收第一较低层,以及从用于第一特定任务的第一源获得第一标记数据集合。该训练还包括:基于利用任务共享特征被初始化的第二训练算法来估计第一任务特定模型参数。本公开的另一方面包括提供迁移学习的为序列加标签的系统。该为序列加标签系统包括计算设备,其包括处理单元和存储器。该处理单元实现第一隐藏分层条件随机场(HCRF)模型。第一HCRF模型包括预训练系统和第一训练系统。预训练系统可操作以获得未经标记的数据,对未经标记的数据运行词聚类算法以生成词簇,并且基于词簇来为未经标记的数据的每个输入确定伪标记以形成伪标记数据。预训练系统还可操作以从伪标记数据中提取预训练特征,并且利用训练算法为预训练特征估计预训练模型参数。预训练模型参数存储在第一HCRF模型的第一隐藏层中。第一训练系统可操作以获得用于第一特定任务的第一标记数据集合。第一训练系统进一步可操作以基于使用预训练模型参数被初始化的第二训练算法来估计第一任务特定模型参数。本公开的又一方面包括一种用于预训练序列标签器的系统。该系统包括至少一个处理器和一个或多个计算机可读存储介质,其包括存储在其上的计算机可执行指令。计算机可执行指令由至少一个处理器执行。计算机可执行指令使得系统执行操作,这些操作包括:获得未经标记的数据并且对未经标记的数据运行词聚类算法以形成多个词簇。这些操作还包括:基于多个词簇来为未经标记的数据确定伪标记以形成伪标记数据,并且从伪标记数据提取预训练特征。附加地,这些操作包括:利用训练算法为预训练特征估计预训练模型参数。序列标签器是隐藏分层条件随机场模型。预训练模型参数存储在隐藏分层条件随机场模型的隐藏层内。提供本
技术实现思路
以简化形式介绍在以下的具体实施方式中进一步描述的概念的选择。本
技术实现思路
不旨在标识所要求保护的主题的主要特征或基本特征,也不旨在用于限制所要求保护的主题的范围。附图说明参考以下附图,对非限制性和非穷尽性实施例进行了描述。图1是图示了用于预训练和任务特定训练序列标签器的系统的示例的框图。图2是图示了用于迁移学习的系统的示例的框图。图3是图示了线性条件随机场和隐藏分层条件随机场的示例的示意图。图4是图示了将预训练模型参数迁移到第二隐藏分层条件随机场模型的第一隐藏分层条件随机场模型的示例的框图。图5是图示了利用未经标记的数据来预训练和训练序列标签器的方法的示例的流程图。图6是图示了用于训练用于特定任务的序列标签器的方法的示例的流程图。图7是图示了利用其可以实施本公开的实施例的计算设备的示例物理部件的框图。图8A和图8B是利用其可以实施本公开的实施例的移动计算设备的简化框图。图9是其中可以实施本公开的实施例的分布式计算系统的简化框图。具体实施方式在以下具体实施方式中,参考形成本文中的一部分的附图,并且其中通过具体实施例或示例的方式示出。可以组合这些方面,可以利用其他方面,并且可以在不背离本公开的精神或范围的情况下进行结构性的改变。因此,以下具体实施方式不被认为是限制性的,并且本公开的范围由权利要求及其等同物限定。为序列加标签具有许多应用,包括自然语言处理和语音处理。一些示例应用包括为搜索查询加标签、分割广告和语言识别/验证。几种不同的机器学习技术已经应用于为序列加标签的问题,诸如条件随机场(CRF)和神经网络。条件随机场(CRF)是具有相关联的图形结构的条件分布。CRF是用于结构化预测的统计建模方法。与普通分类器不同,CRF可以将来自输入数据的输入上下文考虑在内。换句话说,CRF可以考虑任何给定输入的相邻输入。在一些CRF中,二进制随机隐藏单元出现在输入数据和预测标记之间。具有隐藏单元的CRF在本文中被称为隐藏分层CRF或多层CRF。不同于标准CRF,多层CRF可以表示每帧的非线性相关性。进一步地,多层CRF的层内的隐藏单元还可以学习以发现数据中的改善分类(或标记估计)的潜在分布结构。因为CRF可以用于许多不同的任务,并且因为它们具有最小调谐下的高精度,因此CRF是应用于为序列加标签问题的最广泛使用的机器学习技术。然而,CRF和其他机器学习技术未能利用未经标记的数据。进一步地,CRF和其他机器学习技术不能有效地学习具有相同的共享模型的多个任务。通常,没有用于通过共享部分隐藏层来使用用于域适应的未经标记的数据预训练隐藏分层CRF(本文也被称为迁移学习)的系统或方法。本文中所公开的系统和方法能够利用未经标记的输入数据来预训练多层CRF。本文中所公开的系统和方法还能够通过共享部分隐藏层来允许多层CRF中的迁移学习。本文中所描述的系统和方法利用未经标记的数据来预训练多层CRF的能力提供了更准确、更有效和更可靠的为序列加标签的系统。本文中所描述的系统和方法允许迁移学习的能力以及将隐藏层的一部分从一个任务特定模型迁移到其他任务特定模型的能力提供了比确实利用任何预训练或迁移学习的序列标签器更有效和更可靠的为序列加标签的系统。图1一般地图示了包括用于序列标签器的预训练系统102和训练系统109的系统100的示例。序列标签器被设计成利用机器学习技术对多种多样的不同输入106进行分类(本文中还被称为标记或加标签)。输入本文档来自技高网
...
针对序列标签器的预训练和/或迁移学习

【技术保护点】
一种用于利用机器学习技术的序列加标签的方法,所述方法包括:预训练第一隐藏分层条件随机场(HCRF)模型,其中所述预训练包括:获得未经标记的数据;对所述未经标记的数据运行词聚类算法以形成词簇;基于所述词簇来确定用于所述未经标记的数据的伪标记以形成伪标记数据;从所述伪标记数据中提取预训练特征;利用第一训练算法估计用于所述预训练特征的预训练模型参数;将所述预训练模型参数划分为第一隐藏层的第一较高层和第一较低层,其中所述第一较高层捕获任务特定特征,并且所述第一较低层捕获任务共享特征;以及将所述第一较低层迁移到第二HCRF模型,训练用于第一特定任务的所述第二HCRF模型,其中所述训练包括:从所述第一HCRF模型接收所述第一较低层;从所述第一特定任务获得第一标记数据集合;以及基于利用所述预训练模型参数被初始化的第二训练算法来估计第一任务特定模型参数。

【技术特征摘要】
【国外来华专利技术】2015.02.19 US 14/625,8281.一种用于利用机器学习技术的序列加标签的方法,所述方法包括:预训练第一隐藏分层条件随机场(HCRF)模型,其中所述预训练包括:获得未经标记的数据;对所述未经标记的数据运行词聚类算法以形成词簇;基于所述词簇来确定用于所述未经标记的数据的伪标记以形成伪标记数据;从所述伪标记数据中提取预训练特征;利用第一训练算法估计用于所述预训练特征的预训练模型参数;将所述预训练模型参数划分为第一隐藏层的第一较高层和第一较低层,其中所述第一较高层捕获任务特定特征,并且所述第一较低层捕获任务共享特征;以及将所述第一较低层迁移到第二HCRF模型,训练用于第一特定任务的所述第二HCRF模型,其中所述训练包括:从所述第一HCRF模型接收所述第一较低层;从所述第一特定任务获得第一标记数据集合;以及基于利用所述预训练模型参数被初始化的第二训练算法来估计第一任务特定模型参数。2.一种用于利用机器学习技术的序列加标签的方法,所述方法包括:获得未经标记的数据;对所述未经标记的数据运行词聚类算法以形成多个词簇;基于所述多个词簇来确定用于所述未经标记的数据的伪标记以形成伪标记数据;从所述伪标记数据中提取预训练特征;以及利用训练算法来估计用于所述预训练特征的预训练模型参数,其中所述序列标签器是隐藏分层条件随机场模型。3.一种提供迁移学习的序列加标签系统,所述序列加标签系统包括:计算设备,包括处理单元和存储器,所述处理单元实现第一隐藏分层条件随机场(HCRF)模型,所述第一HCRF模型包括预训练系统和第一训练系统,所述预训练系统可操作以:获得未经标记的数据110;对所述未经标记的数据运行词聚类算法以生成词簇;基于所述词簇来确定用于所述未经标记的数据的每个输入的伪标记以形成伪标记数据;从所述伪标记数据中提取预训练特征;以及利用第一训练算法来估计用于所述预训练特征的预训练模型参数,其中所述预训练模型参数被存储在所述第一HCRF模型的第一隐藏层中,所述第一训练系统可操作以:获得用于第一特定任务的第一标记数据集合;以及基于利用所述预训练模型参数被初始化的第二训练算法来估计第一任务特定模型参数。4.根据权利要求3所述的序列加标签系统,其中所述第一HCRF模型还可操作以:将所述第一HCRF模型的所述第一隐藏层的第一较低层发送到第二HCRF模型。5.根据权利要求4所述的序列加标签系统,其中所述处理单元还实施所述第二HCRF模型,所述第二HCRF模型包括第二训练系统,所述第二训练系统可操作以:获得用于第二特定任务的第二标记数据集合;以及基于利用来自所接收到的第一较低层的任务共享预训练模型参数被初始化的所述...

【专利技术属性】
技术研发人员:金永邦郑珉宇R·萨里卡亚
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1