在识别系统中保守地适配深度神经网络技术方案

技术编号:12425372 阅读:102 留言:0更新日期:2015-12-03 10:58
本文描述的各种技术涉及针对特定用户或上下文来保守地适配识别系统中的深度神经网络(DNN)。DNN被用来响应于对所捕捉的用户输入的接收来输出上下文相关单元的各模型上的概率分布。基于所捕捉的用户输入来针对特定用户适配所述DNN,其中所述适配是保守地进行的,以使得已适配的DNN和未适配的DNN的输出之间的偏差受到约束。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】在识别系统中保守地适配深度神经网络 Μ? 存在许多不同类型的计算机实现的识别系统,其中这些识别系统被配置成相对于 用户所提出的输入数据执行某种形式的分类。例如,计算机实现的语音识别系统被配置成 接收用户的说出的话语并识别说出的话语中的词。在另一示例中,手写识别系统已被开发 出以接收手写样本并标识例如该手写样本的作者、该手写样本中的个体字母、该手写样本 中的词等。在又一示例中,已经开发出执行面部识别、指纹识别等的计算机实现的识别系 统。 更具体地就语音识别而言,此类识别已经是大量研究和商业开发的课题。例如,自 动语音识别(ASR)系统已被并入到移动电话、台式计算机、汽车、游戏控制台、顾客服务中 心等,以便识别命令/问题并提供对此类命令/问题的适当响应。例如,在配备有ASR系统 的移动电话中,用户可以讲出保留在移动电话上的联系人列表中的某一联系人的名字,而 移动电话可发起对该联系人的呼叫。 然而,即使在数十年的研究以后,ASR在现实世界使用场景中的性能依然远远不能 令人满意。按常规而言,隐马尔科夫模型(HMM)已经是用于大词汇量连续语音识别(LVCSR) 的主导技术。在用于ASR的常规HMM中,针对输出状态的观测概率是使用高斯混合模型 (GMM)建模的。这些GMM-HMM系统通常被训练以最大化生成训练数据中观测到的特征的可 能性。近来,各种辨析策略和大边界(large margin)技术已经被探究。然而,这些技术的 潜力受到GMM发射分布模型的限制的约束。 部分地被利用人类语音生成和感知系统中某些类似性质的期望所激励,对ASR的 较新近的研究已经探究了分层架构来执行语音识别。在这些研究中,对模型参数(与这些 分层架构中的突触相对应的权重和权重偏误(weight bias))的学习已经是最突出和困难 的问题之一。与ASR研究中的发展并行,来自神经网络研究的学习方法中所取得的当前进 展已经激起了对探究深度神经网络(DNN)的兴趣。DNN是具有许多隐藏层的密集连接的有 向信念网络。一般而言,DNN可被认为是具有多层隐藏单元和至少一层可见单元的高度复 杂的非线性特征提取器,其中隐藏单元的每一层被学习来表示捕捉原始输入数据中的高阶 相关的特征。 传统上,利用DNN的ASR系统被训练成与说话者/通道无关的。换言之,DNN的参 数(例如,权重和权重偏误)不是关于特定说话者和/或通道来学习的。这出于至少两个 理由:首先,经常难以获得足够的训练数据量来稳健地学习针对某一说话者和/或通道的 参数,因为大多数用户不期望花费大量时间来提供有标记的话语来训练ASR系统。而且,由 于更宽且更深的隐藏层,DNN通常具有多得多的参数,并且还具有被设计成直接对senone 建模的大得多的输出层。这使得适配结合语音识别利用的DNN成为相对困难的任务。 施述 以下是在本文更详细描述的主题的简要概述。本概述不旨在成为关于权利要求的 范围的限制。 本文描述了与适配(adapt)在识别系统中采用的深度神经网络(DNN)的至少一个 参数有关的各种技术,其中所述适配是针对特定用户或上下文进行的。在一示例性实施例 中,DNN可在自动语音识别(ASR)系统中被用作上下文相关深度神经网络隐马尔可夫模型 (CD-DNN-HMM)系统的一部分。计算设备(诸如移动电话、汽车中的计算设备、呼叫中心中的 计算设备、游戏控制台、服务器等)可包括ASR系统,该ASR系统包括已经利用来自多个不 同用户的训练数据训练过的与说话者无关的(SI) CD-DNN-HMM系统。为了针对特定用户或 上下文(例如,特定移动电话)改进CD-DNN-HMM系统的识别能力,可能期望将该DNN适配 到该特定用户或上下文。此处描述的技术可被用来执行这种适配而不需要用户提出大量的 训练数据。 在ASR的上下文中,DNN被配置成直接对上下文相关单元(context dependent unit)建模,所述上下文相关单元在本文被称为Senonec3Senone可以是三音素(triphone)、 五音素(quinphone)等等。如上所述,可利用与多个不同用户相对应的训练数据来训练SI ASR系统中的DNN。当某一特定用户提出期望通过利用包括DNN的ASR系统解码的某一语 音话语时,该语音话语被划分成多个帧,并且针对某一个体帧的DNN的输出是在该DNN所建 模的senone上的概率分布。 为了避免在为该特定用户适配该DNN时对用于该特定用户的训练数据(例如,所 捕捉的该用户的话语,经常被称为适配数据)的过拟合,这种适配可以按照保守方式进行, 使得未适配的DNN和已适配的DNN (具有使用适配数据适配的参数的所得DNN)之间的输出 偏差受到约束。在一示例性实施例中,这可以通过在执行适配时正规化(regularize)成本 函数来实现,然而也可以采用其他方法来使适配被保守地进行。例如,在一示例性实施例 中,可将Kullback-Leibler散度(KLD)正规化约束添加到适配准则。因此,由已适配的DNN 所估计的多个帧上的senone分布被迫使相对接近由未适配的DNN所估计的senone分布。 以上概述呈现了简化概述,以提供对本文讨论的系统和/或方法的一些方面的基 本理解。本概述并不是对此处所讨论的系统和/或方法的全面综述。它并不旨在标识关键 /重要元素,也不描绘这样的系统和/或方法的范围。其唯一目的是以简化形式呈现一些概 念,作为稍后呈现的更详细实施例的序言。 附图简述 图1是包括识别系统的一示例性计算设备的功能框图,该识别系统包括DNN,其中 所述DNN能适配到特定用户和/或上下文。 图2例示出一示例性深度神经网络。 图3是一示例性系统的功能框图,该示例性系统便于将识别系统的DNN适配到特 定用户。 图4是例示出用于基于所观测到的输入数据保守地适配深度神经网络的参数的 一种示例性方法的流程图。 图5是例示出用于基于与正规化成本函数结合利用的正规化权重来适配DNN的参 数的一种示例性方法的流程图。 图6是一示例性计算系统。 详细描沐 现在参考附图描述涉及保守地适配深度神经网络的参数来针对特定用户或上下 文定制这种深度神经网络的各种技术,其中在全部附图中,相同的附图标记用于指代相同 的元素。在以下描述中,为解释起见,阐明了众多具体细节以提供对一个或多个方面的全面 理解。然而,显然这(些)方面可以在没有这些具体细节的情况下实施。在其他实例中,以 框图形式示出公知的结构和设备以便于描述一个或多个方面。另外,要理解,被描述为由特 定系统组件执行的功能可由多个组件执行。类似地,例如,一组件可被配置成执行被描述为 由多个组件执行的功能。 此外,术语"或"意指包括性"或"而非排斥性"或"。即,除非另有指定或从上下文 可以清楚,否则短语"X采用A或B"意指任何自然的包括性排列。即,术语"X采用A或B" 被以下实例中的任一个满足:X米用A ;X米用B ;或X米用A和B两者。另外,本申请和所 附权利要求书中所使用的冠词"一"和"一种"一般应被解释为是指"一个或多个",除非另 有指定或从上下文可以清楚指的是单数形式。 此外,如本文所使用的,术语"组件"和"系统"旨在包含配置有使得在被处理器执 行时某一本文档来自技高网...

【技术保护点】
一种包括识别系统的计算设备,所述识别系统包括:使用与多个用户相对应的训练数据训练的深度神经网络(DNN),所述DNN由多个参数来参数化且包括多个层,所述多个层包括:接收所捕捉的观测的特征的输入层;多个隐藏层,每个隐藏层包括相应的多个节点,一隐藏层中的每个节点被配置成对来自所述DNN中的一相邻层的至少一个节点的输出执行非线性变换;以及包括上下文相关单元的模型的输出层,所述输出层接收来自所述DNN中的最上层隐藏层的节点的输出,其中所述DNN的输出包括在所述上下文相关单元的所述模型上的概率分布;以及保守地适配所述多个参数中的至少一个参数来形式已适配的DNN的适配器组件,其中所述适配器组件保守地适配所述DNN以使得所述DNN和已适配的DNN的输出之间的偏差受到约束。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:D·俞姚开盛苏航李钢F·塞德
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1