广播式残差学习制造技术

技术编号:39330474 阅读:14 留言:0更新日期:2023-11-12 16:06
本公开的某些方面提供了用于高效广播式残差机器学习的技术

【技术实现步骤摘要】
【国外来华专利技术】广播式残差学习
[0001]相关申请的交叉引用
[0002]本申请要求于2022年3月25日提交的美国专利申请No.17/656,621的优先权,该美国专利申请要求于2021年3月25日提交的美国临时专利申请No.63/166,161的权益和优先权,这些申请中的每一者的全部内容通过援引整体纳入于此。
[0003]引言
[0004]本公开的各方面涉及机器学习,且更具体地涉及高效的数据处理。
[0005]设计高效的机器学习架构是神经语音处理中的重要话题。具体而言,目标是检测预定义关键字的关键字定位(KWS)已变得越来越重要。KWS在设备唤醒和智能设备上的用户交互方面起到关键的作用。然而,提供使错误最小化同时还高效地操作的模型是具有挑战性的。模型效率在KWS中是尤为重要的,因为过程通常在边缘设备(例如,在具有有限资源的设备中,诸如移动电话、智能扬声器、以及物联网(IoT)设备)中执行,同时要求低等待时间。
[0006]相应地,需要用于使用高效模型设计来提供高准确度分类的系统和方法。
[0007]简要概述
[0008]某些方面提供了一种方法,包括:接收包括频率维度和时间维度的输入张量;使用第一卷积操作处理该输入张量以生成包括该频率维度和该时间维度的多维中间特征图;使用频率维度减少操作来将该多维中间特征图转换成该时间维度上的一维中间特征图;使用第二卷积操作来处理该一维中间特征图以生成时间特征图;使用广播操作将该时间特征图扩展到频率维度以生成多维输出特征图;以及经由第一残差连接使用该多维中间特征图来扩增该多维输出特征图。
[0009]其他方面提供了:处理系统,其被配置成执行前述方法以及本文中所描述的那些方法;非瞬态计算机可读介质,其包括在由处理系统的一个或多个处理器执行时使得该处理系统执行前述方法以及本文中所描述的那些方法的指令;计算机程序产品,其被实施在计算机可读存储介质上,该计算机可读存储介质包括用于执行前述方法以及本文中进一步描述的那些方法的代码;以及处理系统,其包括用于执行前述方法以及本文中进一步描述的那些方法的装置。
[0010]以下描述和相关附图详细阐述了一个或多个方面的某些解说性特征。
[0011]附图简述
[0012]附图描绘了该一个或多个方面中的某些方面,并且因此不被认为限制本公开的范围。
[0013]图1描绘了用于广播式残差学习的示例工作流。
[0014]图2描绘了用于残差学习技术的示例框图。
[0015]图3是供在高效处理输入数据中使用的示例广播式残差学习块。
[0016]图4是供在转变层中高效处理输入数据中使用的示例广播式残差学习块。
[0017]图5是解说用于使用广播式残差学习来处理数据的方法的示例流程图。
[0018]图6描绘了被配置成执行本公开的各个方面的示例处理系统。
[0019]为了促成理解,在可能之处使用了相同的附图标记来指定各附图共有的相同要
素。构想了一个方面的要素和特征可有益地被纳入到其他方面中而无需进一步引述。
[0020]详细描述
[0021]本公开的各方面提供了用于广播式残差学习的技术。本文所描述的各技术提供了与现有办法相比的高模型准确度和显著改善的计算效率(例如,小模型大小和轻量计算负担)。
[0022]最近已经开发了各式各样的高效卷积神经网络(CNN)。一般而言,CNN由相同结构的重复块组成并且往往基于残差学习和逐深度可分离卷积。这已导致数种基于CNN的KWS办法。现有办法要么使用一维时间卷积、要么使用二维(例如,频率和时间)卷积。每种办法具有相应的益处和缺点。
[0023]例如,对于使用一维时间卷积的模型,与依赖于二维办法的模型相比,通常需要较少的计算资源。然而,在使用一维卷积的情况下,卷积的内部偏置(诸如,平移等变性)不能关于频率维度来获得。
[0024]另一方面,基于二维卷积的办法需要比一维方法显著更多的计算资源,即使在使用高效设计和架构(诸如逐深度可分离卷积)时。这可阻止此类二维办法针对各式各样的设备和实现有用。
[0025]本文所描述的广播式残差学习技术可被用来既在训练期间(在训练数据穿过模型时)又在运行时期间(在新数据穿过以生成推断时)高效地处理数据。
[0026]在一些方面,广播式残差学习被用来对音频数据和特征进行处理和分类(例如,以执行KWS)。一般而言,音频数据和特征可以使用二维张量(例如,具有频率维度和时间维度)来表示。尽管在本文的示例中使用音频,但本公开的各方面可容易地应用于各式各样的数据。
[0027]在一些方面。广播式残差学习一般涉及对输入张量执行卷积以提取二维特征,减小二维特征的维数以允许对特征的高效卷积(例如,需要减少的计算、处理步骤和能量),将结果所得的张量扩展到二维特征的原始维数,以及使用原始二维特征来扩增经扩展的张量。在一些方面,经扩展张量进一步使用原始输入张量来扩增。
[0028]在一些方面,本文所描述的广播式残差学习可在神经网络架构中执行以执行各种各样的任务,诸如对输入音频进行分类。例如,本文所描述的技术可被实现为广播式残差学习块,并且这些块中的数个块可以在神经网络架构内的序列中使用。
[0029]有利地,广播式残差学习保持一维时间卷积的许多残差函数,同时仍允许经由将时间输出扩展到频率维度的广播式残差连接来一起使用二维卷积。该残差映射使得网络能够使用比常规卷积神经网络少得多的计算来高效地表示有用音频特征,这降低了计算复杂度、等待时间、计算要求、存储器要求等等。在各方面,本文所描述的广播式残差学习技术与常规系统相比可使用较少的计算和参数来达成对语音命令数据集的最先进的准确度。
[0030]用于广播式残差学习的示例工作流
[0031]图1描绘了用于广播式残差学习的示例工作流100。工作流100开始于输入张量105。在一些示例中,张量105可以是音频数据(例如,由指示随时间的频率频谱的log Mel(梅尔)谱图来表示)、或音频特征(例如,通过处理音频数据而生成的特征)。在一些方面,输入张量105是具有频率维度和时间维度的二维张量。时间维度可被描绘成时间区间或步长,而频率维度基于频率值或频带来描绘。每个区间处存在的频率(例如,每个频率处声音的幅
度)可经由张量中的值来反映。
[0032]输入张量105使用第一卷积操作110来处理,由此产生一组二维特征图115。如所解说的,特征图115具有维数H
×
W
×
c,其中H和W是空间维度(例如,分别为时间维度和频率维度),并且c是通道数目。
[0033]在一个方面,卷积操作110是使用被配置成提取频率维度的特征的一个或多个内核执行的逐深度卷积。例如,卷积操作110可以使用n
×
1的内核,其中n对应于频率维度。也就是说,用于卷积操作110的逐深度内核可在频率维度上具有大于1的长度,其中时间维度上的长度为1。这允许卷积操作110用作频率逐深度卷积,其提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:接收包括频率维度和时间维度的输入张量;使用第一卷积操作处理所述输入张量以生成包括所述频率维度和所述时间维度的多维中间特征图;使用频率维度减少操作来将所述多维中间特征图转换成所述时间维度上的一维中间特征图;使用第二卷积操作来处理所述一维中间特征图以生成时间特征图;使用广播操作将所述时间特征图扩展到所述频率维度以生成多维输出特征图;经由第一残差连接使用所述多维中间特征图来扩增所述多维输出特征图;以及输出经扩增的多维输出特征图。2.如权利要求1所述的计算机实现的方法,其中所述多维中间特征图是二维中间特征图,并且其中将所述多维中间特征图转换成所述一维中间特征图减少了在生成所述时间特征图时由处理器执行的计算的数目。3.如权利要求1所述的计算机实现的方法,进一步包括:经由第二残差连接使用所述输入张量来扩增所述多维输出特征图。4.如权利要求1所述的计算机实现的方法,其中所述第一卷积操作使用具有在所述频率维度上大于1且在所述时间维度上等于1的大小的一个或多个逐深度卷积内核。5.如权利要求4所述的计算机实现的方法,其中所述输入张量是从被配置成改变所述输入张量中的通道的数目的逐点卷积操作输出的。6.如权利要求1所述的计算机实现的方法,进一步包括:在将所述多维中间特征图转换成一维中间特征图之前对所述多维中间特征图执行子频谱归一化(SSN)操作。7.如权利要求6所述的计算机实现的方法,其中,所述SSN操作包括:将所述多维中间特征图划分成所述频率维度上的多个子带;以及对所述多个子带中的每个子带执行批归一化。8.如权利要求1所述的计算机实现的方法,其中所述频率维度减少操作包括以下至少一者:最大池化操作、平均池化操作、或卷积操作。9.如权利要求1所述的计算机实现的方法,其中所述第二卷积操作包括逐深度可分离卷积操作,其中所述逐深度可分离卷积操作的逐深度卷积被配置成使用具有在所述频率维度上等于1且在所述时间维度上大于1的大小的一个或多个逐深度卷积内核。10.如权利要求9所述的计算机实现的方法,其中所述逐深度可分离卷积操作的逐点卷积被配置成在所述逐深度卷积之后使用一个或多个逐点卷积内核。11.如权利要求1所述的计算机实现的方法,其中:所述输入张量包括输入音频特征;并且所述第一卷积操作和所述第二卷积操作是被配置成对所述输入音频特征进行分类的广播残差神经网络的一部分。12.一种包括计算机可执行指令的非瞬态计算机可读介质,所述计算机可执行指令在
由处理系统的一个或多个处理器执行时使得所述处理系统执行包括以下操作的操作:接收包括频率维度和时间维度的输入张量;使用第一卷积操作处理所述输入张量以生成包括所述频率维度和所述时间维度的多维中间特征图;使用频率维度减少操作来将所述多维中间特征图转换成所述时间维度上的一维中间特征图;使用第二卷积操作来处理所述一维中间特征图以生成时间特征图;使用广播操作将所述时间特征图扩展到所述频率维度以生成多维输出特征图;经由第一残差连接使用所述多维中间特征图来扩增所述多维输出特征图;以及输出经扩增的多维输出特征图。13.如权利要求12所述的非瞬态计算机可读介质,所述操作进一步包括:经由第二残差连接使用所述输入张量来扩增所述多维输出特征图。14.如权利要求12所述的非瞬态计算机可读介质,其中所述第一卷积操作使用具有在所述频率维度上大于1且在所述时间维度上等于1的大小的一个或多个逐深度卷积内核。15.如权利要求14所述的非瞬态计算机可读介质,其中所述输入张量是从被配置成改变所述输入张量中的通道的数目的逐点卷积操作输出的。16.如权利要求12所述的非瞬态计算机可读介质,进一步包括:在将所述多维中间特征图转换成所述一维中间...

【专利技术属性】
技术研发人员:B
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1