【技术实现步骤摘要】
【国外来华专利技术】广播式残差学习
[0001]相关申请的交叉引用
[0002]本申请要求于2022年3月25日提交的美国专利申请No.17/656,621的优先权,该美国专利申请要求于2021年3月25日提交的美国临时专利申请No.63/166,161的权益和优先权,这些申请中的每一者的全部内容通过援引整体纳入于此。
[0003]引言
[0004]本公开的各方面涉及机器学习,且更具体地涉及高效的数据处理。
[0005]设计高效的机器学习架构是神经语音处理中的重要话题。具体而言,目标是检测预定义关键字的关键字定位(KWS)已变得越来越重要。KWS在设备唤醒和智能设备上的用户交互方面起到关键的作用。然而,提供使错误最小化同时还高效地操作的模型是具有挑战性的。模型效率在KWS中是尤为重要的,因为过程通常在边缘设备(例如,在具有有限资源的设备中,诸如移动电话、智能扬声器、以及物联网(IoT)设备)中执行,同时要求低等待时间。
[0006]相应地,需要用于使用高效模型设计来提供高准确度分类的系统和方法。
[0007]简要概述
[0008]某些方面提供了一种方法,包括:接收包括频率维度和时间维度的输入张量;使用第一卷积操作处理该输入张量以生成包括该频率维度和该时间维度的多维中间特征图;使用频率维度减少操作来将该多维中间特征图转换成该时间维度上的一维中间特征图;使用第二卷积操作来处理该一维中间特征图以生成时间特征图;使用广播操作将该时间特征图扩展到频率维度以生成多维输出特征图;以及经由第一残差连接使用该多维中间特征图来扩增该多 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:接收包括频率维度和时间维度的输入张量;使用第一卷积操作处理所述输入张量以生成包括所述频率维度和所述时间维度的多维中间特征图;使用频率维度减少操作来将所述多维中间特征图转换成所述时间维度上的一维中间特征图;使用第二卷积操作来处理所述一维中间特征图以生成时间特征图;使用广播操作将所述时间特征图扩展到所述频率维度以生成多维输出特征图;经由第一残差连接使用所述多维中间特征图来扩增所述多维输出特征图;以及输出经扩增的多维输出特征图。2.如权利要求1所述的计算机实现的方法,其中所述多维中间特征图是二维中间特征图,并且其中将所述多维中间特征图转换成所述一维中间特征图减少了在生成所述时间特征图时由处理器执行的计算的数目。3.如权利要求1所述的计算机实现的方法,进一步包括:经由第二残差连接使用所述输入张量来扩增所述多维输出特征图。4.如权利要求1所述的计算机实现的方法,其中所述第一卷积操作使用具有在所述频率维度上大于1且在所述时间维度上等于1的大小的一个或多个逐深度卷积内核。5.如权利要求4所述的计算机实现的方法,其中所述输入张量是从被配置成改变所述输入张量中的通道的数目的逐点卷积操作输出的。6.如权利要求1所述的计算机实现的方法,进一步包括:在将所述多维中间特征图转换成一维中间特征图之前对所述多维中间特征图执行子频谱归一化(SSN)操作。7.如权利要求6所述的计算机实现的方法,其中,所述SSN操作包括:将所述多维中间特征图划分成所述频率维度上的多个子带;以及对所述多个子带中的每个子带执行批归一化。8.如权利要求1所述的计算机实现的方法,其中所述频率维度减少操作包括以下至少一者:最大池化操作、平均池化操作、或卷积操作。9.如权利要求1所述的计算机实现的方法,其中所述第二卷积操作包括逐深度可分离卷积操作,其中所述逐深度可分离卷积操作的逐深度卷积被配置成使用具有在所述频率维度上等于1且在所述时间维度上大于1的大小的一个或多个逐深度卷积内核。10.如权利要求9所述的计算机实现的方法,其中所述逐深度可分离卷积操作的逐点卷积被配置成在所述逐深度卷积之后使用一个或多个逐点卷积内核。11.如权利要求1所述的计算机实现的方法,其中:所述输入张量包括输入音频特征;并且所述第一卷积操作和所述第二卷积操作是被配置成对所述输入音频特征进行分类的广播残差神经网络的一部分。12.一种包括计算机可执行指令的非瞬态计算机可读介质,所述计算机可执行指令在
由处理系统的一个或多个处理器执行时使得所述处理系统执行包括以下操作的操作:接收包括频率维度和时间维度的输入张量;使用第一卷积操作处理所述输入张量以生成包括所述频率维度和所述时间维度的多维中间特征图;使用频率维度减少操作来将所述多维中间特征图转换成所述时间维度上的一维中间特征图;使用第二卷积操作来处理所述一维中间特征图以生成时间特征图;使用广播操作将所述时间特征图扩展到所述频率维度以生成多维输出特征图;经由第一残差连接使用所述多维中间特征图来扩增所述多维输出特征图;以及输出经扩增的多维输出特征图。13.如权利要求12所述的非瞬态计算机可读介质,所述操作进一步包括:经由第二残差连接使用所述输入张量来扩增所述多维输出特征图。14.如权利要求12所述的非瞬态计算机可读介质,其中所述第一卷积操作使用具有在所述频率维度上大于1且在所述时间维度上等于1的大小的一个或多个逐深度卷积内核。15.如权利要求14所述的非瞬态计算机可读介质,其中所述输入张量是从被配置成改变所述输入张量中的通道的数目的逐点卷积操作输出的。16.如权利要求12所述的非瞬态计算机可读介质,进一步包括:在将所述多维中间特征图转换成所述一维中间...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。