数据处理的方法、电子设备和存储介质技术

技术编号:31157732 阅读:13 留言:0更新日期:2021-12-04 09:55
本公开的实施例提供了数据处理的方法、设备和存储介质,涉及人工智能领域。本申请的数据处理方法中,数据处理设备获取用于指示神经网络模型的高阶信息矩阵的克罗内克因子矩阵;对克罗内克因子矩阵进行切分以得到多个方阵,其中,切分出的多个方阵为克罗内克因子矩阵的子矩阵,并且该多个方阵的主对角线一一与克罗内克因子矩阵主对角线的一部分对应;再基于得到的多个方阵,调整神经网络模型的参数。这样,基于切分出的方阵而不是直接基于克罗内克因子矩阵来调整该神经网络模型的参数,可以降低训练模型所需的时间成本。训练模型所需的时间成本。训练模型所需的时间成本。

【技术实现步骤摘要】
数据处理的方法、电子设备和存储介质


[0001]本公开的实施例主要涉及计算机
,并且更具体地,涉及用于数据处理的方法、装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着计算机技术的不断发展,深度学习技术已经被应用到各种各样的领域。目前,深度学习在许多应用领域都表现出了优异的性能,例如图像识别、目标检测和自然语言处理等领域。
[0003]深度学习模型的训练已经成为当前关注的焦点。针对深度学习模型的常用优化算法包括一阶优化算法(例如,梯度下降算法)和高阶优化算法(例如,自然梯度算法)。一阶优化收敛速度较差。相比而言,高阶优化算法通常能够带来更好的训练精度,然而却需要更大的时间成本。

技术实现思路

[0004]本公开的实施例提供了一种数据处理的方案。
[0005]在本公开的第一方面,提供了用于数据处理设备的方法。该方法包括:获取用于指示神经网络模型的高阶信息矩阵的克罗内克因子矩阵,高阶信息矩阵用于校正神经网络模型的一阶梯度;对克罗内克因子矩阵进行切分以得到多个方阵,使得多个方阵为克罗内克因子矩阵的子矩阵,多个方阵的主对角线一一与克罗内克因子矩阵主对角线的一部分对应;以及基于多个方阵,调整神经网络模型的参数。
[0006]在本公开中,高阶信息矩阵是指在神经网络模型的训练过程中产生的用于校正模型的一阶倒数的矩阵,例如海森矩阵、费舍矩阵和二阶矩矩阵等。克罗内克因子矩阵是指对高阶信息矩阵进行克罗内克分解所获得的一对矩阵,该对对阵的克罗内克乘积等于高阶信息矩阵。
[0007]在本公开中,可以按照预定的切分维度以沿克罗内克因子矩阵的主对角线进行切分,以获取多个秩等于切分维度的方阵。在一些情况下,当克罗内克因子矩阵的秩能够被切分维度整除时,克罗内克因子将被切分为整数个具有相同秩的方阵。在另一些情况下,当克罗内克因子矩阵的秩不能被切分维度整除时,克罗内克因子将被切分为整数个具有相同秩的方阵以及一个或多个秩小于切分维度的方阵。
[0008]基于这样的切分,多个方阵的主对角线一一与克罗内克因子矩阵主对角线的一部分对应,也即,多个方阵的所有主对角线上的元素将包括克罗内克因子矩阵的主对角线上所有的元素。另外,该多个方阵中秩大于1的方阵也包括该克罗内克因子矩阵中的其他元素,这些元素是该克罗内克因子矩阵中临近主对角线的元素。
[0009]另外,本公开中的数据处理设备,是具有AI数据计算能力的设备,可以是终端设备也可以是网络设备。
[0010]通过这样的方式,本公开的实施例将克罗内克因子矩阵转换为多个小的方阵的近
似,从而大大降低了运算的时间复杂度,从而降低了模型训练的时间成本。
[0011]在第一方面的某些实现方式中,数据处理设备包括用于执行调整的计算资源,并且其中对克罗内克因子矩阵进行切分包括:基于计算资源的资源标识和神经网络模型的模型标识对克罗内克因子矩阵进行切分。
[0012]在一些实施例中,模型标识可以是指示神经网络模型的类型的标识信息,例如“resnet50”可以指示神经网络模型为50层的深度残差网络(ResNet)。模型标识的示例还可以包括“resnet18”、“resnet101”、“VGG16”、“LeNet5”等等。附加地,资源标识可以是指示计算资源的型号的标识信息,例如芯片名称,芯片代号、芯片种类编号甚至芯片所在的设备的标识都可以用作资源标识。作为示例,资源标识可以是用于训练神经网络模型的AI芯片的具体型号,例如“GPU V100”。备选地,资源标识也可以是计算资源的唯一标识,例如,计算资源的MAC地址等。
[0013]在一些实施例中,可以基于资源标识和模型标识来确定用于切分克罗内克因子矩阵的切分维度,并且基于该切分维度来对克罗内克因子切分。例如,可以根据资源标识和模型标识来查询对应的历史优化策略,以确定用于切分克罗内克因子矩阵的切分维度。基于这样的方式,本公开的实施例能够利用与模型和计算资源相对应的历史优化策略来快速地确定该如何切分克罗内克因子矩阵,从而进一步降低计算成本。
[0014]在第一方面的某些实现方式中,数据处理设备中存储有资源标识、模型标识和维度之间的对应关系,维度指示克罗内克因子矩阵被切分成得到多个方阵中至少一个方阵的秩。
[0015]在一些实施例中,资源标识、模型标识和维度之间的对应关系例如可以被存储在配置文件中,其中对应关系可以是资源标识、模型标识和维度三者之间的对应关系,也可以是三者中两两之间的对应关系。通过维护资源标识、模型标识和维度之间的对应关系,本公开的实施例能够快速地实现基于资源标识和模型标识的查找,从而能够高效地从历史优化策略中确定可用的优化策略。
[0016]在第一方面的某些实现方式中,数据处理设备包括用于执行调整的计算资源,并且其中对克罗内克因子矩阵进行切分包括:基于多个维度对应的性能信息,从多个维度中选择目标维度来切分克罗内克因子矩阵,其中,一个维度对应的性能信息指示计算资源处理与该维度对应的方阵的效率,目标维度指示克罗内克因子矩阵被切分成得到多个方阵中至少一个方阵的秩。
[0017]本申请中,可以根据与多个维度对应的性能信息来选择目标维度,并基于该维度来切分克罗内克因子矩阵。例如,多个维度可以是预设的一组候选维度。可以构建与一组候选维度对应的一组样本方阵,并通过获取计算资源处理这些样本方阵的效率来确定与不同维度所对应的性能信息。
[0018]在一些实施例中,可以为每个维度确定对应的性能信息,并从中选择性能信息满足预定要求的(例如,性能优于特定阈值或者最优的性能)维度来作为目标维度。通过这样的方式,本公开的实施例中能够保证计算资源能够高效地处理经切分得到的多个方阵,从而提高计算效率。
[0019]在第一方面的某些实现方式中,一个维度对应的性能信息的值与数据处理设备计算与维度对应的方阵的逆矩阵所需的时间有关。
[0020]在本申请中,由于计算资源的主要时间开销来自与方阵的逆矩阵运算,因此,通过在选择目标切分维度时考虑计算资源求解对应方阵的逆矩阵的效率,本公开的实施例可以进一步降低求解逆矩阵所需要的时间开销。
[0021]在第一方面的某些实现方式中,对克罗内克因子矩阵进行切分包括:基于多个维度对应的信息损失,从多个维度中选择目标维度来切分克罗内克因子矩阵,其中,一个维度对应的信息损失指示由于利用该维度来切分参考克罗内克因子矩阵造成的信息损失。
[0022]在一些实施例中,例如可以利用一组候选维度中的每个维度来对参考克罗内克因子矩阵进行切分,来确定与各维度所对应的信息损失。为了更准确地评估实际训练过程中的信息损失,参考克罗内克因子矩阵例如可以是使用相同的训练数据对神经网络模型进行预定次迭代后所获得的克罗内克因子矩阵。
[0023]在一些实施例中,可以为每个维度确定对应的信息损失,并从中选择信息损失满足预定要求的(例如,信息损失少于特定阈值或者最少的信息损失)维度来作为目标维度。在本申请中,通过在选择目标切分维度时考虑信息损失,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法,所述方法用于数据处理设备,所述方法包括:获取用于指示神经网络模型的高阶信息矩阵的克罗内克因子矩阵,所述高阶信息矩阵用于校正所述神经网络模型的一阶梯度;对所述克罗内克因子矩阵进行切分以得到多个方阵,所述多个方阵为所述克罗内克因子矩阵的子矩阵,所述多个方阵的主对角线一一与所述克罗内克因子矩阵主对角线的一部分对应;以及基于所述多个方阵,调整所述神经网络模型的参数。2.根据权利要求1所述的方法,其中所述数据处理设备包括用于执行所述调整的计算资源,并且其中对所述克罗内克因子矩阵进行切分包括:基于所述计算资源的资源标识和所述神经网络模型的模型标识对所述克罗内克因子矩阵进行切分。3.根据权利要求2所述的方法,其中所述数据处理设备中存储有所述资源标识、所述模型标识和维度之间的对应关系,所述维度指示所述克罗内克因子矩阵被切分成得到所述多个方阵中至少一个方阵的秩。4.根据权利要求1所述的方法,其中所述数据处理设备包括用于执行所述调整的计算资源,并且其中对所述克罗内克因子矩阵进行切分包括:基于多个维度对应的性能信息,从所述多个维度中选择目标维度来切分所述克罗内克因子矩阵,其中,一个维度对应的性能信息指示所述计算资源处理与所述维度对应的方阵的效率,所述目标维度指示所述克罗内克因子矩阵被切分成得到所述多个方阵中至少一个方阵的秩。5.根据权利要求4所述的方法,其中所述维度对应的性能信息的值与所述数据处理设备计算与所述维度对应的方阵的逆矩阵所需的时间有关。6.根据权利要求1所述的方法,其中对所述克罗内克因子矩阵进行切分包括:基于多个维度对应的信息损失,从所述多个维度中选择目标维度来切分所述克罗内克因子矩阵,其中,一个维度对应的信息损失指示由于利用所述维度来切分参考克罗内克因子矩阵造成的信息损失,所述目标维度指示所述克罗内克因子矩阵被切分成得到所述多个方阵中至少一个方阵的秩。7.根据权利要求6所述的方法,其中...

【专利技术属性】
技术研发人员:倪宁曦王敏王紫东于璠陈雷
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1