数据处理的方法、电子设备和存储介质技术

技术编号：31157732 阅读：13 留言：0更新日期：2021-12-04 09:55

本公开的实施例提供了数据处理的方法、设备和存储介质，涉及人工智能领域。本申请的数据处理方法中，数据处理设备获取用于指示神经网络模型的高阶信息矩阵的克罗内克因子矩阵；对克罗内克因子矩阵进行切分以得到多个方阵，其中，切分出的多个方阵为克罗内克因子矩阵的子矩阵，并且该多个方阵的主对角线一一与克罗内克因子矩阵主对角线的一部分对应；再基于得到的多个方阵，调整神经网络模型的参数。这样，基于切分出的方阵而不是直接基于克罗内克因子矩阵来调整该神经网络模型的参数，可以降低训练模型所需的时间成本。训练模型所需的时间成本。训练模型所需的时间成本。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理的方法、电子设备和存储介质

[0001]本公开的实施例主要涉及计算机
，并且更具体地，涉及用于数据处理的方法、装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着计算机技术的不断发展，深度学习技术已经被应用到各种各样的领域。目前，深度学习在许多应用领域都表现出了优异的性能，例如图像识别、目标检测和自然语言处理等领域。
[0003]深度学习模型的训练已经成为当前关注的焦点。针对深度学习模型的常用优化算法包括一阶优化算法(例如，梯度下降算法)和高阶优化算法(例如，自然梯度算法)。一阶优化收敛速度较差。相比而言，高阶优化算法通常能够带来更好的训练精度，然而却需要更大的时间成本。

技术实现思路

[0004]本公开的实施例提供了一种数据处理的方案。
[0005]在本公开的第一方面，提供了用于数据处理设备的方法。该方法包括：获取用于指示神经网络模型的高阶信息矩阵的克罗内克因子矩阵，高阶信息矩阵用于校正神经网络模型的一阶梯度；对克罗内克因子矩阵进行切分以得到多个方阵，使得多个方阵为克罗内克因子矩阵的子矩阵，多个方阵的主对角线一一与克罗内克因子矩阵主对角线的一部分对应；以及基于多个方阵，调整神经网络模型的参数。
[0006]在本公开中，高阶信息矩阵是指在神经网络模型的训练过程中产生的用于校正模型的一阶倒数的矩阵，例如海森矩阵、费舍矩阵和二阶矩矩阵等。克罗内克因子矩阵是指对高阶信息矩阵进行克罗内克分解所获得的一对矩阵，该对对阵的克罗内克乘积等于高阶信息矩阵。
...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法，所述方法用于数据处理设备，所述方法包括：获取用于指示神经网络模型的高阶信息矩阵的克罗内克因子矩阵，所述高阶信息矩阵用于校正所述神经网络模型的一阶梯度；对所述克罗内克因子矩阵进行切分以得到多个方阵，所述多个方阵为所述克罗内克因子矩阵的子矩阵，所述多个方阵的主对角线一一与所述克罗内克因子矩阵主对角线的一部分对应；以及基于所述多个方阵，调整所述神经网络模型的参数。2.根据权利要求1所述的方法，其中所述数据处理设备包括用于执行所述调整的计算资源，并且其中对所述克罗内克因子矩阵进行切分包括：基于所述计算资源的资源标识和所述神经网络模型的模型标识对所述克罗内克因子矩阵进行切分。3.根据权利要求2所述的方法，其中所述数据处理设备中存储有所述资源标识、所述模型标识和维度之间的对应关系，所述维度指示所述克罗内克因子矩阵被切分成得到所述多个方阵中至少一个方阵的秩。4.根据权利要求1所述的方法，其中所述数据处理设备包括用于执行所述调整的计算资源，并且其中对所述克罗内克因子矩阵进行切分包括：基于多个维度对应的性能信息，从所述多个维度中选择目标维度来切分所述克罗内克因子矩阵，其中，一个维度对应的性能信息指示所述计算资源处理与所述维度对应的方阵的效率，所述目标维度指示所述克罗内克因子矩阵被切分成得到所述多个方阵中至少一个方阵的秩。5.根据权利要求4所述的方法，其中所述维度对应的性能信息的值与所述数据处理设备计算与所述维度对应的方阵的逆矩阵所需的时间有关。6.根据权利要求1所述的方法，其中对所述克罗内克因子矩阵进行切分包括：基于多个维度对应的信息损失，从所述多个维度中选择目标维度来切分所述克罗内克因子矩阵，其中，一个维度对应的信息损失指示由于利用所述维度来切分参考克罗内克因子矩阵造成的信息损失，所述目标维度指示所述克罗内克因子矩阵被切分成得到所述多个方阵中至少一个方阵的秩。7.根据权利要求6所述的方法，其中...

【专利技术属性】
技术研发人员：倪宁曦，王敏，王紫东，于璠，陈雷，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人