一种机器学习模型的训练方法和相关装置制造方法及图纸

技术编号：41205224 阅读：2 留言：0更新日期：2024-05-07 22:31

本申请实施例公开了一种机器学习模型的训练方法和相关装置，用于解决CPU和NPU需要进行频繁的环境交互与网络交互带来带宽压力问题。本申请实施例方法在神经网络处理器上执行，包括：获取样本环境数据；根据样本环境数据训练环境模型；将环境模型与智能体模型进行交互，得到状态动作序列；将状态动作序列提供给智能体模型进行训练，并将训练后的智能体模型继续与环境模型进行交互，直到智能体模型的损失值收敛到预设值，得到训练后的智能体模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种机器学习模型的训练方法和相关装置。

技术介绍

1、机器学习是人工智能的一个分支。人们通过构建一个参数化的模型来表示规律，一些端到端(end-to-end)的机器学习方法在样本数据中获取规律，应用规律进行预测。深度强化学习(deep reinforce learning，drl)是一种端对端的感知与控制系统，将深度学习的感知能力和强化学习的决策能力相结合：深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。因此，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路。

2、以典型的行为器-评判家(actor-critic，ac)算法训练为例，行为器(actor)与评判家(critic)组成智能体(agent)模型，与环境(environment)模型交互，其中智能体模型和环境模型的部署和训练在中央处理器(central processing unit，cpu)芯片中完成，而模型推理和状态动作序列(trajectory)的收集在神经网络处理器(neural networkprocessing unit，npu)上完成，因此，模型的训练过程中，cpu和npu需要进行频繁的环境交互和网络交互，从而给网络带宽带来很大压力。

技术实现思路

1、本申请实施例提供了一种机器学习模型的训练方法和相关装置，解决cpu和npu需要进行频繁的环境交互与网络交互带来带宽压力问题。

2、第一方面，本申

3、获取样本环境数据。要对模型进行训练，首先需要获取样本数据，该样本数据可以用于建立和训练环境模型，该样本环境数据还可以是历史数据，可以是原始数据，也可以为是利用图形处理器(graphics processing unit，gpu)进行了预处理的数据。

4、根据所述样本环境数据训练环境模型。在获取了样本环境数据后，根据该样本环境数据可以直接对环境模型进行训练。其中，该环境模型用于支持不同场景下智能体在实施某行为时进行的决策。

5、将所述环境模型与智能体模型进行交互，得到状态动作序列。可以理解的是，状态动作序列是由智能体与环境交互过程中的一系列状态和动作组成，在训练了环境模型后，将该环境模型与智能体模型进行交互，可以得到一系列连贯的状态动作序列，以便于后续对智能体模型进行训练。

6、将所述状态动作序列提供给所述智能体模型进行训练，并将训练后的智能体模型继续与环境模型进行交互，直到所述智能体模型的损失值收敛到预设值，得到训练后的所述智能体模型。

7、本实施例中，首先采用数据驱动拟合环境模型，然后将环境模型与智能体模型进行交互得到状态动作序列，再将该状态动作样本序列作为训练样本训练智能体模型，若智能体模型未收敛则重新与环境模型进行交互，直至智能体模型收敛。本方法采用了高能效的npu算力代替了分布式cpu算力部署，避免cpu进行环境状态采样的分布式需求，环境模型可运行于npu平台，因此整个方法流程中的数据样本和模型传输可以采用内存共享方式，从而缓解了数据搬运给网络带宽带来的压力问题。

8、在一种可能的实现方法中，将所述状态动作序列提供给所述智能体模型进行训练之后，还包括：

9、获取所述智能体模型损失值超阈值的偏离值；

10、通过督导者获取所述偏离值对应的环境数据；

11、将所述环境数据输入到所述样本环境数据中，继续训练所述环境模型。

12、本实施例中，提供了环境模型的主动调整方案，利用智能体模型训练中产生的损失值信息，挑选偏离数据分布的极端情况构成在线数据集，通过督导者对真实环境重新标记的方式输入到样本环境数据中，重新训练环境模型，保证了机器学习模型的精度。

13、在一种可能的实现方法中，根据所述样本环境数据训练环境模型，具体包括：

14、根据所述样本环境数据拟合神经网络模型；

15、通过数据驱动的方式对所述神经网络模型进行训练，得到环境模型。

16、本实施例中，通过使用样本环境数据，拟合了一个神经网络初始化模型，然后对该神经网络初始化模型采用数据驱动的方式进行训练，从而得到了环境模型。该环境模型替换传统方案中在cpu中所构建的环境部分，避免了cpu进行环境状态采样的分布式需求。

17、在一种可能的实现方法中，将所述环境模型与智能体模型进行交互，得到状态动作序列，具体包括：

18、将所述环境模型中的系列状态和智能体模型中的系列动作通过批处理层进行交互，在所述批处理层中产生状态动作序列。

19、本实施例中，通过批处理(batching)层，可以实现将系列动作组合成神经网络模型的分批次输入，一次性进行多个样本的推理环境模型的系列状态，将系列状态送入智能体模型，使得智能体模型产生系列动作，加快采样效率。

20、在一种可能的实现方法中，将所述状态动作序列提供给所述智能体模型进行训练，具体包括：

21、将所述状态动作序列进行存储，直到所述状态动作序列的中的状态动作样本数量达到预设样本量；

22、将所述预设样本量的所述状态动作样本分批次的提供给所述智能体模型进行训练。

23、本实施例中，可以收集并存储上述步骤中交互得到的状态动作序列，当存储的样本数量达到预设的量后，再以队列的形式，分批次的提供给智能体模型进行训练，提高训练效率。

24、第二方面，本申请实施例提供了一种机器学习模型的训练装置，其特征在于，所述训练装置运行于神经网络处理器上，包括：

25、环境模型训练模块，用于获取样本环境数据，根据所述样本环境数据训练环境模型。

26、行为器，用于将所述环境模型与智能体模型进行交互，得到状态动作序列；

27、智能体训练模块，用于将所述状态动作序列提供给所述智能体模型进行训练，并将训练后的智能体模型继续与环境模型进行交互，直到所述智能体模型的损失值收敛到预设值，得到训练后的所述智能体模型。

28、在一种可能的实现方法中，还包括：

29、精度标定模块，用于获取所述智能体模型损失值超阈值的偏离值，通过督导者获取所述偏离值对应的环境数据，将所述环境数据输入到所述样本环境数据中，继续训练所述环境模型。

30、在一种可能的实现方法中，

31、所述环境模型训练模块，具体用于根据所述样本环境数据拟合神经网络模型，通过数据驱动的方式对所述神经网络模型进行训练，得到环境模型。

32、在一种可能的实现方法中，

33、所述行为器，具体用于将所述环境模型中的系列状态和智能体模型中的系列动作通过批处理层进行交互，在所述批处理层中产生状态动作序列。

34、在一种可能的实现方法中，

35、所述智能体训练模块，具体用本文档来自技高网...

【技术保护点】

1.一种机器学习模型的训练方法，其特征在于，在神经网络处理器上执行，包括：

2.根据权利要求1所述的方法，其特征在于，将所述状态动作序列提供给所述智能体模型进行训练之后，还包括：

3.根据权利要求1或2所述的方法，其特征在于，根据所述样本环境数据训练环境模型，具体包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，将所述环境模型与智能体模型进行交互，得到状态动作序列，具体包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，将所述状态动作序列提供给所述智能体模型进行训练，具体包括：

6.一种机器学习模型的训练装置，其特征在于，所述训练装置运行于神经网络处理器上，包括：

7.根据权利要求6所述的训练装置，其特征在于，还包括：

8.根据权利要求6或7所述的训练装置，其特征在于，

9.根据权利要求6至8任一项所述的训练装置，其特征在于，

10.根据权利要求6至9任一项所述的训练装置，其特征在于，

11.一种机器学习模型的训练装置，其特征在于，包括处理器，

12.一种机器学习模型的训练装置，其特征在于，包括处理单元和通信接口，所述处理单元通过所述通信接口获取程序指令，当所述程序指令被所述处理单元执行时实现权利要求1至5中任一项所述的方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或多个指令，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机实施权利要求1至5任一所述的方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品存储有指令，所述指令在由计算机执行时，使得所述计算机实施权利要求1至5任意一项所述的方法。

...

【技术特征摘要】