电子设备、智能体自训练装置和计算机可读介质制造方法及图纸

技术编号:24459117 阅读:27 留言:0更新日期:2020-06-10 16:27
本申请公开了一种电子设备、智能体自训练装置和计算机可读介质。该电子设备包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现步骤:对目标对象进行测试,生成测试结果;若测试结果不满足预设的任务指标,则由智能体对目标对象的待调整参数进行N次迭代调整,直至测试结果满足任务指标;若迭代次数N大于等于第一预设阈值,则根据目标对象N次调整的待调整参数、目标对象N次的测试结果、以及迭代次数N,对智能体的网络权重参数进行更新;基于参数更新后的智能体,继续对待调整参数进行M次迭代调整,直至迭代次数M小于第一预设阈值,智能体的训练结束。

Electronic equipment, agent self training device and computer readable medium

【技术实现步骤摘要】
电子设备、智能体自训练装置和计算机可读介质
本申请涉及人工智能
,特别是涉及一种电子设备、智能体自训练装置和计算机可读介质。
技术介绍
随着人工智能技术的发展,利用人工智能解决具体问题的模型和系统越来越多,在电路设计领域也得到了广泛的应用。对于电路设计,不同的设计指标催生了大量不同的电路类型,同时,每种电路类型具备不同的性能特点,导致传统的机器学习在进行训练时,需要大量的不同电路的数据,数据不易收集处理,极大的增加了人工进行数据的收集、标注的成本,而且得到的智能体也难以满足不同电路设计。
技术实现思路
基于上述问题,本申请提供了一种电子设备、智能体自训练装置和计算机可读介质。本申请实施例公开了如下技术方案:本申请提供一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:对目标对象进行测试,生成测试结果;若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标;若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新;基于参数更新后的所述智能体,继续对所述待调整参数进行M次迭代调整,直至所述迭代次数M小于所述第一预设阈值,所述智能体的训练结束;其中,N、M均为自然数。可选地,在本申请的任一实施例中,所述智能体为深度学习智能体,所述处理器执行所述若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新的步骤,包括:根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,计算所述深度学习智能体的策略损失;根据所述策略损失和所述深度学习智能体的神经网络权重参数,计算所述神经网络权重参数的梯度;根据所述神经网络权重参数的梯度,对所述神经网络权重参数进行更新。可选地,在本申请的任一实施例中,所述处理器执行所述根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,计算所述深度学习智能体的策略损失的步骤,包括:根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,通过损失函数计算所述深度学习智能体的策略损失。可选地,在本申请的任一实施例中,所述处理器执行所述根据所述策略损失和所述深度学习智能体的神经网络权重参数,计算所述神经网络权重参数的梯度的步骤,包括:根据所述策略损失和所述神经网络权重参数,通过反向传播算法计算所述神经网络权重参数的梯度。可选地,在本申请的任一实施例中,所述智能体为强化学习智能体,所述处理器执行所述若所述迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新的步骤,包括:根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,通过所述强化学习智能体中的价值网络模型,计算所述测试结果的累计奖励值;基于所述累计奖励值和所述强化学习智能体中策略网络模型的策略网络权重参数,计算所述策略网络权重参数的梯度;根据所述策略网络权重参数的梯度,对所述策略网络权重参数进行更新。可选地,在本申请的任一实施例中,所述处理器执行所述根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,通过所述强化学习智能体中的价值网络模型,计算所述测试结果的累计奖励值的步骤,包括:根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,通过贝尔曼方程计算所述测试结果的累计奖励值。可选地,在本申请的任一实施例中,所述处理器执行在所述对目标对象进行测试,生成测试结果的步骤之后,且在所述处理器执行所述若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标的步骤之前,还包括:采集所述测试结果,对所述测试结果进行处理,使所述测试结果的数据格式与所述智能体的网络输入格式对齐,所述智能体的网络输入格式为二维矩阵或图结构。可选地,在本申请的任一实施例中,所述处理器执行所述采集所述测试结果,对所述测试结果进行处理,使所述测试结果的数据格式与所述智能体的网络输入格式对齐的步骤,包括:采集所述测试结果,对所述测试结果依次执行局部采样、剪切、矩阵变换、结构重定义操作,使所述测试结果的数据格式与所述智能体的网络输入格式对齐。可选地,在本申请的任一实施例中,所述处理器执行所述若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标的步骤,包括:若所述测试结果不满足所述任务指标,且所述迭代次数N等于第二预设阈值,则对所述智能体的所述网络权重参数进行更新,基于参数更新后的所述智能体,继续对所述待调整参数进行迭代调整,直至所述测试结果满足所述任务指标,其中,所述第二预设阈值大于所述第一预设阈值。可选地,在本申请的任一实施例中,在所述处理器执行所述基于参数调整后的所述智能体,继续对所述待调整参数进行M次迭代调整,直至所述迭代次数M小于所述第一预设阈值,所述智能体的训练结束的步骤之后,还包括:对所述任务指标和所述待调整参数进行变更,使所述智能体根据变更后的所述任务指标和变更后的所述待调整参数进行训练。本申请实施例还提供一种智能体自训练装置,包括:测试单元,配置为对目标对象进行测试,生成测试结果;目标对象参数单元,配置为若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标;智能体参数单元,配置为若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新;智能体循环单元,配置为基于参数更新后的所述智能体,继续对所述待调整参数进行M次迭代调整,直至所述迭代次数M小于所述第一预设阈值,所述智能体的训练结束;其中,N、M均为自然数。可选地,在本申请的任一实施例中,所述智能体为深度学习智能体,所述智能体参数单元包括:深度学习策略子单元,配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,计算所述深度学习智能体的策略损失;深度学习梯度子单元,配置为根据所述策略损失和所述深度学习智能体的神经网络权重参数,计算所述神经网络权重参数的梯度;深度学习更新子单元,配置为根据所述神经网络权重参数的梯度,对所述神经网络权重参数进行更新。可选地,在本申请的本文档来自技高网...

【技术保护点】
1.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:/n对目标对象进行测试,生成测试结果;/n若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标;/n若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新;/n基于参数更新后的所述智能体,继续对所述待调整参数进行M次迭代调整,直至所述迭代次数M小于所述第一预设阈值,所述智能体的训练结束;/n其中,N、M均为自然数。/n

【技术特征摘要】
1.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
对目标对象进行测试,生成测试结果;
若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标;
若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新;
基于参数更新后的所述智能体,继续对所述待调整参数进行M次迭代调整,直至所述迭代次数M小于所述第一预设阈值,所述智能体的训练结束;
其中,N、M均为自然数。


2.根据权利要求1所述的电子设备,其特征在于,所述智能体为深度学习智能体,
所述处理器执行所述若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新的步骤,包括:
根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,计算所述深度学习智能体的策略损失;
根据所述策略损失和所述深度学习智能体的神经网络权重参数,计算所述神经网络权重参数的梯度;
根据所述神经网络权重参数的梯度,对所述神经网络权重参数进行更新。


3.根据权利要求2所述的电子设备,其特征在于,所述处理器执行所述根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,计算所述深度学习智能体的策略损失的步骤,包括:根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,通过损失函数计算所述深度学习智能体的策略损失。


4.根据权利要求3所述的电子设备,其特征在于,所述处理器执行所述根据所述策略损失和所述深度学习智能体的神经网络权重参数,计算所述神经网络权重参数的梯度的步骤,包括:根据所述策略损失和所述神经网络权重参数,通过反向传播算法计算所述神经网络权重参数的梯度。


5.根据权利要求1所述的电子设备,其特征在于,所述智能体为强化学习智能体,
所述处理器执行所述若所述迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新的步骤,包括:
根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,通过所述强化学习...

【专利技术属性】
技术研发人员:高浩渊陈志熙
申请(专利权)人:南京星火技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1