【技术实现步骤摘要】
电子设备、智能体自训练装置和计算机可读介质
本申请涉及人工智能
,特别是涉及一种电子设备、智能体自训练装置和计算机可读介质。
技术介绍
随着人工智能技术的发展,利用人工智能解决具体问题的模型和系统越来越多,在电路设计领域也得到了广泛的应用。对于电路设计,不同的设计指标催生了大量不同的电路类型,同时,每种电路类型具备不同的性能特点,导致传统的机器学习在进行训练时,需要大量的不同电路的数据,数据不易收集处理,极大的增加了人工进行数据的收集、标注的成本,而且得到的智能体也难以满足不同电路设计。
技术实现思路
基于上述问题,本申请提供了一种电子设备、智能体自训练装置和计算机可读介质。本申请实施例公开了如下技术方案:本申请提供一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:对目标对象进行测试,生成测试结果;若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标;若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新;基于参数更新后的所述智能体,继续对所述待调整参数进行M次迭代调整,直至所述迭代次数M小于所述第一预设阈值,所述智能体的训练结束;其中,N、M均为自然数。可选地,在本申请的任一实施例中,所述智能体为深度 ...
【技术保护点】
1.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:/n对目标对象进行测试,生成测试结果;/n若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标;/n若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新;/n基于参数更新后的所述智能体,继续对所述待调整参数进行M次迭代调整,直至所述迭代次数M小于所述第一预设阈值,所述智能体的训练结束;/n其中,N、M均为自然数。/n
【技术特征摘要】
1.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
对目标对象进行测试,生成测试结果;
若所述测试结果不满足预设的任务指标,则由所述智能体对所述目标对象的待调整参数进行N次迭代调整,直至所述测试结果满足所述任务指标;
若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新;
基于参数更新后的所述智能体,继续对所述待调整参数进行M次迭代调整,直至所述迭代次数M小于所述第一预设阈值,所述智能体的训练结束;
其中,N、M均为自然数。
2.根据权利要求1所述的电子设备,其特征在于,所述智能体为深度学习智能体,
所述处理器执行所述若迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新的步骤,包括:
根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,计算所述深度学习智能体的策略损失;
根据所述策略损失和所述深度学习智能体的神经网络权重参数,计算所述神经网络权重参数的梯度;
根据所述神经网络权重参数的梯度,对所述神经网络权重参数进行更新。
3.根据权利要求2所述的电子设备,其特征在于,所述处理器执行所述根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,计算所述深度学习智能体的策略损失的步骤,包括:根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,通过损失函数计算所述深度学习智能体的策略损失。
4.根据权利要求3所述的电子设备,其特征在于,所述处理器执行所述根据所述策略损失和所述深度学习智能体的神经网络权重参数,计算所述神经网络权重参数的梯度的步骤,包括:根据所述策略损失和所述神经网络权重参数,通过反向传播算法计算所述神经网络权重参数的梯度。
5.根据权利要求1所述的电子设备,其特征在于,所述智能体为强化学习智能体,
所述处理器执行所述若所述迭代次数N大于等于第一预设阈值,则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,对所述智能体的网络权重参数进行更新的步骤,包括:
根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N,通过所述强化学习...
【专利技术属性】
技术研发人员:高浩渊,陈志熙,
申请(专利权)人:南京星火技术有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。