【技术实现步骤摘要】
有限空间内自动拿取特定行李的方法、系统、存储介质和终端
本专利技术涉及增强学习训练领域,尤其涉及有限空间内自动拿取特定行李的方法、系统、存储介质和终端。
技术介绍
目前,在机舱、客舱等储存不同大小的行李仓库中,经常需要拿取某个放在里面的特定的行李,通常的做法是将挡住这个行李的箱子全部拿出机舱,然后再将它们放回,这样做是及其耗费时间和精力的。因此,为了解决这个问题,通过在机舱内部合理移动其他行李,在不把其他行李拿出机舱的情况下,抽取目标行李。本专利技术使用了一个增强学习训练的神经网络,使用这个方法解决了有限空间下、无次序摆放的行李拿取问题——通过在机舱内部合理移动箱子从而勾取目标箱子,而不是像传统方法一样将其它箱子全部拿出。并且整个在实现解决方案的过程中没有人类的干涉。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供有限空间内自动拿取特定行李的方法、系统、存储介质和终端,解决机舱等有限空间内自动拿取特定行李的问题。本专利技术的目的是通过以下技术方案来实现的:有限空间内自动拿取特定行李的方法,包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;其中,改进的DDPG网络的训练包括以下步骤:S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;S2:对得到的概率分布队列p[]添加一个随机扰动;S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environmen ...
【技术保护点】
1.有限空间内自动拿取特定行李的方法,其特征在于:包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;其中,改进的DDPG网络的训练包括以下步骤:S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;S2:对得到的概率分布队列p[]添加一个随机扰动;S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;S4:获取环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回步骤S1,否则进入步骤S5;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;S5:以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结 ...
【技术特征摘要】
1.有限空间内自动拿取特定行李的方法,其特征在于:包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;其中,改进的DDPG网络的训练包括以下步骤:S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;S2:对得到的概率分布队列p[]添加一个随机扰动;S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;S4:获取环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回步骤S1,否则进入步骤S5;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;S5:以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;S6:计算本次完整训练阶段episode的平均奖励值;S7:对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到经过修改后的目标概率值Y_true;S8:将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,返回到步骤S1训练DDPG网络。2.根据权利要求1所述的有限空间内自动拿取特定行李的方法,其特征在于:步骤S1中DDPG网络对新的当前行李分布状态state进行处理,包括以下子步骤:S101:初始化Q网络critic的online神经网络Q(s,a|θQ)的参数θQ,同时初始化策略网络actor的online神经网络μ(s|θμ)的参数θμ,式中s表示当前行李分布状态state,a表示行为action;S102:将Q网络critic的online神经网络Q(s,a|θQ)的参数θQ拷贝给Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',同时将策略网络actor的online神经网络μ(s|θμ)的参数θμ拷贝给策略网络actor的target神经网络μ'(s|θμ')的参数θμ';S103:初始化重播缓存器R;S104:对共M-1个中的每一个完整训练阶段episode,依次执行S1041~S1043步骤:S1041:初始化一个用于行为action探索的随机扰动S1042:接收初始观察到的当前行李分布状态states1;S1043:对共T-1个中的每一个行为actionat,从第1至T-1个依次执行S10431~S10438步骤,其中每一次执行均为第t次执行,执行完毕后实现t+1操作:S10431:策略网络actor根据当前策略即概率分布队列p[]和扰动噪音选择行为actionat:S10432:执行S10431中的行为actionat,获得奖励值rewardrt,并观察新的当前行李分布状态statest;S10433:策略网络actor将这个状态转换过程(st,at,rt,st+1)存入重播缓存器R,作为训练策略网络actor的online神经网络和Q网络critic的online神经网络的数据集;S10434:从重播缓存器R中的共N个状态转换过程,随机采样一个状态转换过程(si,ai,ri,si+1),作为策略网络actor的online神经网络、Q网络critic的online神经网络的一个训练数据;S10435:使用策略网络actor的target神经网络μ'(s|θμ')和Q网络critic的target神经网络Q'(s,a|θQ'),计算标签yi的值:yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ')式中,γ表示discountedrate,是一个比例系数,范围在[0,1]之间;S10436:通过loss值L对Q网络critic的梯度gradient进行更新,其中:S10437:使用采样策略梯度,更新策略网络actor的策略policy:S10438:更新Q网络critic的target...
【专利技术属性】
技术研发人员:匡平,张婷,李祖宁,闫华睿,罗丁力,王豪爽,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。