有限空间内自动拿取特定行李的方法、系统、存储介质和终端技术方案

技术编号:19859199 阅读:19 留言:0更新日期:2018-12-22 12:04
本发明专利技术公开了有限空间内自动拿取特定行李的方法、系统、存储介质和终端,方法包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤。本发明专利技术具有计算出机舱内部移动行李从而拿取目标行李的最佳解法的能力,该方法的关键在于能否在搜索过程中找到目标位置。通过实验证明,该方法能够满足设计的目的:在机舱内部移动障碍行李从而将目标行李拉到出口,而非将障碍行李全部拉出机舱。将该算法应用到机器人上,则可以控制机器人来完成这项工作,来代替现在的人力,会节省很大一部分的时间与花销。本发明专利技术提供的系统、存储介质和装置也解决了相应的技术问题。

【技术实现步骤摘要】
有限空间内自动拿取特定行李的方法、系统、存储介质和终端
本专利技术涉及增强学习训练领域,尤其涉及有限空间内自动拿取特定行李的方法、系统、存储介质和终端。
技术介绍
目前,在机舱、客舱等储存不同大小的行李仓库中,经常需要拿取某个放在里面的特定的行李,通常的做法是将挡住这个行李的箱子全部拿出机舱,然后再将它们放回,这样做是及其耗费时间和精力的。因此,为了解决这个问题,通过在机舱内部合理移动其他行李,在不把其他行李拿出机舱的情况下,抽取目标行李。本专利技术使用了一个增强学习训练的神经网络,使用这个方法解决了有限空间下、无次序摆放的行李拿取问题——通过在机舱内部合理移动箱子从而勾取目标箱子,而不是像传统方法一样将其它箱子全部拿出。并且整个在实现解决方案的过程中没有人类的干涉。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供有限空间内自动拿取特定行李的方法、系统、存储介质和终端,解决机舱等有限空间内自动拿取特定行李的问题。本专利技术的目的是通过以下技术方案来实现的:有限空间内自动拿取特定行李的方法,包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;其中,改进的DDPG网络的训练包括以下步骤:S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;S2:对得到的概率分布队列p[]添加一个随机扰动;S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;S4:获取环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回步骤S1,否则进入步骤S5;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;S5:以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;S6:计算本次完整训练阶段episode的平均奖励值;S7:对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到经过修改后的目标概率值Y_true;S8:将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,返回到步骤S1训练DDPG网络。进一步地,步骤S1中DDPG网络对新的当前行李分布状态state进行处理,包括以下子步骤:S101:初始化Q网络critic的online神经网络Q(s,a|θQ)的参数θQ,同时初始化策略网络actor的online神经网络μ(s|θμ)的参数θμ,式中s表示当前行李分布状态state,a表示行为action;S102:将Q网络critic的online神经网络Q(s,a|θQ)的参数θQ拷贝给Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',同时将策略网络actor的online神经网络μ(s|θμ)的参数θμ拷贝给策略网络actor的target神经网络μ'(s|θμ')的参数θμ';S103:初始化重播缓存器R;S104:对共M-1个中的每一个完整训练阶段episode,依次执行S1041~S1043步骤:S1041:初始化一个用于行为action探索的随机扰动S1042:接收初始观察到的当前行李分布状态states1;S1043:对共T-1个中的每一个行为actionat,从第1至T-1个依次执行S10431~S10438步骤,其中每一次执行均为第t次执行,执行完毕后实现t+1操作:S10431:策略网络actor根据当前策略即概率分布队列p[]和扰动噪音选择行为actionat:S10432:执行S10431中的行为actionat,获得奖励值rewardrt,并观察新的当前行李分布状态statest;S10433:策略网络actor将这个状态转换过程(st,at,rt,st+1)存入重播缓存器R,作为训练策略网络actor的online神经网络和Q网络critic的online神经网络的数据集;S10434:从重播缓存器R中的共N个状态转换过程,随机采样一个状态转换过程(si,ai,ri,si+1),作为策略网络actor的online神经网络、Q网络critic的online神经网络的一个训练数据;S10435:使用策略网络actor的target神经网络μ'(s|θμ')和Q网络critic的target神经网络Q'(s,a|θQ'),计算标签yi的值:yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ')式中,γ表示discountedrate,是一个比例系数,范围在[0,1]之间;S10436:通过loss值L对Q网络critic的梯度gradient进行更新,其中:S10437:使用采样策略梯度,更新策略网络actor的策略policy:S10438:更新Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',以及更新策略网络actor的target神经网络μ'(s|θμ')的参数θμ':θQ'←τθQ+(1-τ)θQ'θμ'←τθμ+(1-τ)θμ'式中,τ表示比例系数。进一步地,步骤S10432中,获得奖励值rewardrt的计算方式包括以下子步骤:奖励值rewardrt初始化为当前移动行李距离出口的曼哈顿距离减去上一个状态的曼哈顿距离。进一步地,步骤S2中所述的对得到的概率分布队列p[]添加一个随机扰动,包括对概率分布队列p[]中每一个元素即概率值进行更新,具体包括以下子步骤:S21:设置变量α的值,其中α为随机扰动比例系数,0<α<1;S22:对概率分布队列p[]中的元素进行更新:p[i]=α*p[i]+(1-α)*np.fulllike(p[i],1/p[i].shape[0])式中,其中np.fulllike是产生一个与p[i]格式相同的数据,值为原值的倒数;p[i].shape[0]表示矩阵第二维的长度。进一步地,所述的α=0.5。进一步地,步骤S5中的以一定的衰减速率向前平滑最终得到的奖励值reward,包括以下子步骤:S51:令动态奖励值=最后奖励值;S52:对每一个奖励值进行更新:如果奖励值为-1:设置动态奖励值为-0.5;否则,更新动态奖励值:动态奖励值=最后奖励值*γ+原奖励值;γ为为比例系数。进一步地,对于不同形状的有限空间需要分别进行不同DDPG网络的训练;并在进行特定行李拿取计算时,根据有限空间的形状选择对应形状的经过训练的DDPG网络进行计算。本专利技术还提供有限空间内自动拿取特定行李的系统,包括:拿取行李确定模块:用于将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;DDPG网络的训练模块,用于训练所述改本文档来自技高网...

【技术保护点】
1.有限空间内自动拿取特定行李的方法,其特征在于:包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;其中,改进的DDPG网络的训练包括以下步骤:S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;S2:对得到的概率分布队列p[]添加一个随机扰动;S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;S4:获取环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回步骤S1,否则进入步骤S5;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;S5:以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;S6:计算本次完整训练阶段episode的平均奖励值;S7:对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到经过修改后的目标概率值Y_true;S8:将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,返回到步骤S1训练DDPG网络。...

【技术特征摘要】
1.有限空间内自动拿取特定行李的方法,其特征在于:包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;其中,改进的DDPG网络的训练包括以下步骤:S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;S2:对得到的概率分布队列p[]添加一个随机扰动;S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;S4:获取环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回步骤S1,否则进入步骤S5;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;S5:以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;S6:计算本次完整训练阶段episode的平均奖励值;S7:对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到经过修改后的目标概率值Y_true;S8:将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,返回到步骤S1训练DDPG网络。2.根据权利要求1所述的有限空间内自动拿取特定行李的方法,其特征在于:步骤S1中DDPG网络对新的当前行李分布状态state进行处理,包括以下子步骤:S101:初始化Q网络critic的online神经网络Q(s,a|θQ)的参数θQ,同时初始化策略网络actor的online神经网络μ(s|θμ)的参数θμ,式中s表示当前行李分布状态state,a表示行为action;S102:将Q网络critic的online神经网络Q(s,a|θQ)的参数θQ拷贝给Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',同时将策略网络actor的online神经网络μ(s|θμ)的参数θμ拷贝给策略网络actor的target神经网络μ'(s|θμ')的参数θμ';S103:初始化重播缓存器R;S104:对共M-1个中的每一个完整训练阶段episode,依次执行S1041~S1043步骤:S1041:初始化一个用于行为action探索的随机扰动S1042:接收初始观察到的当前行李分布状态states1;S1043:对共T-1个中的每一个行为actionat,从第1至T-1个依次执行S10431~S10438步骤,其中每一次执行均为第t次执行,执行完毕后实现t+1操作:S10431:策略网络actor根据当前策略即概率分布队列p[]和扰动噪音选择行为actionat:S10432:执行S10431中的行为actionat,获得奖励值rewardrt,并观察新的当前行李分布状态statest;S10433:策略网络actor将这个状态转换过程(st,at,rt,st+1)存入重播缓存器R,作为训练策略网络actor的online神经网络和Q网络critic的online神经网络的数据集;S10434:从重播缓存器R中的共N个状态转换过程,随机采样一个状态转换过程(si,ai,ri,si+1),作为策略网络actor的online神经网络、Q网络critic的online神经网络的一个训练数据;S10435:使用策略网络actor的target神经网络μ'(s|θμ')和Q网络critic的target神经网络Q'(s,a|θQ'),计算标签yi的值:yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ')式中,γ表示discountedrate,是一个比例系数,范围在[0,1]之间;S10436:通过loss值L对Q网络critic的梯度gradient进行更新,其中:S10437:使用采样策略梯度,更新策略网络actor的策略policy:S10438:更新Q网络critic的target...

【专利技术属性】
技术研发人员:匡平张婷李祖宁闫华睿罗丁力王豪爽
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1