深度强化学习网络系统技术方案

技术编号：28675698 阅读：28 留言：0更新日期：2021-06-02 02:52

本申请公开一种深度强化学习网络系统，包括嵌入层、排序层以及装载层，嵌入层用于将待装箱体的装箱信息映射成特征向量，排序层用于对多个无序的待装箱体进行排序，装载层用于根据排序层输出的待装箱体的装载顺序确定待装箱体的装载位置以及朝向，以此将装箱问题分解为两个步骤并使用分层装箱模型来求解：1、序列决策问题：给定一系列无序的待装箱体，使用深度强化学习来确定待装箱体的装载顺序。2、装载问题：基于第二算法给出的箱体装载顺序，使用深度强化学习来确定箱体的装载位置以及朝向；将装箱问题的分解使得问题的需要搜索的整体动作空间大大降低，大大降低了智能体的学习和搜索难度。

全部详细技术资料下载

【技术实现步骤摘要】
深度强化学习网络系统
本申请涉及人工智能以及装箱
，尤其涉及一种深度强化学习网络系统及存储介质。
技术介绍
目前装箱通常是依据经验来进行人工装箱。为了能够提高装箱的合理性和高效性，可以采用智能算法来辅助装箱。装箱问题是一个经典的学术问题，同时拥有着广泛的商业应用价值。在物流领域中，常常会出现需要将指定的一系列货物装入指定容器，比如车厢，进行运输的问题。现存的绝大多数算法可分为两类，(一)使用人为制定规则的启发式搜索算法；(二)将其视为非线性优化以解决的优化算法如遗传算法，与深度学习算法。但是，第一类的基于启发式搜索方法之根本缺陷为其结果依赖于人为指定的启发式规则。在规则适用时结果趋好，反之规则很难得出可用的方案。然而大多数装箱场景本身有着复杂的限制条件，这使得我们难以找出一套适用的规则。其次，每当场景发生主要变动时，规则均须重新制定调整，这影响了算法本身的通用性。第二类方法，非线性优化—遗传算法和深度强化学习算法，现存的大多数基于深度强化学习的装箱算法可分为两类：(1)使用深度强化学习确...

【技术保护点】
1.一种深度强化学习网络系统，应用于智能装箱，其特征在于，所述深度强化学习网络系统包括嵌入层，所述嵌入层包括：/n箱体嵌入模型，用于对多个无序的待装箱体的装箱信息进行数据映射，得到多个无序的所述待装箱体的装箱信息在高位空间的表征box embedding；/n边界嵌入模型，用于对一容器的容纳信息进行数据映射，得到所述容器的容纳信息在高位空间的表征frontier embedding。/n

【技术特征摘要】
1.一种深度强化学习网络系统，应用于智能装箱，其特征在于，所述深度强化学习网络系统包括嵌入层，所述嵌入层包括：
箱体嵌入模型，用于对多个无序的待装箱体的装箱信息进行数据映射，得到多个无序的所述待装箱体的装箱信息在高位空间的表征boxembedding；
边界嵌入模型，用于对一容器的容纳信息进行数据映射，得到所述容器的容纳信息在高位空间的表征frontierembedding。

2.根据权利要求1所述的深度强化学习网络系统，其特征在于，所述深度强化学习网络系统还包括：
排序层，所述排序层用于对多个无序的待装箱体进行排序；
所述排序层设有一序列决策模型，所述序列决策模型用于根据多个所述待装箱体的装箱信息的表征boxembedding以及所述容器的容纳信息的表征frontierembedding，输出多个所述待装箱体的概率。

3.根据权利要求2所述的深度强化学习网络系统，其特征在于，所述深度强化学习网络系统还包括装载层，所述装载层用于根据所述排序层输出的所述待装箱体的装载顺序确定所述待装箱体的装载位置以及朝向。

4.根据权利要求3所述的深度强化学习网络系统，其特征在于，
所述序列决策模型用于根据多个所述待装箱体的概率，选择一个所述待装箱体；
被选择的所述待装箱体的装箱信息输入到所述装载层的装载模型中。

5.根据权利要求4所述的深度强化学习网络系统，其特征在于，所述序列决策模型还用于根据自注意力机制，得到被选择的所述待装箱体的表征selectedboxembedding。

6.根据权利要求5所述的深度强化学习网络系统...

【专利技术属性】
技术研发人员：张经纬，资斌，
申请(专利权)人：深圳蓝胖子机器智能有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人