基于强化学习的智能决策方法及系统技术方案

技术编号:29527209 阅读:30 留言:0更新日期:2021-08-03 15:13
本发明专利技术涉及一种基于强化学习的智能决策系统,所述系统包括:强化学习模块,用于将每一份学习数据对应的丢失商品的数量的倒数作为对卷积神经网络进行强化学习的奖励信号进行强化学习,以分时逐份完成固定数量的多份学习数据的强化学习;数量解析模块,用于采用强化学习后的卷积神经网络确定为使得强化学习后的卷积神经网络的输出层的单个输出数据即丢失商品的数量最少所需要的输入数据即同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量。本发明专利技术还涉及一种基于强化学习的智能决策方法。通过本发明专利技术,能够采用基于强化学习的卷积神经网络完成对同一超市内海量视频数据以及海量商品录入数据之间的对应关系的建模。

【技术实现步骤摘要】
基于强化学习的智能决策方法及系统
本专利技术涉及智慧大脑领域,尤其涉及一种基于强化学习的智能决策方法及系统。
技术介绍
随着技术的发展和城市数据建设的跟进,大数据对于城市管理发展的影响日益显现,越来越多的城市通过挖掘数据金矿帮助城市发展决策管理。在城市运行和经济发展中,大数据被视为支撑城市发展的智慧大脑。城市的管理和运营需要科学决策,涓滴汇流而来的数据,正在成为城市管理者的有效参考。市政、警务、消防、交通、通信、商业被融合打通,汇集在统一的大数据平台上,并在对海量数据进行分析后,形成智慧应用。然而,大数据的成熟应用尚需时日,从目前来看,应用大数据,突破瓶颈依然需要时间,其中重点之一,就是对海量数据进行挖掘时如何建模。由于数据挖掘的建模非常繁琐,需要花费大量时间,无法一蹴而就。目前有了数据只是第一步,寻找数据维度之间的相关性,总结规律,需要经历很长时间,还需要通过实践来检验算法模型,同时适应新数据的涌入,发展大数据没有捷径,需要一砖一瓦累积起来。例如,在城市的超市管理方面,遍布超市各个区域的摄像部件不间断拍摄了大量的视频数据,而超本文档来自技高网...

【技术保护点】
1.一种基于强化学习的智能决策系统,其特征在于,所述系统包括:/n网络建立模块,用于建立卷积神经网络,所述卷积神经网络的输入层的设定数量的多个输入数据为同一超市内相等面积的设定数量的多个分区域分别部署的多个安保人员数量,所述卷积神经网络的输出层的单个输出数据为所述超市在完成上述部署后预设时间长度范围内的丢失商品的数量;/n数据采集模块,用于采集固定数量的多份学习数据,每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量,所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量;/n强化学习模块,用于将每一份学习数...

【技术特征摘要】
1.一种基于强化学习的智能决策系统,其特征在于,所述系统包括:
网络建立模块,用于建立卷积神经网络,所述卷积神经网络的输入层的设定数量的多个输入数据为同一超市内相等面积的设定数量的多个分区域分别部署的多个安保人员数量,所述卷积神经网络的输出层的单个输出数据为所述超市在完成上述部署后预设时间长度范围内的丢失商品的数量;
数据采集模块,用于采集固定数量的多份学习数据,每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量,所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量;
强化学习模块,用于将每一份学习数据对应的丢失商品的数量的倒数作为对所述卷积神经网络进行强化学习的奖励信号对所述卷积神经网络进行强化学习操作,以分时逐份完成所述固定数量的多份学习数据对所述卷积神经网络的强化学习操作,以获得强化学习后的卷积神经网络;
数量解析模块,用于采用所述强化学习后的卷积神经网络确定为使得所述强化学习后的卷积神经网络的输出层的单个输出数据即丢失商品的数量最少所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量,以作为所述强化学习后的卷积神经网络的输入层的设定数量的多个输入数据;
其中,所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层;
其中,所述同一超市内每一个分区域的面积固定,所述设定数量的数值越大,所述多个隐含层的数量越多。


2.如权利要求1所述的基于强化学习的智能决策系统,其特征在于,所述系统还包括:
画面捕获模块,与所述数据采集模块连接,用于在所述同一超市内相等面积的设定数量的多个分区域内分别执行实时画面采集,以获得多个实时捕获画面,并将所述多个实时捕获画面发送给所述数据采集模块以用于识别所述多个分区域在某一个历史时刻分别部署的多个安保人员数量。


3.如权利要求2所述的基于强化学习的智能决策系统,其特征在于,所述系统还包括:
无线通信模块,用于将所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量作为参考派遣数量集合无线发送给远端的超市管理服务器或者超市管理人员的手持终端。


4.如权利要求3所述的基于强化学习的智能决策系统,其特征在于,所述系统还包括:
内容存储模块,用于接收所述强化学习后的卷积神经网络并存储所述强化学习后的卷积神经网络;
其中,所述内容存储模块还用于存储所述设定数量与所述多个隐含层的数量的映射关系。


5.如权利要求4所述的基于强化学习的智能决策系统,其特征在于,所述系统还包括:
现场计时模块,分别与所述系统的各个模块连接,用于为所述各个模块分别提供现场计时服务。


6.如权利要求1-5任一所述的基于强化学习的智能决策系统,其特征在于:
每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量,所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量包括:多份学习数据分别对应的多个历史时刻为多个不同日期的同一设定时刻。


7.如权利要求6所述的基于强化学习的智能决策系统,其特征在于:
所需要的所述同一超...

【专利技术属性】
技术研发人员:李启娟
申请(专利权)人:特斯联科技集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1