The invention discloses a home cleaning robot control system based on adaptive strategy optimization, which comprises a sensing system, a control system, a cleaning system, a driving system and a power system. The sensing system collects environmental information and power system information, and transmits environmental information and power system information to the control system. The control system processes the received information through the adaptive strategy control method, and transmits the control signal to the drive system and the cleaning system. By adopting the adaptive strategy optimization method in the control system of the cleaning robot, the environmental information obtained from the sensing system is processed, and the appropriate action is selected, and the control signal of the control system is transmitted to the driving system and the cleaning system by the sensing system, so that the cleaning robot performs the corresponding action to clear up. Clean the family environment.
【技术实现步骤摘要】
基于自适应策略优化的家庭清洁机器人控制系统
本专利技术属于人工智能以及控制
,尤其涉及一种基于自适应策略优化的家庭清洁机器人控制系统,可以进行自我学习,完成对家庭清洁机器人的控制。
技术介绍
多年来,人们对自主机器人的研究越来越感兴趣。自主机器人有着广泛的应用前景,例如家庭清洁机器人。随着生活水平的提高,越来越多的家庭开始依赖于智能家庭清洁机器人来负责家庭环境的清洁工作,来减少人为清洁工作,为家庭生活带来便捷。但是由于一般的智能家庭清洁机器人只能够对于训练好的环境进行简单的清洁工作,这一局限性限制了家庭清洁机器人应用到千家万户,赋予清洁机器人自我学习的能力变得越来越重要。具有自主学习能力的家庭清洁机器人可以在随着家庭环境的改变而调整自己的清洁策略,能够通过自我学习适应不同的家庭环境和随着时间而改变的家庭环境。具有自我学习能力的家庭清洁机器人是高度智能化的机器人,通过与外界环境交互而进行学习。机器人通过收集各个位置的传感器信息,利用深度强化学习技术来进行自我学习,在不同的环境中实现其感知和决策等功能。现有的家庭清洁机器人控制方法,采用一种简单的、无法自我学习的控制方法。使用该控制策略的家庭机器人无法自主适应不同的家庭环境和随着时间而变化的家庭环境。在日常清洁过程中,只能简单的重复各种清洁操作,无法判断哪些区域已经清洁完成,哪些区域需要继续清洁。因此将消耗大量的时间和电能在重复的区域,执行重复的清洁操作,直接导致清洁的时间延长、清洁度下降等问题,同时大量的无用功,对机器本身的部件损耗较大,缩短了机器的使用寿命。
技术实现思路
本专利技术目的是:提供一种基于自 ...
【技术保护点】
1.一种基于自适应策略优化的家庭清洁机器人控制方法,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统,其自适应策略控制方法包括如下步骤:⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;⑶采用残差网络处理获取的环境信息,将高维度的环境视觉信息转换成低纬度的特征信息,低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态st;⑷由策略网络控制机器人的行动,值网络评价行动的好坏:在状态st根据当前策略计算所采取的行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt,并通过值网络计算强化学习算法评价函数V(t)的值,用来评价行动at的好坏;⑸更新策略网络与值网络的参数,采用Adam梯度下降更新方式更新参数;所述策略网络损失函数L
【技术特征摘要】
1.一种基于自适应策略优化的家庭清洁机器人控制方法,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统,其自适应策略控制方法包括如下步骤:⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;⑶采用残差网络处理获取的环境信息,将高维度的环境视觉信息转换成低纬度的特征信息,低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态st;⑷由策略网络控制机器人的行动,值网络评价行动的好坏:在状态st根据当前策略计算所采取的行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt,并通过值网络计算强化学习算法评价函数V(t)的值,用来评价行动at的好坏;⑸更新策略网络与值网络的参数,采用Adam梯度下降更新方式更新参数;所述策略网络损失函数Lπ(θ)计算方式如下:其中πθ(at|st)表示新策略在状态st,选择行动at的概率,πθold(at|st)表示旧策略在状态st,选择行动at的概率,表示优势值;所述值网络的损失函数Lv(θ)的计算方式为:其中V(t)为评价函数,为梯度下降算法中的损失函数;所述Adam梯度下降更新方式计算损失函数为:其中πθ(at|st)/πθold(at|st)的值采用自适应区间裁剪方法来计算,c1和c2是常数,S[πθ](st)表示的是策略πθ在状态st处的熵,表示在未来时间步内获得的累积折扣奖赏,折扣因子γ(0≤γ≤1);⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环,否则结束。2.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法,其特征在于:所述自适应区间裁剪方法的计算过程为:首先计算一个裁剪边界[1...
【专利技术属性】
技术研发人员:刘全,徐进,朱斐,周小科,
申请(专利权)人:苏州大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。