当前位置: 首页 > 专利查询>苏州大学专利>正文

基于自适应策略优化的家庭清洁机器人控制系统技术方案

技术编号:18932568 阅读:26 留言:0更新日期:2018-09-15 09:35
本发明专利技术公开了一种基于自适应策略优化的家庭清洁机器人控制系统,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统。本发明专利技术通过在清洁机器人的控制系统中采用自适应策略优化方法,处理来自传感系统获取的环境信息,然后选择合适的行动,并利用传感系统传递控制系统的控制信号到驱动系统和清洁系统,使清洁机器人执行对应的行动来清洁家庭环境。

Control system of home cleaning robot based on adaptive strategy optimization

The invention discloses a home cleaning robot control system based on adaptive strategy optimization, which comprises a sensing system, a control system, a cleaning system, a driving system and a power system. The sensing system collects environmental information and power system information, and transmits environmental information and power system information to the control system. The control system processes the received information through the adaptive strategy control method, and transmits the control signal to the drive system and the cleaning system. By adopting the adaptive strategy optimization method in the control system of the cleaning robot, the environmental information obtained from the sensing system is processed, and the appropriate action is selected, and the control signal of the control system is transmitted to the driving system and the cleaning system by the sensing system, so that the cleaning robot performs the corresponding action to clear up. Clean the family environment.

【技术实现步骤摘要】
基于自适应策略优化的家庭清洁机器人控制系统
本专利技术属于人工智能以及控制
,尤其涉及一种基于自适应策略优化的家庭清洁机器人控制系统,可以进行自我学习,完成对家庭清洁机器人的控制。
技术介绍
多年来,人们对自主机器人的研究越来越感兴趣。自主机器人有着广泛的应用前景,例如家庭清洁机器人。随着生活水平的提高,越来越多的家庭开始依赖于智能家庭清洁机器人来负责家庭环境的清洁工作,来减少人为清洁工作,为家庭生活带来便捷。但是由于一般的智能家庭清洁机器人只能够对于训练好的环境进行简单的清洁工作,这一局限性限制了家庭清洁机器人应用到千家万户,赋予清洁机器人自我学习的能力变得越来越重要。具有自主学习能力的家庭清洁机器人可以在随着家庭环境的改变而调整自己的清洁策略,能够通过自我学习适应不同的家庭环境和随着时间而改变的家庭环境。具有自我学习能力的家庭清洁机器人是高度智能化的机器人,通过与外界环境交互而进行学习。机器人通过收集各个位置的传感器信息,利用深度强化学习技术来进行自我学习,在不同的环境中实现其感知和决策等功能。现有的家庭清洁机器人控制方法,采用一种简单的、无法自我学习的控制方法。使用该控制策略的家庭机器人无法自主适应不同的家庭环境和随着时间而变化的家庭环境。在日常清洁过程中,只能简单的重复各种清洁操作,无法判断哪些区域已经清洁完成,哪些区域需要继续清洁。因此将消耗大量的时间和电能在重复的区域,执行重复的清洁操作,直接导致清洁的时间延长、清洁度下降等问题,同时大量的无用功,对机器本身的部件损耗较大,缩短了机器的使用寿命。
技术实现思路
本专利技术目的是:提供一种基于自适应策略优化的家庭清洁机器人控制系统,通过对控制方法的改良,能够更快的适应新的环境,保证策略更新的有效性,减少重复操作和无用功,自我学习能力可更快地、准确地完成清洁作业。本专利技术的技术方案是:一种基于自适应策略优化的家庭清洁机器人控制系统,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统,其自适应策略控制方法包括如下步骤:⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;⑶采用残差网络处理获取的环境信息,将高维度的环境视觉信息转换成低纬度的特征信息,低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态st;⑷由策略网络控制机器人的行动,值网络评价行动的好坏:在状态st根据当前策略计算所采取的行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt,并通过值网络计算强化学习算法评价函数V(t)的值,用来评价行动at的好坏;⑸更新策略网络与值网络的参数,采用Adam梯度下降更新方式更新参数;所述策略网络损失函数Lπ(θ)计算方式如下:其中πθ(at|st)表示新策略在状态st,选择行动at的概率,πθold(at|st)表示旧策略在状态st,选择行动at的概率,表示优势值;所述值网络的损失函数Lv(θ)的计算方式为:其中V(t)为评价函数,为梯度下降算法中的损失函数;所述Adam梯度下降更新方式计算损失函数为:其中πθ(at|st)/πθold(at|st)的值采用自适应区间裁剪方法来计算,c1和c2是常数,S[πθ](st)表示的是策略πθ在状态st处的熵,表示在未来时间步内获得的累积折扣奖赏,折扣因子γ(0≤γ≤1);⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环,否则结束。上述技术方案中,所述自适应区间裁剪方法的计算过程为:首先计算一个裁剪边界[1-ε,1+ε],其中其中|·|表示绝对值,表示优势值,Vtarg(st)表示目标值,α表示正常数,防止分母为0;裁剪边界ε的值会随着的值和V(st)的值的改变而自动变化,令n=πθ(at|st)/πθold(at|st),n的值最终被裁剪到[1-ε,1+ε]区间范围内。进一步的技术方案是,所述优势值采用GAE方法计算:其中δt=rt+γV(st+1)-V(st),折扣因子γ(0≤γ≤1)。上述技术方案中,所述步骤⑵中神经网络参数包括前馈网络和长短期记忆网络的权值和偏置。上述技术方案中,所述步骤⑶中,采用153层残差网络处理经过简单裁剪的环境视觉信息,将高维度的环境视觉信息转换成低纬度的特征信息,所述残差网络的参数通过监督学习提前训练好,该部分参数在自我学习过程中不再进行更新。上述技术方案中,所述步骤⑷中策略网络的熵损失计算方式为:计算策略熵损失的目的是增加策略对环境的探索,其中S[πθ](st)表示策略πθ在状态st的熵,总损失计算方式如下:Loss=-Lπ(θ)+c1Lv(θ)+c2Lentropy(θ),c1和c2是常数。上述技术方案中,所述传感系统获取的环境信息是:清洁机器人视野内的家庭环境信息和非视觉信息;所述执行动作at是:在当前状态下可以执行的操作集合,包括移动操作和清洁操作;所述立即奖赏rt是:环境对在当前状态下机器人所采取的行动的评价,若机器人成功清理了家庭环境中的待清理物,则给一个+1的奖赏;若机器人在行进过程中撞到了家庭环境中的用具,则给一个-1的奖赏;若机器人在行走过程中既没有碰到障碍物,也没有遇到清理物,则给一个0的奖赏。本专利技术的优点是:1、能够有效处理具有连续动作空间的控制问题。2、基于自适应近邻方法能够有效利用环境反馈的奖赏信息和评价网络计算出的值函数信息,计算出更为准确的近邻区间,能够有效提升机器人的自我学习能力,提高机器人在有效区域内的清扫作业。3、采用长短期记忆网络,能够在部分可观测的环境和需要记忆以前环境状态信息的环境中学习到更好的策略,减少重复操作。附图说明下面结合附图及实施例对本专利技术作进一步描述:图1是本专利技术实施例一的控制系统结构示意图;图2是本专利技术实施例一中强化学习控制器结构示意图;图3是本专利技术实施例一中策略网络和值网络结构示意图;图4是本专利技术实施例一中残差网络结构示意图;图5是本专利技术实施例一中残差单元结构示意图;图6是本专利技术实施例一中自适应策略裁剪方法的示意图。其中:1、传感系统;2、控制系统;3、清洁系统;4、驱动系统;5、电力系统。具体实施方式下面结合附图及实施例对本专利技术作进一步描述:实施例:参见附图1~6所示,一种基于自适应策略优化的家庭清洁机器人控制系统,包括传感系统1、控制系统2、清洁系统3、驱动系统4及电力系统5,所述传感系统1采集环境信息和电力系统5信息,并将环境信息和电力系统5信息传入控制系统2,所述控制系统2根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统4和清洁系统3。其中:所述传感系统1的主要功能是采集环境信息和传输控制系统2的控制信号,传感系统1通过采集环境信息来感知机器人所处当前的环境,通过传输控制系统2的控制信号来控制机器人的移动、清洁或者补充电力。具体控制方法为:假设在每个时间步t=1,2,…,机器人的传感器系统观察马尔科夫决策过程的状态为st,控制系统选择行动at,获得环本文档来自技高网...

【技术保护点】
1.一种基于自适应策略优化的家庭清洁机器人控制方法,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统,其自适应策略控制方法包括如下步骤:⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;⑶采用残差网络处理获取的环境信息,将高维度的环境视觉信息转换成低纬度的特征信息,低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态st;⑷由策略网络控制机器人的行动,值网络评价行动的好坏:在状态st根据当前策略计算所采取的行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt,并通过值网络计算强化学习算法评价函数V(t)的值,用来评价行动at的好坏;⑸更新策略网络与值网络的参数,采用Adam梯度下降更新方式更新参数;所述策略网络损失函数L

【技术特征摘要】
1.一种基于自适应策略优化的家庭清洁机器人控制方法,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统,其自适应策略控制方法包括如下步骤:⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;⑶采用残差网络处理获取的环境信息,将高维度的环境视觉信息转换成低纬度的特征信息,低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态st;⑷由策略网络控制机器人的行动,值网络评价行动的好坏:在状态st根据当前策略计算所采取的行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt,并通过值网络计算强化学习算法评价函数V(t)的值,用来评价行动at的好坏;⑸更新策略网络与值网络的参数,采用Adam梯度下降更新方式更新参数;所述策略网络损失函数Lπ(θ)计算方式如下:其中πθ(at|st)表示新策略在状态st,选择行动at的概率,πθold(at|st)表示旧策略在状态st,选择行动at的概率,表示优势值;所述值网络的损失函数Lv(θ)的计算方式为:其中V(t)为评价函数,为梯度下降算法中的损失函数;所述Adam梯度下降更新方式计算损失函数为:其中πθ(at|st)/πθold(at|st)的值采用自适应区间裁剪方法来计算,c1和c2是常数,S[πθ](st)表示的是策略πθ在状态st处的熵,表示在未来时间步内获得的累积折扣奖赏,折扣因子γ(0≤γ≤1);⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环,否则结束。2.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法,其特征在于:所述自适应区间裁剪方法的计算过程为:首先计算一个裁剪边界[1...

【专利技术属性】
技术研发人员:刘全徐进朱斐周小科
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1