一种基于持续学习方法的家庭服务型机器人技术

技术编号:28422339 阅读:20 留言:0更新日期:2021-05-11 18:30
本发明专利技术公开了一种基于持续学习方法的家庭服务型机器人,包括可移动的机器人主体以及连接在机器人主体上的机械臂,机器人主体包括移动单元、传感设备、语音识别单元、物体识别单元以及AI计算单元,本发明专利技术的机器人采用基于持续学习方法构建的神经网络模型,能够在学习多个任务的过程中保存并迁移知识,在面临新任务时,可以选择性地运用已储备的相关知识,实现学习过程中高效的知识抽取与知识迁移。本发明专利技术提供的家庭服务型机器人在提供家政服务时不局限于完成特定的任务,具备连续学习并执行多个任务的能力,并可以在不同的环境场景下选择执行相应的任务。

【技术实现步骤摘要】
一种基于持续学习方法的家庭服务型机器人
本申请属于机器人自主学习与决策领域,具体涉及一种基于持续学习方法的家庭服务型机器人。
技术介绍
在过去几十年时间里,机器人研究与制造领域得到了持续关注与发展,各种形态、功能的机器人原型不断涌现。目前,工业机器人已经得到广泛应用,并能够满足各种高精度生产操作。随着人口老龄化趋势的逐渐发展,以及人们对生活品质要求的提升,近年来对服务机器人的需求在快速增加。而在服务机器人领域,想要在复杂、多变的日常环境中完成各种任务,需要机器人向更为自主化、智能化的方向进化。如果服务机器人能够像人类一样通过与外部交互,持续学习以获取、记忆知识,并将其运用于所要执行的任务中,其智能水平将得到显著提升。因此,如何使机器人能够持续自主学习,从而基于所得到的知识进行智能决策,是机器人智能化发展的一个重要研究课题。近年来,以机器学习为代表的人工智能技术得到显著发展,并在图像、语音识别,大数据分析预测等领域取得诸多应用成果。然而,目前主流机器学习模式存在依赖数据、依赖模型、面向特定任务等局限性。如果用这种模式训练智能机器人的学习与决策,会使得机器人功能单一,只能执行特定任务,且适应环境的能力不足。而服务机器人经常需要在复杂环境下持续执行多个任务,如果采用单任务机器学习方法,则需要对每个任务单独进行训练,极大提高了开发与模型训练成本。
技术实现思路
本申请的目的在于提供一种基于持续学习方法的家庭服务型机器人,具备连续执行若干不同任务的能力,精准、快速的为用户提供家政服务。为实现上述目的,本申请所采取的技术方案为:一种基于持续学习方法的家庭服务型机器人,用于为用户提供家政服务,所述基于持续学习的家庭服务型机器人包括:可移动的机器人主体以及连接在所述机器人主体上的机械臂,所述机器人主体包括移动单元、传感设备、语音识别单元、物体识别单元以及AI计算单元,其中:所述语音识别单元,用于接收用户的语音命令,并基于语音命令解析得到本次家政服务涉及的动作对象、动作对象的初始位置、需要交互的动作,并将所述动作对象、动作对象的初始位置、需要交互的动作发送至所述AI计算单元和所述物体识别单元;所述传感设备,用于获取机器人主体所在环境的环境信息,并将环境信息反馈至所述AI计算单元和所述物体识别单元;所述物体识别单元,用于根据动作对象、动作对象的初始位置以及环境信息识别环境中所述动作对象相对于机器人主体的相对位置,并将所述相对位置发送至AI计算单元;所述AI计算单元,用于根据所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置,采用基于持续学习方法的神经网络模型输出动作命令,并将所述动作命令发送至移动单元和机械臂;所述移动单元,用于根据所述AI计算单元输出的动作命令进行移动;所述机械臂,用于根据所述AI计算单元输出的动作命令对所述动作对象执行相应操作,以完成本次家政服务;其中,所述基于持续学习方法的神经网络模型的构建包括:将家庭服务型机器人能够提供的家政服务分解为B个子任务,对于每个子任务b学习对应的深度技能网络,得到B个子技能策略模型;通过策略蒸馏方法,将B个子技能策略模型作为教师模型蒸馏得到一个学生模型作为蒸馏技能网络模型;将移动单元和机械臂的单一动作作为原始动作,将B个子技能策略模型或蒸馏技能网络模型作为技能网络,结合原始动作和技能网络训练深度强化学习模型,得到能够完整执行多个子任务的全局策略网络,该全局策略网络即为基于持续学习的神经网络模型。以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。作为优选,所述AI计算单元,根据所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置,采用基于持续学习方法的神经网络模型输出动作命令,并将所述动作命令发送至移动单元和机械臂,执行如下操作:基于持续学习方法的神经网络模型根据所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置进行计算,判断并输出当前的动作命令;若判断得到的动作命令为原始动作,则直接将动作命令发送至移动单元和机械臂;若判断得到的动作命令为技能网络,则将所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置发送至所选的技能网络,由技能网络最终计算得到原始动作,并将技能网络计算得到的动作命令发送至移动单元和机械臂。作为优选,所述将移动单元和机械臂的单一动作作为原始动作,将B个子技能策略模型或蒸馏技能网络模型作为技能网络,结合原始动作和技能网络训练深度强化学习模型,得到能够完整执行多个子任务的全局策略网络,包括:1)初始化经验回收区D,设置经验回收区D的容量为N;2)初始化Q值估计网络,随机生成网络参数θ,初始化Q值现实网络,取网络参数θ′=θ;3)初始化episode=1;4)初始化家庭服务型机器人所在环境的初始状态为s1;5)初始化t=1;6)以∈概率选择一个随机的动作,或者选择Q值最大的动作,即取动作为maxQ(s,a|θ)或maxQ(s,σ|θ),选择的动作为原始动作at或技能网络σt;7)执行所选择的动作,若是原始动作at,则获得奖励rt和新的状态st+1;若是技能网络σt,则进入技能决策与执行流程,由被选中的技能网络σt输出下一步要执行的动作,当技能执行结束,计算奖励并记录新的状态st+k,k为技能网络σt执行动作的时间步长;8)将(st,at,rt,st+1)或(st,σt,,st+k)存入经验回收区D中;9)从经验回收区D中随机抽取一组(st,at,rt,st+1)或(st,σt,,st+k),计算融合技能的损失函数以训练Q值估计网络;10)更新Q值现实网络,取网络参数θ′=θ;11)若t≤C,则t=t+1,并重新执行步骤6),若t>C,则执行步骤12),其中C为一轮迭代的最大步数;12)若episode≤M,则episode=episode+1,并重新执行步骤4),若episode>M,则结束,其中M为最大迭代次数。作为优选,所述融合技能的损失函数包括:令所述传感设备所捕捉到的家庭服务型机器人所在环境的环境信息为状态集S,其中si为i时刻的环境信息,即状态si∈S,令家庭服务型机器人的动作命令的集合为指令集A,ai为i时刻的家庭服务型机机器人输出的动作命令,ai∈A,定义状态到动作的映射,即状态s下,选取动作命令a的策略π,a=π(s);定义奖励函数R:即状态s下采取动作命令a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:Qπ(s,a)=E[Rt|st=s,at=a,π]其中,Qπ(s,a)为状态s下采取动作命令a的Q值,rt′为t′时刻获得的奖励,γ为折扣因子,γ∈[0,1],γt′本文档来自技高网...

【技术保护点】
1.一种基于持续学习方法的家庭服务型机器人,用于为用户提供家政服务,其特征在于,所述基于持续学习的家庭服务型机器人包括:可移动的机器人主体以及连接在所述机器人主体上的机械臂,所述机器人主体包括移动单元、传感设备、语音识别单元、物体识别单元以及AI计算单元,其中:/n所述语音识别单元,用于接收用户的语音命令,并基于语音命令解析得到本次家政服务涉及的动作对象、动作对象的初始位置、需要交互的动作,并将所述动作对象、动作对象的初始位置、需要交互的动作发送至所述AI计算单元和所述物体识别单元;/n所述传感设备,用于获取机器人主体所在环境的环境信息,并将环境信息反馈至所述AI计算单元和所述物体识别单元;/n所述物体识别单元,用于根据动作对象、动作对象的初始位置以及环境信息识别环境中所述动作对象相对于机器人主体的相对位置,并将所述相对位置发送至AI计算单元;/n所述AI计算单元,用于根据所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置,采用基于持续学习方法的神经网络模型输出动作命令,并将所述动作命令发送至移动单元和机械臂;/n所述移动单元,用于根据所述AI计算单元输出的动作命令进行移动;/n所述机械臂,用于根据所述AI计算单元输出的动作命令对所述动作对象执行相应操作,以完成本次家政服务;/n其中,所述基于持续学习方法的神经网络模型的构建包括:/n将家庭服务型机器人能够提供的家政服务分解为B个子任务,对于每个子任务b学习对应的深度技能网络,得到B个子技能策略模型;/n通过策略蒸馏方法,将B个子技能策略模型作为教师模型蒸馏得到一个学生模型作为蒸馏技能网络模型;/n将移动单元和机械臂的单一动作作为原始动作,将B个子技能策略模型或蒸馏技能网络模型作为技能网络,结合原始动作和技能网络训练深度强化学习模型,得到能够完整执行多个子任务的全局策略网络,该全局策略网络即为基于持续学习的神经网络模型。/n...

【技术特征摘要】
1.一种基于持续学习方法的家庭服务型机器人,用于为用户提供家政服务,其特征在于,所述基于持续学习的家庭服务型机器人包括:可移动的机器人主体以及连接在所述机器人主体上的机械臂,所述机器人主体包括移动单元、传感设备、语音识别单元、物体识别单元以及AI计算单元,其中:
所述语音识别单元,用于接收用户的语音命令,并基于语音命令解析得到本次家政服务涉及的动作对象、动作对象的初始位置、需要交互的动作,并将所述动作对象、动作对象的初始位置、需要交互的动作发送至所述AI计算单元和所述物体识别单元;
所述传感设备,用于获取机器人主体所在环境的环境信息,并将环境信息反馈至所述AI计算单元和所述物体识别单元;
所述物体识别单元,用于根据动作对象、动作对象的初始位置以及环境信息识别环境中所述动作对象相对于机器人主体的相对位置,并将所述相对位置发送至AI计算单元;
所述AI计算单元,用于根据所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置,采用基于持续学习方法的神经网络模型输出动作命令,并将所述动作命令发送至移动单元和机械臂;
所述移动单元,用于根据所述AI计算单元输出的动作命令进行移动;
所述机械臂,用于根据所述AI计算单元输出的动作命令对所述动作对象执行相应操作,以完成本次家政服务;
其中,所述基于持续学习方法的神经网络模型的构建包括:
将家庭服务型机器人能够提供的家政服务分解为B个子任务,对于每个子任务b学习对应的深度技能网络,得到B个子技能策略模型;
通过策略蒸馏方法,将B个子技能策略模型作为教师模型蒸馏得到一个学生模型作为蒸馏技能网络模型;
将移动单元和机械臂的单一动作作为原始动作,将B个子技能策略模型或蒸馏技能网络模型作为技能网络,结合原始动作和技能网络训练深度强化学习模型,得到能够完整执行多个子任务的全局策略网络,该全局策略网络即为基于持续学习的神经网络模型。


2.如权利要求1所述的基于持续学习方法的家庭服务型机器人,其特征在于,所述AI计算单元,根据所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置,采用基于持续学习方法的神经网络模型输出动作命令,并将所述动作命令发送至移动单元和机械臂,执行如下操作:
基于持续学习方法的神经网络模型根据所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置进行计算,判断并输出当前的动作命令;
若判断得到的动作命令为原始动作,则直接将动作命令发送至移动单元和机械臂;若判断得到的动作命令为技能网络,则将所述动作对象、动作对象的初始位置、需要交互的动作、环境信息以及相对位置发送至所选的技能网络,由技能网络最终计算得到原始动作,并将技能网络计算得到的动作命令发送至移动单元和机械臂。


3.如权利要求1所述的基于持续学习方法的家庭服务型机器人,其特征在于,所述将移动单元和机械臂的单一动作作为原始动作,将B个子技能策略模型或蒸馏技能网络模型作为技能网络,结合原始动作和技能网络训练深度强化学习模型,得到能够完整执行多个子任务的全局策略网络,包括:
1)初始化经验回收区D,设置经验回收区D的容量为N;
2)初始化Q值估计网络,随机生成网络参数θ,初始化Q值现实网络,取网络参数θ′=θ;
3)初始化episode=1;
4)初始化家庭服务型机器人所在环境的初始状态为s1;
5)初始化t=1;
6)以∈概率选择一个随机的动作,或者选择Q值最大的动作,即取动作为maxQ(s,a|θ)或maxQ(s,σ|θ),选择的动作为原始动作at或技能网络σt;
7)执行所选择的动作,若是原始动作at,则获得奖励rt和新的状态st+1;若是技能网络σt,则进入技能决策与执行流程,由被选中的技能网络σt输出下一步要执行的动作,当技能执行结束,计算奖励并记录新的状态st+k,k为技能网络σt执行动作的时间步长;
8)将(st,at,rt,st+1)或存入经验回收区D中;
9)从经验回收区D中随机抽取一组(st,at,rt,st+1)或计算融合技能的损失函数以训练Q值估计网络;
10)更新Q值现实网络,取网络参数θ′=θ;<...

【专利技术属性】
技术研发人员:胡青阳王瑞琰高昕叶晶晶李永强
申请(专利权)人:中电海康集团有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1