本发明专利技术涉及机器人的技术领域,公开了加强学习方法、机器人和存储介质,其中加强学习方法,包括以下步骤:采集所述目标的原始动作数据和原始动作结果;根据所述原始动作数据生成控制程序,并设置动作修正集;执行所述控制程序,并且采集执行过程中的执行动作数据和执行动作结果;比对所述执行动作结果和所述原始动作结果,生成奖赏值a,根据所述奖赏值a重新对所述动作修正集进行赋值;加强学习方法在根据原始动作数据初步生成控制程序后,设定动作修正集,执行后根据执行结果生成奖赏值a作为动作修正集的修正数据参考,反复迭代学习后,完成整个学习过程,无需人工参与,具有智能化程度高的特点。
【技术实现步骤摘要】
加强学习方法、机器人和存储介质
本专利技术涉及机器人的
,尤其涉及加强学习方法、机器人和存储介质。
技术介绍
机器人(Robot)是一种高科技产品,其内部预设有程序或者原则性纲领,接收到信号或者指令后,能够在一定程度上判断并采取行动,例如移动、拿取、摆动肢体等动作。机器人的任务主要是在某些场合中协助甚至取代人类的工作,实际的工作场景中涉及的行动和信息判断往往非常繁复,难以全部事先以程序的方式记录在机器人中,因此如何根据已有的知识,自行学习提高适应能力和智能化水平,也即机器人学习,成为机器人行业中一个非常热门的研究重点。在现有技术中,实现人类操作的过程,往往仅仅体现在结果上。例如,操作员将工件从传送带上拿起放置在桌子上,这个过程在机器人实施时被简化为:在传送带上的A点处将工件拿起,然后移动至位于桌子上的B点处,操作员多余的动作全部被省略掉,机器人只需要建立坐标系,确定A点和B点的位置,在A点拿起,直线移动至B点放下即可。例如,书法家手持毛笔书写完成某字,机器人需要重新书写该字,则需要对该字进行解析,将动作拆分为:(a)控制笔下降,(b)从某点移动至某点,(c)控制笔上升,将动作abc相互组合并且设定相关参数,最终完成该字的写作。根据以上两的例子可以看出,机器人在执行控制程序,重现人类操作的过程中,需要人工参与反复调试相关的控制程序,机器人难以智能化的自行学习人类的具体操作动作。
技术实现思路
本专利技术的目的在于提供加强学习方法,旨在解决现有技术中的机器人在模仿人类动作时需要大量的人工参与,智能化学习程度低的问题。本专利技术是这样实现的,提供加强学习方法,用于学习目标的动作并且实现所述动作的结果,包括以下步骤:采集所述目标的原始动作数据和原始动作结果;根据所述原始动作数据生成控制程序,并设置动作修正集;执行所述控制程序,并且采集执行过程中的执行动作数据和执行动作结果;比对所述执行动作结果和所述原始动作结果,生成奖赏值a,根据所述奖赏值a重新对所述动作修正集进行赋值。与现有技术相比,本专利技术中提供的加强学习方法,能够通过采集目标的原始动作数据和原始动作结果,然后根据原始动作数据初步生成控制程序,并且设定动作修正集,执行后根据执行结果与原始动作结果的比对生成奖赏值a,然后反馈奖赏值a为动作修正集的修正数据参考。反复迭代学习后,完成整个学习过程,构建出适于机器人的动作,实现目标动作的结果。在整个学习的过程中,无需人工参与,机器人能够自行试错、修正,进行智能化的迭代学习,完成学习目标,具有智能化程度高的特点。附图说明图1为本专利技术实施例提供的加强学习方法的流程示意图;图2为本专利技术实施例提供的加强学习方法中比对执行动作结果和原始动作结果的流程示意图;图3为本专利技术实施例提供的快速学习的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本专利技术的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。以下结合具体附图对本实施例的实现进行详细的描述,为了便于叙述,在下文中的动作在处于空间坐标系(x,y,z)中,其中x轴和y轴为书写平面上的两个相互垂直的轴,z轴为竖直方向的轴。本实施例中提供了一种加强学习方法,所需要模仿的具体动作为:人书写特定汉字的书法过程,由于相比硬笔书法,我国特有的软笔书法在书写上动作更为复杂,相应的书法作品风格更为丰富多变,因此以毛笔书法作为具体的模仿动作,应当立即的是,能够适应并学习毛笔书法书写动作的机器人,必然也能够进行硬笔书法的加强学习。如图1所示,加强学习方法具体包括以下步骤:110采集目标的原始动作数据和原始动作结果。具体地,本实施例中采集人书写过程中的笔在空间中的变化作为原始动作数据,原始动作结果即为书写出的汉字,需要理解的是,书写汉字仅为本实施例中采用的具体例子,在其他的实施例中,也可以为图案、字母等,并不局限于汉字书法。原始动作数据应当能够尽可能完整的描述笔的动作状态,在整个书写的过程中,可以将笔的变化概括为至少两个函数:位移函数和姿态函数。位移函数用于记录随着时间t的变化,笔在空间上三个坐标方向的移动,其中x和y轴上的坐标的变化可以作为描述书写文字的粗略笔画走向、字体大小、书写范围等动作的数据。z轴上的坐标变化可近似作为描述笔画的粗细的函数,以纸面为z坐标0点,则z坐标越接近0,笔尖受到压缩力越高,笔画越粗,对应此时的书写力越大;z轴坐标越大,笔尖受到的压缩力越小,笔画越细。位移函数中z轴坐标超过阈值的部分,表明此时笔尖离开纸面,标识为无效书写操作,记录作为记录移动笔位置的位移操作。姿态函数用于记录随时间t的变化,笔自身在x、y、z三个轴向转动状态。姿态函数能够用于描述书写过程中笔杆的姿势变化。将位移函数和姿态函数联立,二者具有相同的坐标系和时间变量t,即可构成描述笔在空间中动作状态的原始动作数据。同步采集相应的原始动作结果,也即该动作下所书写的具体汉字的图像数据。120根据原始动作数据生成控制程序,并设置动作修正集。所生成的控制程序旨在控制机器人能持笔模仿人的书写动作,也即控制笔按照原始动作数据中的两个函数再次运动。由于数据采集的误差、控制程序生成的误差、机器人运行时的误差等等原因,导致难以一次生成完美的控制程序,而且执行书写动作产生的误差方向也是未知数,此时的控制程序需要不断进行尝试修正,因此需要设定动作修正集,动作修正集中在不同纬度上设置有多个修正动作,每个动作对应一个修正值,在控制程序执行每个动作前,从动作修正集中选择一组特定修正值对该动作进修正。130执行控制程序,并且采集执行过程中的执行动作数据和执行动作结果。采集完成将某个动作与该动作直接对应至产生的结果之间产生映射关系。例如控制笔从a点移动至b点,产生结果为平直的一横,则该动作与该笔画“一”建立映射关系。140比对执行动作结果和原始动作结果,生成奖赏值a,根据奖赏值a重新动作修正集进行赋值。由于在上一步骤中,已经将具体的动作与动作结果建立映射,因此在比对的时候能够直接确定每个动作结果所对应的笔画,针对每个笔画与原始动作结果中对应的笔画进行比对,确定修正方向生成该笔画对应的奖赏值a,系统根据奖赏值a的反馈,重新对该笔画对应的控制程序部分所采用的动作修正集进行赋值。上述的步骤12本文档来自技高网...
【技术保护点】
1.加强学习方法,用于学习目标的动作并且实现所述动作的结果,其特征在于,包括以下步骤:采集所述目标的原始动作数据和原始动作结果;根据所述原始动作数据生成控制程序,并设置动作修正集;执行所述控制程序,并且采集执行过程中的执行动作数据和执行动作结果;比对所述执行动作结果和所述原始动作结果,生成奖赏值a,根据所述奖赏值a重新对所述动作修正集进行赋值。
【技术特征摘要】
1.加强学习方法,用于学习目标的动作并且实现所述动作的结果,其特征在于,包括以下步骤:采集所述目标的原始动作数据和原始动作结果;根据所述原始动作数据生成控制程序,并设置动作修正集;执行所述控制程序,并且采集执行过程中的执行动作数据和执行动作结果;比对所述执行动作结果和所述原始动作结果,生成奖赏值a,根据所述奖赏值a重新对所述动作修正集进行赋值。2.如权利要求1所述的加强学习方法,其特征在于,所述原始动作数据中至少包括以下两函数:用于描述所述目标移动与时间关系的位移函数和用于描述所述目标姿态变化与时间关系的姿态函数。3.如权利要求1所述的加强学习方法,其特征在于,执行所述控制程序,并且采集执行过程中的执行动作数据和执行动作结果中还包括:建立每个所述执行动作数据和其对应所述执行动作结果之间的映射关系。4.如权利要求1所述的加强学习方法,其特征在于,所述动作修正集包括以下修正动作:l、w、v、h,其中l表示延长或缩短位移长度、w表示加速或减速姿态变化、v表示加速或减速位移速度、h表示改变动作空间位置。5.如权利要求1所述的加强学习方法,其特征在于,对所有所述奖赏值a进行统计,如果在统计结果上出现明显的数据关联性,则对于所述控制程序本身进行调整。6.如权利要求1所述的加强学习方法,其特征在于,比对所述执行动作结果和所述原始动作结果,生成奖赏值a具体包括以下步骤:将所述原始动作结果采集为第一图像数据,将所述执行动作结果采集并且进行缩小或者放大,使其成为与所述第一图像数据尺寸匹配的第二图像数据。比对所述第...
【专利技术属性】
技术研发人员:刘培超,刘主福,郎需林,
申请(专利权)人:深圳市越疆科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。