当前位置: 首页 > 专利查询>罗伯特专利>正文

用于控制机器人设备的方法技术

技术编号:39430479 阅读:12 留言:0更新日期:2023-11-19 16:15
描述了用于控制机器人设备的方法,该方法具有:取得机器人设备的环境的图像;借助于神经网络来处理图像,该神经网络设立为,从该图像中针对至少一个动作参数值输出具有多个像素的像素值的相应的值图像;其中针对每个像素,像素值说明了对如下动作的评价:该动作通过动作参数值和该像素在值图像中的位置来详细说明;其中神经网络具有编码器网络和解码器网络,在编码器网络与解码器网络之间有瓶颈,且具有在编码器网络与解码器网络之间的跳跃连接;从多个动作中选择如下那个动作:对于该动作,在与动作参数值一起详细说明该动作的位置处,该像素在针对该动作参数值的值图像中的像素值在多个动作中是最大的;且控制机器人设备,以实施所选择的动作。以实施所选择的动作。以实施所选择的动作。

【技术实现步骤摘要】
用于控制机器人设备的方法


[0001]本公开涉及用于控制机器人设备的方法。

技术介绍

[0002]要对物品进行分类的机器人设备、如例如机器人臂应该能够与不同情形、例如初始状态相适配。该机器人设备尤其是应该能够,与物品的初始位置和可能取决于该物品的目标位置无关地,对该物品进行分类。然而,为此可能必需的是,该机器人设备(也就是说该机器人设备的控制装置)将较长的时间段、也就是说多个控制步骤包括在其决策中。例如,在对物品进行分类时,可能需要:该机器人设备依次使该物品或其他物品在到达目标之前朝着不同方向移位,例如以规避或者远离障碍物(例如位于当前物品的路径中的其他物品)。
[0003]因此,需要用于控制机器人设备的着手方式,这些着手方式针对要求(较长的)动作序列的不同情形能够实现成功且高效的控制。

技术实现思路

[0004]按照不同实施方式,提供了一种用于控制机器人设备的方法,该方法具有:取得该机器人设备的环境的图像;借助于神经网络来处理该图像,该神经网络设立为,从该图像中针对至少一个动作参数值输出具有针对多个像素的像素值的相应的值图像,其中针对每个像素,像素值说明对如下动作的评价:该动作通过该动作参数值和该像素在该值图像中的位置来详细说明,其中该神经网络具有编码器网络和解码器网络,在编码器网络与解码器网络之间有瓶颈,而且该神经网络具有在编码器网络与解码器网络之间的跳跃连接;从多个动作中选择如下那个动作:对于该动作,在与该动作参数值一起详细说明该动作的位置处,该像素在针对该动作参数值的该值图像中的像素值在所述多个动作中是最大的;而且控制该机器人设备,以实施所选择的动作。
[0005]使用具有跳跃连接(也就是说Skip

Verbindungen,英文也称为Skip

Connections)的架构使得能够保持具有高粒度的细节,并且这样针对如下任务能够实现该神经网络的高准确性:这些任务要求较长的相同或者不同类型的动作链(并且因此选择在长时间范围上的控制动作),如例如分多个步骤移动对象、例如为了分类而使对象移位到相应容器中。
[0006]在下文,说明了不同实施例。
[0007]实施例1是一种用于控制机器人设备的方法,如上面所描述的那样。
[0008]实施例2是根据实施例1所述的方法,所述方法具有:借助于用于所述评价的目标值来训练该神经网络,其中借助于该神经网络的第二实例,按照双深度Q学习来确定这些目标值。
[0009]双深度Q学习的使用减少了Q值被过高估计的问题,并且这样尤其是改善了在具有长时间范围的高维控制任务的情况下的性能。
[0010]实施例3是根据实施例1或2所述的方法,该方法具有:借助于用于所述评价的目标值来训练该神经网络,其中根据来自控制过程中的奖励来确定这些目标值,而且其中该训练被执行为使得,如果由该神经网络针对来自这些控制过程中的样本(也就是说由状态、动作、下一状态和奖励所构成的元组)所估计的评价与针对来自这些控制过程中的另一样本相比更强烈地偏离用于所述评价的目标值,则该样本相对于该另一样本被优先考虑。
[0011]借此,以较少的过程实现该神经网络的高准确性。
[0012]实施例4是根据实施例1至3中任一个实施例所述的方法,其中该神经网络设立为,根据对动作的中间评价和对该机器人设备的环境状态的评价,确定对每个动作的评价。
[0013]这例如按照决斗DQN(Dueling

DQN)方法来进行,而且可以改善该神经网络所输出的评价的准确性。
[0014]实施例5是根据实施例1至4中任一个实施例所述的方法,其中通过像素的位置详细说明的动作是要在该机器人设备的环境的如下位置处执行的动作:该位置对应于该像素在值图像中的位置。
[0015]所取得的图像的每个像素按照它在所取得的图像中的位置而对应于在该机器人设备的环境中的位置,(因为该像素了示出针对该部位的颜色值或者一般来说是传感器值)。每个值图像中的每个像素都对应于在所取得的图像中的位置,并且因此也对应于在该环境中的位置。因此,该控制可以依据这些评价来确定合适的位置,以执行动作。
[0016]实施例6是根据实施例1至5中任一个实施例所述的方法,其中该神经网络设立为,输出针对多个动作参数值包含相应的值图像的输出,而且其中所述多个动作参数值中的每个动作参数值都描述了动作的控制参量或者动作的类型。
[0017]通过关于多种类型的动作或者具有不同参数值的动作来选择评价,可以(根据输入图像序列,其中从每个输入图像中分别选择一个动作)实施合适的动作链,以执行相应任务。
[0018]实施例7是根据实施例1至6中任一个实施例所述的方法,其中该机器人设备的环境具有多个对象,而且动作参数值说明了是否要使对象移位或者转动,和/或说明了方向、移位宽度和/或转动角。
[0019]尤其是,上面的方法因此可以被应用于分类任务或者料箱拣选(Bin

Picking)任务,而且允许,也针对较长的(不同类型和/或具有不同参数的)动作链执行该任务。
[0020]实施例8是一种机器人控制装置,该机器人控制装置设立为,执行根据实施例1至7中任一个实施例所述的方法。
[0021]实施例9是一种计算机程序,该计算机程序具有指令,当由处理器实施这些指令时,这些指令引起:该处理器执行根据实施例1至7中任一个实施例所述的方法。
[0022]实施例10是一种计算机可读介质,该计算机可读介质存储指令,当由处理器实施这些指令时,这些指令引起:该处理器执行根据实施例1至7中任一个实施例所述的方法。
附图说明
[0023]在附图中,相似的附图标记一般涉及在所有不同视图中的相同部分。这些附图不一定按比例尺画出,其中重点反而一般被置于呈现本专利技术的原理。在下列描述中,参考下列附图来描述不同方面。
[0024]图1示出了机器人。
[0025]图2示出了按照实施方式的神经网络。
[0026]图3示出了流程图,该流程图呈现了按照实施方式的用于控制机器人设备的方法。
具体实施方式
[0027]下文的详细描述涉及随附的附图,这些附图为了阐述而示出了本公开的其中可实施本专利技术的特定细节和方面。在不偏离本专利技术的保护范围的情况下,可以使用其他方面,并且可以执行结构更改、逻辑更改和电更改。本公开的各种方面不一定相互排斥,因为本公开的一些方面可以与本公开的一个或者多个其他方面相结合,以便形成新的方面。
[0028]在下文,较详尽地描述了不同示例。
[0029]图1示出了机器人100。
[0030]机器人100包括机器人臂101,例如包括用于操作或者安装工件(或者一个或者多个其他对象)的工业机器人臂。机器人臂101包括操纵器102、103、104和基座(或者支架)105,通过该基座105来支撑这些操纵器102、103、104。术语“操纵器”涉及机器人臂101的可移动元件,对这些可移动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于控制机器人设备的方法,所述方法具有:取得所述机器人设备的环境的图像,其中所述环境是所述机器人设备的机器人臂(101)的工作区域;借助于神经网络来处理所述图像,所述神经网络设立为,从所述图像中针对至少一个动作参数值输出具有针对多个像素的像素值的相应的值图像;其中对于每个像素,所述像素值说明了对如下动作的评价:所述动作通过所述动作参数值和所述像素在所述值图像中的位置来详细说明;其中所述神经网络设立为,根据对所述动作的中间评价和对所述机器人设备的所述环境的状态的评价来确定对每个动作的所述评价,其中所述神经网络具有编码器网络和解码器网络,在所述编码器网络与所述解码器网络之间有瓶颈,而且所述神经网络具有在所述编码器网络与所述解码器网络之间的跳跃连接;从分别表征所述机器人设备的技能的多个动作中,选择如下那个动作:对于所述动作,在与所述动作参数值一起详细说明所述动作的所述位置处,所述像素在针对所述动作参数值的所述值图像中的所述像素值在所述多个动作中是最大的;而且控制所述机器人设备,以实施所选择的动作。2.根据权利要求1所述的方法,所述方法具有:借助于用于所述评价的目标值来训练所述神经网络,其中借助于所述神经网络的第二实例,按照双深度Q学习来确定所述目标值。3.根据权利要求1或者2所述的方法,所述方法具有:借助于用于所述评价的目标值来训练所述神经网络,其中根据来自...

【专利技术属性】
技术研发人员:R
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1