模型的调整方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：40429116 阅读：5 留言：0更新日期：2024-02-20 22:50

本申请适用于机器人技术领域，提供了一种模型的调整方法、装置、电子设备和可读存储介质。其中，所述模型的调整方法包括：响应于控制指令，将所述控制指令对应的环境信息输入至大语言模型，得到所述大语言模型输出的文本标签，所述文本标签包括待执行动作的动作标签；将所述动作标签输入至机械臂的控制模型，以通过所述控制模型控制机器人的机械臂执行所述待执行动作；响应于对所述待执行动作的反馈信息，根据所述反馈信息对所述大语言模型和所述控制模型的模型参数进行调整。本申请的实施例可以提升大语言模型对指令的理解力，使得机器人能够更好地执行控制命令。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于机器人，尤其涉及一种模型的调整方法、装置、电子设备和可读存储介质。

技术介绍

1、大语言模型(large language model，llm)是指基于transformer结构的深度神经网络模型，其具备多轮对话的能力，可以生成自然语言文本或理解语言文本的含义，并处理多种自然语言任务。但是，在将大语言模型应用在机器人领域时，由于大语言模型的回复通常基于指令文本，给出的答案容易出现不准确或与用户控制意图无关的问题。

技术实现思路

1、本申请实施例提供一种模型的调整方法、装置、电子设备和可读存储介质，可以解决相关技术中大语音模型对指令的理解力不足，导致机器人无法较好地控制命令的问题。

2、本申请实施例第一方面提供一种模型的调整方法，包括：响应于控制指令，将所述控制指令对应的环境信息输入至大语言模型，得到所述大语言模型输出的文本标签，所述文本标签包括待执行动作的动作标签；将所述动作标签输入至机械臂的控制模型，以通过所述控制模型控制机器人的机械臂执行所述待执行动作；响应于对所述待执行动作的反馈信息，根据所述反馈信息对所述大语言模型和所述控制模型的模型参数进行调整。

3、在第一方面的一些实施方式中，所述环境信息为多模态信息，所述多模态信息至少包括图像信息和语音信息；在所述将所述控制指令对应的环境信息输入至大语言模型之前，所述模型的调整方法还包括：获取所述机器人的图像传感器采集到的所述图像信息，以及所述机器人的麦克风采集到的所述语音信息。

4、在第

5、在第一方面的一些实施方式中，所述控制模型为强化学习模型，所述强化学习模型的损失函数为贝尔曼方程；根据所述反馈信息对所述控制模型的模型参数进行调整，包括：当所述反馈信息为正反馈信息时，生成模型奖励，以基于模型奖励和所述贝尔曼方程对所述控制模型的模型参数进行调整。

6、在第一方面的一些实施方式中，所述文本标签还包括待输出语音的语音标签；在所述得到所述大语言模型输出的文本标签之后，所述模型的调整方法还包括：将所述语音标签输入至语音处理模型，以通过所述语音处理模型控制机器人的音响输出所述待输出语音。

7、在第一方面的一些实施方式中，在所述得到所述大语言模型输出的文本标签之后，所述模型的调整方法还包括：将所述动作标签输入至自移动系统的驱动模型，以通过所述驱动模型控制机器人的自移动系统，以控制所述机器人进行位姿调整。

8、在第一方面的一些实施方式中，在所述根据所述反馈信息对所述大语言模型和所述控制模型的模型参数进行调整之后，所述模型的调整方法还包括：响应于建议信息，将所述建议信息作为提示指令，对所述大语言模型和所述控制模型的模型参数进行二次调整。

9、本申请实施例第二方面提供的一种模型的调整装置，包括：大模型处理单元，用于响应于控制指令，将所述控制指令对应的环境信息输入至大语言模型，得到所述大语言模型输出的文本标签，所述文本标签包括待执行动作的动作标签；控制模型处理单元，用于将所述动作标签输入至机械臂的控制模型，以通过所述控制模型控制机器人的机械臂执行所述待执行动作；模型调整单元，用于响应于对所述待执行动作的反馈信息，根据所述反馈信息对所述大语言模型和所述控制模型的模型参数进行调整。

10、本申请实施例第三方面提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述模型的调整方法的步骤。

11、本申请实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型的调整方法的步骤。

12、本申请实施例第五方面提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述模型的调整方法的步骤。

13、在本申请的实施方式中，响应于控制指令，通过将控制指令对应的环境信息输入至大语言模型，得到大语言模型输出的文本标签，将文本标签包括的动作标签输入至机械臂的控制模型，以通过控制模型控制机器人的机械臂执行待执行动作，然后响应于对待执行动作的反馈信息，根据反馈信息对大语言模型和控制模型的模型参数进行调整，一方面能够以环境信息作为输入，使大语言模型对指令具有更高的理解力，另一方面能够依据用户对机械执行动作的情况进行反馈的反馈信息进行模型优化，使模型更贴合用户的控制意图，进而使得机器人能够更好地执行控制命令。

本文档来自技高网...

【技术保护点】

1.一种模型的调整方法，其特征在于，包括：

2.如权利要求1所述的模型的调整方法，其特征在于，所述环境信息为多模态信息，所述多模态信息至少包括图像信息和语音信息；

3.如权利要求2所述的模型的调整方法，其特征在于，所述将所述控制指令对应的环境信息输入至大语言模型，包括：

4.如权利要求1所述的模型的调整方法，其特征在于，所述控制模型为强化学习模型，所述强化学习模型的损失函数为贝尔曼方程；

5.如权利要求1至4任意一项所述的模型的调整方法，其特征在于，所述文本标签还包括待输出语音的语音标签；

6.如权利要求1至4任意一项所述的模型的调整方法，其特征在于，在所述得到所述大语言模型输出的文本标签之后，所述模型的调整方法还包括：

7.如权利要求1至4任意一项所述的模型的调整方法，其特征在于，在所述根据所述反馈信息对所述大语言模型和所述控制模型的模型参数进行调整之后，所述模型的调整方法还包括：

8.一种模型的调整装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述模型的调整方法的步骤。

...

【技术特征摘要】

1.一种模型的调整方法，其特征在于，包括：

2.如权利要求1所述的模型的调整方法，其特征在于，所述环境信息为多模态信息，所述多模态信息至少包括图像信息和语音信息；

3.如权利要求2所述的模型的调整方法，其特征在于，所述将所述控制指令对应的环境信息输入至大语言模型，包括：

4.如权利要求1所述的模型的调整方法，其特征在于，所述控制模型为强化学习模型，所述强化学习模型的损失函数为贝尔曼方程；

5.如权利要求1至4任意一项所述的模型的调整方法，其特征在于，所述文本标签还包括待输出语音的语音标签；

6.如权利要求1至4任意一项所述的模型的调整方法，其特征在于，在所述得到所述大语言模型输出的文...

【专利技术属性】
技术研发人员：潘柏宇，焦继超，
申请(专利权)人：深圳市优必选科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人