一种基于大语言模型的视觉语言导航方法及系统技术方案

技术编号：41331627 阅读：2 留言：0更新日期：2024-05-20 09:52

本发明专利技术涉及导航技术领域，公开了一种基于大语言模型的视觉语言导航方法，包括：设置导航任务指令并获取当前视点的观察信息；将观察信息输入视觉转换文本系统，获得文本描述；收集基于视觉语言导航数据的导航思维链标注数据ground truth，使用标注数据ground truth训练大语言模型，获得训练好的大语言模型；组合导航任务指令和文本描述，获得导航输入，训练好的大语言模型以导航输入和思维链示例生成未来想象、进行视觉信息过滤和动作预测，获得导航决策；将导航决策输入代理机器人，控制机器人的行为；若导航决策为停止或达到最大导航步数，则导航结束并判断导航是否成功，否则重复步骤S4至步骤S5。本发明专利技术能够提高视觉语言导航动作决策的可解释性和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及导航，特别是涉及一种基于大语言模型的视觉语言导航方法及系统。

技术介绍

1、在视觉语言导航(vision-and-language navigation, vln)中，一个具身代理需要跟随一个语言指令来抵达目标地点。近年来，vln作为一个有代表性的具身智能任务，由于其实用性和灵活性而备受关注。vln给具身代理带来了巨大的挑战，因为成功的导航需要复杂的推理能力，包括遵循不同子指令的长期规划以及对导航过程的监控等。随着大型语言模型(large language model, llm)的快速发展，人们尝试引入具备丰富真实世界常识和强大推理能力的llm来解决具身智能任务。这揭示了llm帮助完成具身任务的巨大潜力，为了让llm可以与物理世界交互，一些工作引入了现成的视觉到文本系统，将视觉信息转换为文本表示，之后，llm可以根据周围观察的文本表示来推理动作，这些工作中的llm的扩展性较差，且缺乏关于如何将含有噪声的文本表示的视觉信息进行过滤的适当引导，llms直接执行动作决策，导致动作决策可解释性较差和准确率较低。

2、在现有技术中，公开号为cn117073701a的中国专利公开一种基于多模态和大语言预训练模型的视觉语言导航方法，以及一种嵌入式硬件装置，涉及导航
该方法包括，为大语言预训练模型建立导航任务情境；通过多模态视觉-语言预训练模型生成周围环境的文本描述；综合自然语言指令通过大语言模型生成每一步导航决策，进而控制具身机器人行为。本申请提供了一种将多模态视觉-语言预训练模型和大语言预训练模型应用于视觉

技术实现思路

1、本专利技术的首要目的是克服现有技术缺点，提出一种基于大语言模型的视觉语言导航方法，本专利技术能够提高视觉语言导航动作决策的可解释性和准确率。

2、作为本专利技术的另一目的，提供一种与前述目的相适应的系统。

3、为了实现上述的首要目的，本专利技术提供了一种基于大语言模型的视觉语言导航方法，包括：

4、步骤s1：设置导航任务指令并获取当前视点的观察信息；

5、步骤s2：将所述观察信息输入至视觉转换文本系统，获得与所述观察信息对应的文本描述；

6、步骤s3：收集基于视觉语言导航数据的导航思维链标注数据ground truth，使用所述标注数据ground truth对大语言模型进行训练，获得训练好的大语言模型；

7、步骤s4：将所述导航任务指令和所述文本描述进行组合，获得导航输入，训练好的大语言模型根据输入的所述导航输入和思维链示例生成未来想象、进行视觉信息过滤和动作预测，获得导航决策；

8、步骤s5：将所述导航决策输入代理机器人，控制所述代理机器人的行为；

9、步骤s6：若导航决策为停止或达到最大导航步数，则导航结束并根据导航成功标准判断导航是否成功，否则重复步骤s4至步骤s5。

10、进一步地，步骤s1所述的观察信息包括一张rgb图像和角度信息,其中和分别表示朝向角和俯仰角。

11、进一步地，步骤s2具体包括：

12、步骤s2.1：使用图像字幕模型blip将所述rgb图像转化为字幕；

13、步骤s2.2：使用视觉语言导航的角度映射规则将所述角度信息映射到由文

14、本表达的角度空间；

15、步骤s2.3：所述字幕和所述角度信息组成所述文本描述。

16、进一步地，步骤s2.2中所述的角度空间包括6个基本方向，分别为向前至、向后至、左转至、右转至、向上至和向下至。

17、进一步地，步骤s3中所述标注数据ground truth对大语言模型进行预训练和模仿学习微调训练，所述预训练用于约束所述大语言模型生成规范的输出，所述模仿学习微调用于使大语言模型生成顺序动作预测。

18、进一步地，所述预训练包括：将未来想象、视觉信息过滤和动作预测设置为预训练任务，创建与所述未来想象、所述视觉信息过滤和所述动作预测对应的指令跟随数据集，预训练的目标定义为：

19、

20、其中，表示一个导航步骤的文本观察，表示该步骤之前的历史，fi表示未来预测，vif表示视觉信息过滤，ap表示动作预测，，和分别表示fi、vif和ap对应的输出，，和分别是从中提取的fi，vif和ap的ground truth。

21、进一步地，所述模仿学习微调训练的目标为：

22、

23、其中，i表示导航任务指令，表示导航历史，表示文本描述，表示导航思维链。

24、进一步地，步骤s4具体包括：

25、步骤s4.1：训练好的大语言模型根据输入的导航输入和思维链示例生成未来想象，所述未来想象为一个物体或者一个场景；

26、步骤s4.2：训练好的大语言模型从当前众多的观察信息中心显式确定一个与所述未来想象最契合的观察；

27、步骤s4.3：根据所述未来想象和所述观察进行动作预测，获得导航决策。

28、进一步地，步骤s6中所述的导航成功标准为停止节点与目的节点的距离差不超过3m。

29、为了实现本专利技术的另一目的，本专利技术提供一种基于大语言模型的视觉语言导航系统，包括：

30、获取模块：用于设置导航任务指令并获取当前视点的观察信息；

31、转换模块：用于将所述观察信息输入至视觉转换文本系统，获得与所述观察信息对应的文本描述；

32、训练模块：用于收集基于视觉语言导航数据的导航思维链标注数据groundtruth，使用所述标注数据ground truth对大语言模型进行训练，获得训练好的大语言模型；

33、推理模块：用于将所述导航任务指令和所述文本描述进行组合，获得导航输入，训练好的大语言模型根据输入的所述导航输入和思维链示例生成未来想象、进行视觉信息过滤和动作预测，获得导航决策；

34、输入模块：用于将所述导航决策输入代理机器人，控制所述代理机器人的行为；

35、判断模块：若导航决策为停止或达到最大导航步数，则导航结束并根据导航成功标准判断导航是否成功，否则重复步骤s4至步骤s5。

36、本专利技术与现有技术相比，其有益效果在于：

37、本专利技术通过以标注数据ground truth对大语言模型进行训练，使得大语言模型能够生成规范的输出生成顺序动作预测，从而提高了视觉语言导航动作决策的准确率；还通过使用训练好的大语言模型根据输入的导航输入和思维链示例生成未来想象、进行视觉信息过滤和动作预测，实现对周围环境的视觉信息过滤，从而提高视觉语言导航动作决策的可解释性和准确率。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的视觉语言导航方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤S1所述的观察信息包括一张RGB图像和角度信息,其中和分别表示朝向角和俯仰角。

3.根据权利要求2所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤S2具体包括：

4.根据权利要求3所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤S2.2中所述的角度空间包括6个基本方向，分别为向前至、向后至、左转至、右转至、向上至和向下至。

5.根据权利要求1所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤S3中所述标注数据ground truth对大语言模型进行预训练和模仿学习微调训练，所述预训练用于约束所述大语言模型生成规范的输出，所述模仿学习微调用于使大语言模型生成顺序动作预测。

6.根据权利要求5所述的一种基于大语言模型的视觉语言导航方法，其特征在于，所述预训练包括：将未来想象、视觉信息过滤和动作预测设置为预训练任务，创建与所述未来想象、所述视觉信息过滤和所

7.根据权利要求5所述的一种基于大语言模型的视觉语言导航方法，其特征在于，所述模仿学习微调训练的目标为：

8.根据权利要求7所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤S4具体包括：

9.根据权利要求1所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤S6中所述的导航成功标准为停止节点与目的节点的距离差不超过3m。

10.一种基于大语言模型的视觉语言导航系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于大语言模型的视觉语言导航方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤s1所述的观察信息包括一张rgb图像和角度信息,其中和分别表示朝向角和俯仰角。

3.根据权利要求2所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤s2具体包括：

4.根据权利要求3所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤s2.2中所述的角度空间包括6个基本方向，分别为向前至、向后至、左转至、右转至、向上至和向下至。

5.根据权利要求1所述的一种基于大语言模型的视觉语言导航方法，其特征在于，步骤s3中所述标注数据ground truth对大语言模型进行预训练和模仿学习微调训练，所述预训练用于约束所述大语言模型生成规范的输出，所述...

【专利技术属性】
技术研发人员：梁小丹，聂云双，林冰倩，
申请(专利权)人：中山大学·深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人