当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于多模态大模型的盲人辅助交互方法、系统及存储介质技术方案

技术编号:44491966 阅读:17 留言:0更新日期:2025-03-04 17:57
本发明专利技术公开了一种基于多模态大模型的盲人辅助交互方法、系统及存储介质,属于人工智能技术领域,所述方法包括:获取用户语音指令以及外部环境图像并对获取到的数据进行预处理;将预处理后的数据输入预先训练的多模态大模型,得到环境理解结果;将所述环境理解结果整合为反馈信息进行语音输出,并根据环境特点调整输出语调;其中,所述预先训练的多模态大模型的获取方法包括:获取历史多模态数据;将所述历史多模态数据输入预先构建的多模态大模型,并通过冻结模型中的基础层对训练中的多模态大模型进行微调,得到训练好的多模态大模型,通过多模态大模型融合多模态信息,准确地识别出用户意图和复杂环境中的对应物体,从而反馈出精确的场景描述。

【技术实现步骤摘要】

本专利技术属于人工智能,尤其涉及一种基于多模态大模型的盲人辅助交互方法、系统及存储介质


技术介绍

1、随着人工智能技术的飞速发展,图像识别、语音识别和自然语言处理等领域取得了显著的进步。这些技术的发展推动了多模态交互系统的创新,使得机器能够更好地理解和响应用户的需求。在这样的技术背景下,开发一种能够实时捕获用户的语音和图像,并通过人工智能进行解析和响应的软件变得尤为重要。这种软件可以应用于多种场景,如残障辅助。

2、现有的通过人工智能实现残障辅助的技术方案中,如申请号为202410405329x的头戴式盲人行走激光扫描避障装置,通过激光雷达和视觉扫描模块实时扫描环境,提供避障提醒。用户在行走过程中通过耳机和振动反馈获取信息,但主要依靠震动反馈,缺乏语音提示或其他丰富的交互方式,也无法提供导航、场景理解等功能;再如申请号为202311507254.8的辅助盲人生活的智能通信感知方法,利用智能通信技术,结合环境感知和用户需求,提供定制化的辅助服务。系统可识别周围环境,并通过智能设备与用户互动,主要依赖震动和简易的触控交互,可能导致用户在复杂情境下本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的盲人辅助交互方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态大模型的盲人辅助交互方法,其特征在于,所述获取用户需求以及外部环境图像并对获取到的数据进行预处理,包括:

3.根据权利要求1或2所述的基于多模态大模型的盲人辅助交互方法,其特征在于,所述预先构建的多模态大模型包括依次连接的编码层、跨模态注意力层以及解码层;

4.根据权利要求3所述的基于多模态大模型的盲人辅助交互方法,其特征在于,所述通过图像编码器对输入的有效图像数据进行图像特征提取,并通过文本编码器对输入的文本指令进行文本特征提取,包括

5....

【技术特征摘要】

1.一种基于多模态大模型的盲人辅助交互方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态大模型的盲人辅助交互方法,其特征在于,所述获取用户需求以及外部环境图像并对获取到的数据进行预处理,包括:

3.根据权利要求1或2所述的基于多模态大模型的盲人辅助交互方法,其特征在于,所述预先构建的多模态大模型包括依次连接的编码层、跨模态注意力层以及解码层;

4.根据权利要求3所述的基于多模态大模型的盲人辅助交互方法,其特征在于,所述通过图像编码器对输入的有效图像数据进行图像特征提取,并通过文本编码器对输入的文本指令进行文本特征提取,包括:

5.根据权利要求4所述的基于多模态大模型的盲人辅助交互方法,其特征在于,所述通过多组自注意力层和前馈层根据所述图像特征向量和文本特征向量获取场...

【专利技术属性】
技术研发人员:陈涛杨谢鹏倪克健戴浩然邓鸿伟
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1