一种基于自然语言问答接口与大模型交互的界面系统及方法技术方案

技术编号：45074472 阅读：15 留言：0更新日期：2025-04-25 18:16

本发明专利技术公开了一种基于自然语言问答接口与大模型交互的界面系统及方法，包括以下步骤，首先进行多模态信息交互，通过采用文本、声音、图像、视频、传感的多种模态方式进行自然语言信息交互；其中文本采用网页/APP、输入法、文件/媒体的方式进行交互，声音采用网页/APP、麦克风的方式进行交互，图像采用屏幕、手写笔的方式进行交互，视频采用屏幕、摄像头的方式进行交互，传感采用传感器的方式进行交互；从而理解并生成多模态大模型系统。通过使大模型采用模态交互方式，不仅可以支持自然语言的问答，也能对图像、动作、文字作出反馈。进而更好地理解用户意图、实现接近人类的复杂情境理解和反应，使交互过程更加人性化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言问答与大模型交互，具体为一种基于自然语言问答接口与大模型交互的界面系统及方法。

技术介绍

1、交互型大模型是指跨越单一模态的限制，支持各种自然语言的问答，能做出实时的、“类人”的理解和反馈，可以跟人进行无缝交流。

2、交互型大模型的核心在于根据用户问答需求生成自然流畅、富有情感的语音输出，使反馈的真实感更为强烈，同时模仿人类的情感状态如喜悦、悲伤或愤怒等，然后通过调整语调、节奏和音量来表达相应的情绪，为用户提供更为直观的信息表达，从而实现更加高效丰富的沟通体验；

3、然而目前的大模型交互对自然语言的识别能力较强，因此在自然语言下产生的问答，一般都可以作出高效、准确反馈。但是在面对图像、动作、文字时，无法捕捉并解析复杂的图像和视频中的细节，无法使用户以文本、图像、声音、视频、传感的数据类型与终端进行交互。不仅导致用户同终端的交互形式单一，限制了部分无法发出声音或写出文字残疾人的使用，同时也不能生成各种跨媒体内容，从而为用户提供更为直观的信息表达，降低了用户与模型之间问答的交互效率。

>4、为此提出一种基本文档来自技高网...

【技术保护点】

1.一种基于自然语言问答接口与大模型交互的界面系统及方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于自然语言问答接口与大模型交互的界面系统及方法，其特征在于：所述在步骤1中，基于信息传递的媒介不仅可以是文本、声音、图像、视频、传感的方式，同时还可以采用雷达、红外、GPS、加速度计的传感器作为模态交互数据。

3.根据权利要求1所述的一种基于自然语言问答接口与大模型交互的界面系统及方法，其特征在于：所述在步骤1中，根据自然语言生成结构化文本和非结构化文本进行输入，其中通过语言的同步进行分类，图像可以输入版面结构或文档图表，视频可以输入动画、现实视频、...

【技术特征摘要】

1.一种基于自然语言问答接口与大模型交互的界面系统及方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于自然语言问答接口与大模型交互的界面系统及方法，其特征在于：所述在步骤1中，基于信息传递的媒介不仅可以是文本、声音、图像、视频、传感的方式，同时还可以采用雷达、红外、gps、加速度计的传感器作为模态交互数据。

3.根据权利要求1所述的一种基于自然语言问答接口与大模型交互的界面系统及方法，其特征在于：所述在步骤1中，根据自然语言生成结构化文本和非结构化文本进行输入，其中通过语言的同步进行分类，图像可以输入版面结构或文档图表，视频可以输入动画、现实视频、会议录屏。

4.根据权利要求1所述的一种基于自然语言问答接口与大模型交互的界面系统及方法，其特征在于：所述在步骤2中，多模态模型系统首先需要对用户的输入进行基础的nlp处理，包括分词、词性标注、命名实体识别、图像语音纠错，如：移除停用词、处理拼写、文字错误等，确保图像、语音数据的正确。

5.根据权利要求1所述的一种基于自然语言问答接口与大模型交互的界面系统及方法，其特征在于：所述在步骤2中，多模态模型系统会将未识别的问题收集起来，通过人工或自动标注的方式，帮助模型学习新的表达方式，同时采用增量训练或迁移学习等方法，对系统模型进行更新，确保多模态模型系统能够适应不断变化的用户需求。

6.根据权利要求1所...

【专利技术属性】
技术研发人员：刘晨，
申请(专利权)人：浙江码塔信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人