一种基于大规模多模态模型的自动化问题回答方法技术

技术编号：40005325 阅读：16 留言：0更新日期：2024-01-09 04:52

本发明专利技术涉及人工智能技术领域，公开了一种基于大规模多模态模型的自动化问题回答方法，首先通过摄像头采集当前字体问题的图像，将图像通过图像编码器，转化成图像的embedding；通过话筒采集通过语音提出的语音问题，通过音频编码器转化音频embedding；再将所有的输入转化成模型理解的输入模板；最后将转化得到的输入模板输入到大规模多模态生成模型里，生成一段embedding；输出的embedding通过解码器生成得到解答文本和解答答案的图像；并将解答文本翻译成语音，通过与外接音响设备放出，并同步通过屏幕进行显示。本发明专利技术提高学生的学习体验，降低成本，提高效率，改善学生的学习成果，帮助学生快速地获得全面、准确的答案，从而提高学生的学习成果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体为一种基于大规模多模态模型的自动化问题回答方法。

技术介绍

1、aigc技术场景包括文本生成、音频生成、图像生成、视频生成等；chatbot为ai文字生成中应用较为广泛的领域。2022年11月底，openai上线智能对话系统chatgpt，引爆全球。chatgpt作为高效的aigc文字内容生产工具，被认为将在智能客服、虚拟人、游戏等领域得到更大落地应用，也对很多算力、数据标注、自然语言处理等底层技术公司利好。

2、例如申请号为“cn107480144a”的申请，具有如下缺陷：

3、(1)只能生成文本，不能生成图像和音频

4、(2)不能与用户交互

5、(3)不能理解数理逻辑

6、例如申请号为“cn106295792a”的申请，具有如下缺陷；

7、(1)只能检索现有的回答，没办法回复数据库里没有的问题。所以针对上述问题，就像需要一种基于大规模多模态模型的自动化问题回答方法。

技术实现思路

1、本...

【技术保护点】

1.一种基于大规模多模态模型的自动化问题回答方法，其特征在于：具体按以下步骤执行：

2.根据权利要求1所述的一种基于大规模多模态模型的自动化问题回答方法，其特征在于：所述字体问题的图像包括纸张或者通过视频呈现的文字的图像，其中问题的输入还包括用户通过触控屏上的文本框输入文字问题提出问题和交互，通过文本框输入的文字问题后，通过文本编码器转化成文本embedding。

3.根据权利要求1所述的一种基于大规模多模态模型的自动化问题回答方法，其特征在于，在所述步骤S3中，对大规模多模态生成模型进行训练，首先进行训练数据采集，数据采集包括英文和中文的训练数据，具体按以下步骤...

【技术特征摘要】

1.一种基于大规模多模态模型的自动化问题回答方法，其特征在于：具体按以下步骤执行：

3.根据权利要求1所述的一种基于大规模多模态模型的自动化问题回答方法，其特征在于，在所述步骤s3中，对大规模多模态生成模型进行训练，首先进行训练数据采集，数据采集包括英文和中文的训练数据，具体按以下步骤执行：

4.根据权利要求3所述的一种基于大规模多模态模型的自动化问题回答方法，其特征在于，其中英文与中文数据比例为8：2。

5.根据权利要求3所述的一种基于大规模多模态模...

【专利技术属性】
技术研发人员：何沐今，王生伟，李红霞，
申请(专利权)人：北京顺祥宏达电力设备有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人