问答信息的生成及多模态大模型训练方法和装置制造方法及图纸

技术编号：42649501 阅读：25 留言：0更新日期：2024-09-06 01:43

本公开提供了问答信息的生成及多模态大模型训练方法和装置，涉及计算机视觉、深度学习以及大模型等人工智能领域，可应用于光学字符识别等场景。其中的问答信息的生成方法可包括：获取待处理的目标图像，目标图像中包括待解答的问题内容以及问题内容对应的配图；分别获取问题内容对应的文本模态信息以及配图对应的图像模态信息；结合文本模态信息以及图像模态信息，利用多模态大模型确定出问题内容对应的解答信息。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，特别涉及计算机视觉、深度学习以及大模型等领域的问答信息的生成及多模态大模型训练方法和装置。

技术介绍

1、智能解题系统在现代教育中发挥着重要的作用，比如，能够大幅提升学习效率，并可通过提供实时的解答信息，帮助学生更快地理解和掌握知识点，以及可通过数据分析识别出学生学习中的薄弱环节并提供针对性的学习建议等。

技术实现思路

1、本公开提供了问答信息的生成及多模态大模型训练方法和装置。

2、一种问答信息的生成方法，包括：

3、获取待处理的目标图像，所述目标图像中包括待解答的问题内容以及所述问题内容对应的配图；

4、分别获取所述问题内容对应的文本模态信息以及所述配图对应的图像模态信息；

5、结合所述文本模态信息以及所述图像模态信息，利用多模态大模型确定出所述问题内容对应的解答信息。

6、一种多模态大模型训练方法，包括：

7、获取训练样本，所述训练样本中包括：训练图像对应的模态信息以及标签，所述模态信息包括：...

【技术保护点】

1.一种问答信息的生成方法，包括：

2.根据权利要求1所述的方法，其中，

3.根据权利要求2所述的方法，其中，

4.根据权利要求3所述的方法，其中，

5.根据权利要求3所述的方法，其中，

6.根据权利要求2所述的方法，其中，

7.根据权利要求2所述的方法，其中，

8.根据权利要求1～7中任一项所述的方法，其中，

9.根据权利要求8所述的方法，其中，

10.一种多模态大模型训练方法，包括：

11.根据权利要求10所述的方法，其中，

12.根据权利要求10或11...

【技术特征摘要】

1.一种问答信息的生成方法，包括：

2.根据权利要求1所述的方法，其中，

3.根据权利要求2所述的方法，其中，

4.根据权利要求3所述的方法，其中，

5.根据权利要求3所述的方法，其中，

6.根据权利要求2所述的方法，其中，

7.根据权利要求2所述的方法，其中，

8.根据权利要求1～7中任一项所述的方法，其中，

9.根据权利要求8所述的方法，其中，

10.一种多模态大模型训练方法，包括：

11.根据权利要求10所述的方法，其中，

12.根据权利要求10或11所述的方法，其中，

13.一种问答信息的生成装置，包括：图像获取模块、信息获取模块以及结果生成模块；

14.根据权利要求13所述的装置，其中，

15.根据权利要求14所述的装置，其中，

16...

【专利技术属性】
技术研发人员：李泊翰，吴亮，吕鹏原，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人