大语言模型的训练方法、推理方法、装置、设备及存储介质制造方法及图纸

技术编号：42805957 阅读：27 留言：0更新日期：2024-09-24 20:49

本公开提供了大语言模型的训练方法、推理方法、装置、设备及存储介质，涉及数据处理领域，尤其涉及人工智能、大数据等技术领域。具体实现方案为：基于目标样本集合中的至少部分样本数据，对预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块之一进行预训练，以分阶段得到预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块；在继承预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块的训练结果的情况下，基于所述目标样本集合，对预设多专家‑大语言模型进行参数微调，以得到目标多专家‑大语言模型；所述目标多专家‑大语言模型至少包括：目标视觉投影模块，具有视觉语言专家能力和分割专家能力的目标混合专家模块。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理，尤其涉及人工智能、大数据等。

技术介绍

1、多模态大模型在各专业领域具有巨大潜力。然而，现有的多模态大模型所具有的能力局限于图像级的理解，低于像素级的感知，在准确性、交互友好性、答案可解释性仍然有待提高。

技术实现思路

1、本公开提供了一种大语言模型的训练方法、推理方法、装置、设备及存储介质。

2、根据本公开的一方面，提供了一种大语言模型的训练方法，包括：

3、基于目标样本集合中的至少部分样本数据，对预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块之一进行预训练，以分阶段得到预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块；

4、在继承预训练完成的预设视觉投影模块的训练结果、预设视觉语言专家模块的训练结果、预设分割专家模块的训练结果至少之一的情况下，基于所述目标样本集合，对预设多专家-大语言模型进行参数微调，以得到目标多专家-大语言模型；所述目标多专家-大语言模型至少包括：目标视觉投影模块，具有视觉语言专家...

【技术保护点】

1.一种大语言模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述基于目标样本集合中的至少部分样本数据，对预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块之一进行预训练，包括以下至少之一：

3.根据权利要求2所述的方法，其中，所述第一模型至少包括预设视觉编码模块，与预设视觉编码模块连接的预设视觉投影模块，预设文本提示嵌入模块，与预设文本提示嵌入模块和预设视觉投影模块连接的预设自注意力模块，以及与预设自注意力模块连接的预设前馈神经网络和预设文本预测头；

4.根据权利要求2或3所述的方法，其中，所述基于目标样本集合中的第一部分样本数据，...

【技术特征摘要】

1.一种大语言模型的训练方法，包括：

4.根据权利要求2或3所述的方法，其中，所述基于目标样本集合中的第一部分样本数据，对至少包含有预设视觉投影模块的第一模型进行预训练，使得预训练后的预设视觉投影模块具有视觉理解能力，并得到预训练完成的第一模型，包括：

5.根据权利要求4所述的方法，其中，所述基于第一阶段损失函数以及第一部分样本数据，对至少包含有预设视觉投影模块的第一模型进行预训练，使得预训练后的预设视觉投影模块具有视觉理解能力，并得到预训练完成的第一模型，包括：

6.根据权利要求2-5任一项所述的方法，其中，所述第二模型至少包括预设视觉编码模块，与预设视觉编码模块连接的预设视觉投影模块，预设文本提示嵌入模块，与预设文本提示嵌入模块和预设视觉投影模块连接的预设自注意力模块，以及与预设自注意力模块连接的预设前馈神经网络和预设文本预测头；其中，第二模型中的预设前馈神经网络用于作为预设视觉语言专家模块；

7.根据权利要求6所述的方法，其中，基于目标样本集合中的第二部分样本数据，对至少包含有预设视觉语言专家模块的第二模型进行预训练，使得预训练后的预设视觉语言专家模块具有视觉语言专家能力，以得到预训练完成的第二模型，包括：

8.根据权利要求7所述的方法，其中，所述基于目标样本集合中的第二部分样本数据，对至少包含有预设视觉语言专家模块的第二模型进行预训练，使得预训练后的预设视觉语言专家模块具有视觉语言专家能力，以得到预训练完成的第二模型，包括：

9.根据权利要求7所述的方法，其中，所述基于第二阶段损失函数以及第二部分样本数据，对至少包含有预设视觉语言专家模块的第二模型进行预训练，使得预训练后的预设视觉语言专家模块具有视觉语言专家能力，以得到预训练完成的第二模型，包括：

10.根据权利要求2-9任一项所述的方法，其中，所述第三模型至少包括预设视觉编码模块，与预设视觉编码模块连接的预设视觉投影模块，预设文本提示嵌入模块，与预设文本提示嵌入模块和预设视觉投影模块连接的预设自注意力模块，以及与预设自注意力模块连接的预设前馈神经网络，与预设前馈神经网络连接的预设文本投影模块和预设像素解码模块；第三模型中的预设前馈神经网络用于作为预设分割专家模块；

11.根据权利要求10所述的方法，其中，基于所述目标样本集合中的第三部分样本数据，对至少对包含有预设分割专家模块的第三模型进行预训练，使得预训练后的预设分割专家模块具有图像分割能力，并得到预训练完成的第三模型，包括：

12.根据权利要求11所述的方法，其中，所述基于目标样本集合中的第三部分样本数据，对至少包含有预设分割专家模块的第三模型进行预训练，使得预训练后的预设分割专家模块具有图像分割能力，以得到预训练完成的第三模型，包括：

13.根据权利要求11所述的方法，其中，所述基于第三阶段损失函数以及第三部分样本数据，对至少包含有预设分割专家模块的第三模型进行预训练，使得预训练后的预设分割专家模块具有图像分割能力，以得到预训练完成的第三模型，包括：

14.根据权利要求2-13任一项所述的方法，其中，所述预设多专家-大语言模型至少包括：预设视觉编码模块，与预设视觉编码模块连接的预设视觉投影模块，预设文本提示嵌入模块，与预设文本提示嵌入模块和预设视觉投影模块连接的预设自注意力模块，以及与预设自注意力模块连接的预设混合专家模块，与预设混合专家模块连接的预设文本投影模块和预设像素解码模块、预设文本预测头；

15.根据权利要求14所述的方法，其中，所述在继承预训练完成的预设视觉投影模块的训练结果、预设视觉语言专家模块的训练结果、预设分割专家模块的训练结果至少之一的情况下，基于所述目标样本集合，对预设多专家-大语言模型进行参数微调，以得到目标多专家-大语言模型，包括：

16.根据权利要求15所述的方法，其中，所述基于目标样本集合，对所述预设多专家-大语言模型进行参数微调，使得参数微调后的预设混合专家模块具有视觉语言专家能力和图像分割能力，以得到目标多专家-大语言模型，包括：

17.根据权利要求15所述的方法，其中，所述基于第四阶段损失函数以及目标样本集合，对所述预设多专家-大语言模型进行参数微调，使得参数微调后的预设混合专家模块具有视觉语言专家能力和图像分割能力，以得到目标多专家-大语言模型，包括：

18.根据权利要求4或7或11所述的方法，还包括：

19.根据权利要求18所述的方法，还包括：

20.一种大语言模型的推理方法，包括：

21.根...

【专利技术属性】
技术研发人员：黄小双，尚方信，申领东，杨叶辉，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人