基于大语言模型微调算法的专业问答模型的构建方法技术

技术编号：42306903 阅读：34 留言：0更新日期：2024-08-14 15:53

本发明专利技术属于大语言模型技术领域，具体涉及一种基于大语言模型微调算法的专业问答模型的构建方法。该构建方法，包括如下步骤：构建特定领域专业语言问答数据集；构建专业问答模型：预训练大语言模型、载入MLA‑LoRA模块和构建专业问答模型；微调训练：结合数据集对专业问答模型进行微调训练。本发明专利技术提出了一项创新性的方法，采用大语言模型微调的策略来构建特定专业领域问答模型，基于预训练大语言模型，通过构建的特定领域专业问答数据集，来微调来构建专业知识问答模型。本发明专利技术能够适用于更广泛的专业领域。这种泛用性的提高意味着该模型不仅局限于一个特定的应用场景，而是可以灵活应用于多种不同的专业领域，从而提供更广泛的服务和应用可能性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大语言模型，具体涉及一种基于大语言模型微调算法的专业问答模型的构建方法。

技术介绍

1、近年来，随着大语言模型的充分发展，例如gpt-4等强大的模型，使得自然语言处理领域取得了巨大的进展。现阶段的大语言模型包括但不限于gpt、bert和llama等。然而，基于大语言模型的自然语言处理在特定领域的深度专业知识建模方面仍然存在一些挑战。在特定的专业领域中，模型对于该领域中的专业术语、专业知识和工作流程的准确理解和文本处理是至关重要的，比方是在医学、工业生产等领域，目前大语言模型在特定专业领域中的专业知识、流程等细节处理上表现不佳，主要因为在训练大语言模型过程中，训练数据通常需要广泛涵盖多个主题的大量数据。但是受限于数据获取渠道、数据专业性相对不足等各种原因，这使得基于这些大量数据训练得到的大语言模型在面对领域内的复杂术语、特定语境和领域专有的语言时难以表现出理解和准确性。

2、当大型语言模型用于进行下游任务训练时，还面临着效率和资源的双重挑战。如果选择对模型的所有参数进行全面微调，虽然理论上可以达到最优化的学习效果...

【技术保护点】

1.一种基于大语言模型微调算法的专业问答模型的构建方法，其特征在于：包括如下步骤：

2.如权利要求1所述的基于大语言模型微调算法的专业问答模型的构建方法，其特征在于：所述MLA-LoRA模块为大语言预训练模型的目标区域位置中由多个Adapter模块与预训练权重Base-model组合所构建得到的复合结构。

3.如权利要求2所述的基于大语言模型微调算法的专业问答模型的构建方法，其特征在于：所述Adapter模块内部由降维矩阵down与升维矩阵up两个线性矩阵所构成，所述降维矩阵down的输入张量的维度由该模块上游的输出维度所决定，所述升维矩阵Up的输出张量的维度由该...

【技术特征摘要】

1.一种基于大语言模型微调算法的专业问答模型的构建方法，其特征在于：包括如下步骤：

2.如权利要求1所述的基于大语言模型微调算法的专业问答模型的构建方法，其特征在于：所述mla-lora模块为大语言预训练模型的目标区域位置中由多个adapter模块与预训练权重base-model组合所构建得到的复合结构。

3.如权利要求2所述的基于大语言模型微调算法的专业问答模型的构建方法，其特征在于：所述adapter模块内部由降维矩阵down与升维矩阵up两个线性矩阵所构成，所述降维矩阵down的输入张量的维度由该模块上游的输出维度所决定，所述升维矩阵up的输出张量的维度由该模块下游的输入维度所决定。

4.如权利要求3所述的基于大语言模型微调算法的专业问答模型的构建方法，其特征在于：所述降维矩阵down的输入维度d_in表示该adapter模块的输入张量的维度，所述降维矩阵down的输入维度r表示adapter模块的秩，所述r的数值小于d_i...

【专利技术属性】
技术研发人员：仇祎诚，沙枫，牛力，
申请(专利权)人：南湖实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人