【技术实现步骤摘要】
本专利技术属于大语言模型,具体涉及一种基于大语言模型微调算法的专业问答模型的构建方法。
技术介绍
1、近年来,随着大语言模型的充分发展,例如gpt-4等强大的模型,使得自然语言处理领域取得了巨大的进展。现阶段的大语言模型包括但不限于gpt、bert和llama等。然而,基于大语言模型的自然语言处理在特定领域的深度专业知识建模方面仍然存在一些挑战。在特定的专业领域中,模型对于该领域中的专业术语、专业知识和工作流程的准确理解和文本处理是至关重要的,比方是在医学、工业生产等领域,目前大语言模型在特定专业领域中的专业知识、流程等细节处理上表现不佳,主要因为在训练大语言模型过程中,训练数据通常需要广泛涵盖多个主题的大量数据。但是受限于数据获取渠道、数据专业性相对不足等各种原因,这使得基于这些大量数据训练得到的大语言模型在面对领域内的复杂术语、特定语境和领域专有的语言时难以表现出理解和准确性。
2、当大型语言模型用于进行下游任务训练时,还面临着效率和资源的双重挑战。如果选择对模型的所有参数进行全面微调,虽然理论上可以达到最优化的学习效果
...【技术保护点】
1.一种基于大语言模型微调算法的专业问答模型的构建方法,其特征在于:包括如下步骤:
2.如权利要求1所述的基于大语言模型微调算法的专业问答模型的构建方法,其特征在于:所述MLA-LoRA模块为大语言预训练模型的目标区域位置中由多个Adapter模块与预训练权重Base-model组合所构建得到的复合结构。
3.如权利要求2所述的基于大语言模型微调算法的专业问答模型的构建方法,其特征在于:所述Adapter模块内部由降维矩阵down与升维矩阵up两个线性矩阵所构成,所述降维矩阵down的输入张量的维度由该模块上游的输出维度所决定,所述升维矩阵Up
...【技术特征摘要】
1.一种基于大语言模型微调算法的专业问答模型的构建方法,其特征在于:包括如下步骤:
2.如权利要求1所述的基于大语言模型微调算法的专业问答模型的构建方法,其特征在于:所述mla-lora模块为大语言预训练模型的目标区域位置中由多个adapter模块与预训练权重base-model组合所构建得到的复合结构。
3.如权利要求2所述的基于大语言模型微调算法的专业问答模型的构建方法,其特征在于:所述adapter模块内部由降维矩阵down与升维矩阵up两个线性矩阵所构成,所述降维矩阵down的输入张量的维度由该模块上游的输出维度所决定,所述升维矩阵up的输出张量的维度由该模块下游的输入维度所决定。
4.如权利要求3所述的基于大语言模型微调算法的专业问答模型的构建方法,其特征在于:所述降维矩阵down的输入维度d_in表示该adapter模块的输入张量的维度,所述降维矩阵down的输入维度r表示adapter模块的秩,所述r的数值小于d_i...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。