【技术实现步骤摘要】
本专利技术属于大模型微调优化,涉及一种增加关键信息占比的大模型微调方法、系统及应用。
技术介绍
1、主流的参数高效微调sft技术,例如lora[1]是通过在transformer架构的线性层中添加可训练的低秩分解矩阵,减少下游任务的可训练参数,降低大模型微调所需要的空间和算力;使用微调数据集对原始大模型进行再训练,以此提高模型在微调数据上的表达能力。
2、但是现有的sft技术在处理微调数据时,一般统一使用分词器tokenizer将输入的句子编码为多个token,每个token使用一个对应的整数id进行表示,在训练大模型时,使用整数id序列替代原始的字符序列进行输入,输出时同样使用整数id序列进行表示,之后应用tokenizer解码为用户可读的字符序列。该方法存在一个问题,会对于字符序列中的所有token进行统一化处理,即它们具有相同的权重,模型无法从中提取关键信息而是对于所有输入一视同仁。对于常见的问答式任务,该方法可以利用大模型内部的对齐模块学习相关的知识,但是对于较为复杂的下游任务,例如:正确答案和用户答案匹配、组卷评分
...【技术保护点】
1.一种增加关键信息占比的大模型微调方法,其特征在于,所述大模型微调方法包括如下步骤:
2.如权利要求1所述的大模型微调方法,其特征在于,步骤一中,所述一般信息是指输出数据中无实际意义,作为模型生成内容模板的字段;所述关键信息是指在微调数据中需要模型重点关注和处理的信息字段;和/或,
3.如权利要求1所述的大模型微调方法,其特征在于,步骤一中,处理输入文本,并扩充分词器词表进一步包括如下步骤:
4.如权利要求1所述的大模型微调方法,其特征在于,步骤二中,模型中的嵌入层维度从[old_vocab_size,embed_dim]转换为[
...【技术特征摘要】
1.一种增加关键信息占比的大模型微调方法,其特征在于,所述大模型微调方法包括如下步骤:
2.如权利要求1所述的大模型微调方法,其特征在于,步骤一中,所述一般信息是指输出数据中无实际意义,作为模型生成内容模板的字段;所述关键信息是指在微调数据中需要模型重点关注和处理的信息字段;和/或,
3.如权利要求1所述的大模型微调方法,其特征在于,步骤一中,处理输入文本,并扩充分词器词表进一步包括如下步骤:
4.如权利要求1所述的大模型微调方法,其特征在于,步骤二中,模型中的嵌入层维度从[old_vocab_size,embed_dim]转换为[new_vocab_size,embed_dim],其中,old_vocab_size表示扩充前词表大小,new_vocab_size表示扩充后词表大小,embed_dim表示嵌入层维度;和/或,
5.如权利要求1所述的大模型微调方法,其特征在于,步骤三中,将连续出现的一般信息统一处理为一个token,将连续出现的关键信息也统一处理为一个token,对微调后的数据进行切分,提高关键信息占比,降低token ...
【专利技术属性】
技术研发人员:潘一荣,
申请(专利权)人:上海曲速超为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。