【技术实现步骤摘要】
本申请涉及计算机和人工智能,具体而言,涉及一种深度学习模型生成方法、电子设备和存储介质。
技术介绍
1、近年来,人工智能和深度学习技术的快速发展推动了大规模预训练语言模型(large language models,llm)在自然语言处理(natural language processing,nlp)领域取得重大突破。然而,根据相关技术,在llm的有监督微调(supervised fine-tuning,sft)的过程中,通常依赖额外的奖励模型或复杂的近似策略优化(proximal policyoptimization,ppo)方法进行强化学习,这导致模型训练效率低;此外,相关技术中较少或未提及如何优化llm训练过程中的特定任务对齐方式,导致训练得到的llm在执行应用场景中的特定任务时难以达到预期性能。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种深度学习模型生成方法、电子设备和存储介质,以至少解决相关技术提供的深度学习模型生成方
...【技术保护点】
1.一种深度学习模型生成方法,其特征在于,包括:
2.根据权利要求1所述的深度学习模型生成方法,其特征在于,依据所述预测结果获取所述用户反馈数据包括:
3.根据权利要求1所述的深度学习模型生成方法,其特征在于,基于所述用户反馈数据对所述预训练语言模型与所述待优化语言模型进行模型对齐,得到所述补齐后语言模型包括:
4.根据权利要求3所述的深度学习模型生成方法,其特征在于,通过所述用户反馈数据确定所述预训练语言模型与所述待优化语言模型之间的所述目标损失包括:
5.根据权利要求4所述的深度学习模型生成方法,其特征在于,所述深度
...【技术特征摘要】
1.一种深度学习模型生成方法,其特征在于,包括:
2.根据权利要求1所述的深度学习模型生成方法,其特征在于,依据所述预测结果获取所述用户反馈数据包括:
3.根据权利要求1所述的深度学习模型生成方法,其特征在于,基于所述用户反馈数据对所述预训练语言模型与所述待优化语言模型进行模型对齐,得到所述补齐后语言模型包括:
4.根据权利要求3所述的深度学习模型生成方法,其特征在于,通过所述用户反馈数据确定所述预训练语言模型与所述待优化语言模型之间的所述目标损失包括:
5.根据权利要求4所述的深度学习模型生成方法,其特征在于,所述深度学习模型生成方法还包括:
6.根据权利要求5所述的深度学习模型生成方法,其特征在于,获取所述待优化语言模型与所述预训练语言模型分别预测所述接受反馈与所述拒绝反馈的所述概率分布差异包括:
7.根据权利要求6所述的深度学习模型生成方法,其特征在于,对所述概率分布差异进行归一化处理,得到所述目标损失包括:...
【专利技术属性】
技术研发人员:林廷恩,刘雄,樊艳,武玉川,黄非,李永彬,
申请(专利权)人:杭州阿里云飞天信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。