深度学习模型生成方法、电子设备和存储介质技术

技术编号：44807625 阅读：17 留言：0更新日期：2025-03-28 19:55

本申请公开了一种深度学习模型生成方法、电子设备和存储介质。其中，该方法包括：获取预测结果，其中，预测结果采用预训练语言模型对输入数据进行预测后得到，输入数据为预设应用场景下预先输入的真实请求数据；依据预测结果获取用户反馈数据，其中，用户反馈数据用于记录预测结果的接受反馈与拒绝反馈；基于用户反馈数据对预训练语言模型与待优化语言模型进行模型对齐，得到补齐后语言模型；将补齐后语言模型确定为生成目标语言模型。本申请解决了相关技术提供的深度学习模型生成方法其训练效率低、训练得到的模型在特定场景下性能较差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机和人工智能，具体而言，涉及一种深度学习模型生成方法、电子设备和存储介质。

技术介绍

1、近年来，人工智能和深度学习技术的快速发展推动了大规模预训练语言模型(large language models，llm)在自然语言处理(natural language processing，nlp)领域取得重大突破。然而，根据相关技术，在llm的有监督微调(supervised fine-tuning，sft)的过程中，通常依赖额外的奖励模型或复杂的近似策略优化(proximal policyoptimization，ppo)方法进行强化学习，这导致模型训练效率低；此外，相关技术中较少或未提及如何优化llm训练过程中的特定任务对齐方式，导致训练得到的llm在执行应用场景中的特定任务时难以达到预期性能。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种深度学习模型生成方法、电子设备和存储介质，以至少解决相关技术提供的深度学习模型生成方...

【技术保护点】

1.一种深度学习模型生成方法，其特征在于，包括：

2.根据权利要求1所述的深度学习模型生成方法，其特征在于，依据所述预测结果获取所述用户反馈数据包括：

3.根据权利要求1所述的深度学习模型生成方法，其特征在于，基于所述用户反馈数据对所述预训练语言模型与所述待优化语言模型进行模型对齐，得到所述补齐后语言模型包括：

4.根据权利要求3所述的深度学习模型生成方法，其特征在于，通过所述用户反馈数据确定所述预训练语言模型与所述待优化语言模型之间的所述目标损失包括：

5.根据权利要求4所述的深度学习模型生成方法，其特征在于，所述深度学习模型生成方法还包...

【技术特征摘要】

1.一种深度学习模型生成方法，其特征在于，包括：

2.根据权利要求1所述的深度学习模型生成方法，其特征在于，依据所述预测结果获取所述用户反馈数据包括：

5.根据权利要求4所述的深度学习模型生成方法，其特征在于，所述深度学习模型生成方法还包括：

6.根据权利要求5所述的深度学习模型生成方法，其特征在于，获取所述待优化语言模型与所述预训练语言模型分别预测所述接受反馈与所述拒绝反馈的所述概率分布差异包括：

7.根据权利要求6所述的深度学习模型生成方法，其特征在于，对所述概率分布差异进行归一化处理，得到所述目标损失包括：...

【专利技术属性】
技术研发人员：林廷恩，刘雄，樊艳，武玉川，黄非，李永彬，
申请(专利权)人：杭州阿里云飞天信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人