【技术实现步骤摘要】
本专利技术涉及大模型,具体地说是一种基于大模型数据回收的可控优化方法、系统、设备及介质。
技术介绍
1、在当前,大模型在构建监督微调数据集方面取得了显著的进步。大模型经过预训练以预测文档中的下一个令牌。训练后的调整过程提高了在真实性和对期望行为的遵守方面的表现。然而,大模型仍然缺乏对其响应的精进控制,管理监督微调数据集以提高大模型的可控性通常依赖于领域专家或专有大模型。大模型必须限制其输出遵循特定的用户定义的格式或标准,如果没有对响应的约束,很难直接将自由形式的响应投入实际使用。
2、故如何自动编辑现有的微调数据,提高大模型的可控性是目前亟待解决的技术问题。
技术实现思路
1、本专利技术的技术任务是提供一种基于大模型数据回收的可控优化方法、系统、设备及介质,来解决如何自动编辑现有的微调数据,提高大模型的可控性的问题。
2、本专利技术的技术任务是按以下方式实现的,一种基于大模型数据回收的可控优化方法,该方法是根据预定义规则将多个约束合并到回收的原始数据样本中,利用回收
...【技术保护点】
1.一种基于大模型数据回收的可控优化方法,其特征在于,该方法是根据预定义规则将多个约束合并到回收的原始数据样本中,利用回收的数据加入扩充的约束,创建新的训练任务巩固大模型的可控制性;具体如下:
2.根据权利要求1所述的基于大模型数据回收的可控优化方法,其特征在于,令牌长度计算具体如下:
3.根据权利要求1所述的基于大模型数据回收的可控优化方法,其特征在于,基于重构指令和响应扩充现有监督微调数据集具体如下:
4.根据权利要求1所述的基于大模型数据回收的可控优化方法,其特征在于,利用在线模型选择算法将大模型代理有效地结合到序列决策中过程
...【技术特征摘要】
1.一种基于大模型数据回收的可控优化方法,其特征在于,该方法是根据预定义规则将多个约束合并到回收的原始数据样本中,利用回收的数据加入扩充的约束,创建新的训练任务巩固大模型的可控制性;具体如下:
2.根据权利要求1所述的基于大模型数据回收的可控优化方法,其特征在于,令牌长度计算具体如下:
3.根据权利要求1所述的基于大模型数据回收的可控优化方法,其特征在于,基于重构指令和响应扩充现有监督微调数据集具体如下:
4.根据权利要求1所述的基于大模型数据回收的可控优化方法,其特征在于,利用在线模型选择算法将大模型代理有效地结合到序列决策中过程中,生成阶段的输入是一组序列化的弱连接简单变化图组件,捕获新模型快照和先前模型修订的差异以及来自训练阶段的向量存储;具体如下:
5.根据权利要求1-4中所述的基于大模型数据回收的可控优化方法,其特征在于,在训练过程中扩大计算量的策略具体如下:
6.一种基于大模型数据回收的可控优化系统,其特征在于,该系统包括:
7.根据权利要求6所述的基于大模型数据回收的可控优化系统,其特征在于,令牌长度计算具体如下...
【专利技术属性】
技术研发人员:孙向晖,隋岩松,杨世豪,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。