基于偏好学习增强大语言模型的领域特定能力的方法及系统技术方案

技术编号：43771864 阅读：33 留言：0更新日期：2024-12-24 16:11

本发明专利技术提供一种基于偏好学习增强大语言模型的领域特定能力的方法及系统，包括：获取无标签数据，通过预设的领域专家模型对所述无标签数据进行推理，生成相应的输出分布；将所述输出分布输入至大语言模型，通过所述大语言模型基于输出分布生成偏好增强数据；对所述偏好增强数据进行汇总，整理为新的训练数据集，通过新的训练数据集对所述大语言模型进行微调；对微调后的大语言模型进行模型评估，基于评估结果对大语言模型进行二次调整，完成大语言模型的领域特定能力增强。本发明专利技术解决了现有大语言模型在特定领域生成文本不准确的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模型偏好增强，尤其涉及一种基于偏好学习增强大语言模型的领域特定能力的方法及系统。

技术介绍

1、大语言模型具有很强的通用能力，然而在特定领域的应用中，大语言模型通常缺乏足够的领域特定能力，导致生成的文本不够准确和相关。现有的方法通常通过增加领域特定训练数据来增强模型的表现，然而，领域特定的数据标签往往需要领域专家参与标注，成本高昂；且带标注数据不一定被持有人开放。也有方法通过知识蒸馏，将领域特定模型的领域知识迁移到大语言模型中，并且，为了进一步提升蒸馏效果，有方法先用大语言模型对指定的标签生成解释，并将解释与原始数据一起加入到训练过程中，但是，此种方法无法完备学到完整全面的领域专家模型的知识。

技术实现思路

1、本专利技术提供一种基于偏好学习增强大语言模型的领域特定能力的方法及系统，用以解决现有大语言模型在特定领域生成文本不准确的问题。

2、本专利技术提供一种基于偏好学习增强大语言模型的领域特定能力的方法，包括：

3、获取无标签数据，通过预设的领域专家...

【技术保护点】

1.一种基于偏好学习增强大语言模型的领域特定能力的方法，其特征在于，包括：

2.根据权利要求1所述的基于偏好学习增强大语言模型的领域特定能力的方法，其特征在于，所述获取无标签数据，通过预设的领域专家模型对所述无标签数据进行推理，生成相应的输出分布，具体包括：

3.根据权利要求2所述的基于偏好学习增强大语言模型的领域特定能力的方法，其特征在于，所述输出分布包括多个输出值及其对应的累积概率。

4.根据权利要求1所述的基于偏好学习增强大语言模型的领域特定能力的方法，其特征在于，所述将所述输出分布输入至大语言模型，通过所述大语言模型基于输出分布生成偏好增强数据...

【技术特征摘要】

1.一种基于偏好学习增强大语言模型的领域特定能力的方法，其特征在于，包括：

3.根据权利要求2所述的基于偏好学习增强大语言模型的领域特定能力的方法，其特征在于，所述输出分布包括多个输出值及其对应的累积概率。

4.根据权利要求1所述的基于偏好学习增强大语言模型的领域特定能力的方法，其特征在于，所述将所述输出分布输入至大语言模型，通过所述大语言模型基于输出分布生成偏好增强数据，具体包括：

5.根据权利要求1所述的基于偏好学习增强大语言模型的领域特定能力的方法，其特征在于，所述对所述偏好增强数据进行汇总，整理为新的训练数据集，通过新的训练数据集对所述大语言模型进行微调，具体包括：

6.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员：刘洋，李鹏，刘安，杨宗瀚，张真赫，胡清源，严明，张佶，黄非，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人