训练数据增强方法、大模型训练方法及其装置、计算设备制造方法及图纸

技术编号：42169515 阅读：18 留言：0更新日期：2024-07-27 00:16

提供了训练数据的增强方法、大模型训练方法及其装置、计算设备。数据增强方法包括：获取针对特定领域的原始训练数据集的一个或多个数据质量衡量标准，每个数据质量衡量标准与多种类型的关键信息相关联；基于数据质量衡量标准，对所述原始训练数据集中的原始训练数据的关键信息进行识别，确定具有第一质量等级的第一训练数据集以及具有第二质量等级的第二训练数据集，其中，具有第一质量等级的训练数据包括与相应的数据质量衡量标准相关联的所有关键信息；以及将第一训练数据集和/或第二训练数据集中的训练数据的关键信息进行组合，得到具有第一质量等级的新的训练数据。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习领域，更具体地，涉及一种用于大模型的训练数据的增强方法及其装置、用于大模型的训练方法及其装置、计算设备以及介质。

技术介绍

1、大语言模型（llm，后文可以简称为大模型）是基于深度学习技术，例如llama模型，通过在大规模文本数据上进行训练而得到的参数规模庞大的自然语言处理模型。目前，基础大模型展现了较强智能的自然语言处理能力，能够学习语言的上下文信息、语法结构以及丰富的语义知识。随着大型模型技术和开源大型模型的不断发展，开源社区涌现出越来越多而且更强大的通用大型模型。这些通用大型模型通常具备出色的泛化特性，已经在通用语言逻辑理解方面取得了显著的成就。

2、然而，目前大模型在特定领域的应用仍然存在较大的阻拦和困难。目前针对大语言模型如何微调/训练的研究越来越多，以尽量能够适用于各种特定的领域，但是依照现有的微调/训练方式优化方向，仍然无法满足特定应用场景对于准确度和可靠性的高要求。例如，以肿瘤医学领域为例，大语言模型已经逐步应用到该领域，例如，进行医学命名实体识别以及智能医疗对话系统等等，但尚存在对深度肿瘤...

【技术保护点】

1.一种用于增强大模型的训练数据的方法，包括：

2.根据权利要求1所述的方法，其中，所述特定领域为肿瘤医学领域，所述不同数据主题类别之一包括特定肿瘤类型疗效评价，并且

3.根据权利要求1所述的方法，其中，将所述第一训练数据集和/或所述第二训练数据集中的训练数据的关键信息进行组合，还包括：

4.根据权利要求1所述的方法，其中，将所述第一训练数据集和/或所述第二训练数据集中的训练数据的关键信息进行组合，还包括：

5.根据权利要求1-4中任一项所述的方法，还包括：

6.根据权利要求5所述的方法，还包括：