训练数据分类方法、装置、设备及存储介质制造方法及图纸

技术编号：44816123 阅读：28 留言：0更新日期：2025-03-28 20:03

本公开涉及分类技术领域，尤其涉及一种训练数据分类方法、装置、设备及存储介质，本方法获取应用场景相关的多个预训练数据，并将多个预训练数据划分为评估集和训练集；通过多个预训练模型在设定标注标准下对评估集进行分类预测，输出第一预测类别；基于第一预测类别和标注类别计算标注策略值；根据标注策略值在多个预训练模型中确定至少一个第一预训练模型；通过至少一个第一预训练模型对训练集进行分类预测，确定第二预测类别；根据训练集和第二预测类别进行初始分类模型的训练，得到训练好的目标分类模型。本申请提供的方法，完成了训练数据的分类标注，在确保分类精度的情况下，降低了分类成本，提高了筛选效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及分类，尤其涉及一种训练数据分类方法、装置、设备及存储介质。

技术介绍

1、随着自然语言处理(natural language processing，nlp)技术的快速发展，增量预训练模型在特定领域的应用越来越广泛。在增量预训练过程中，搜集和筛选合适的训练数据，并为训练数据打标是一个关键且耗时的步骤。

2、目前，在搜集增量预训练语料时，多是依赖于人工肉眼筛选训练数据，并需要专业人员判断该训练数据是否适合作为增量预训练的语料，但是该种方式不仅筛选效率低，人力成本还比较高。另外，还可以使用自动化工具来辅助数据筛选，一种通用的方式是利用先进的大模型对每份数据进行分类，判断其是否适合作为增量预训练语料，该种方式虽然在一定程度上提高了筛选效率，但是，使用大模型进行分类需要大量的计算资源和大规模的数据量，造价较高。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种训练数据分类方法、装置、设备及存储介质。

2、第一方面，本专利技术提供了一种训练数据分类方法，方法包括：

3本文档来自技高网...

【技术保护点】

1.一种训练数据分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过多个预训练模型在所述应用场景的设定标注标准下对所述评估集中的预训练数据进行分类预测，输出第一预测类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述多个预训练模型基于所述标注提示语句对所述评估集中的预训练数据进行分类预测，输出第一预测类别后，所述方法还包括：

4.根据权利要求1中所述的方法，其特征在于，所述基于所述第一预测类别和所述评估集中预训练数据的标注类别计算标注策略值，包括：

5.根据权利要求4中所述的方法，其特征在...

【技术特征摘要】

1.一种训练数据分类方法，其特征在于，所述方法包括：

4.根据权利要求1中所述的方法，其特征在于，所述基于所述第一预测类别和所述评估集中预训练数据的标注类别计算标注策略值，包括：

5.根据权利要求4中所述的方法，其特征在于，所述根据所述组合预训练模型输出的预测类别和...

【专利技术属性】
技术研发人员：贾莹，
申请(专利权)人：北京金山云网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人