文本数据标签优化方法、装置、设备及存储介质制造方法及图纸

技术编号：41099459 阅读：2 留言：0更新日期：2024-04-25 13:56

本发明专利技术提供了一种文本数据标签优化方法、装置、设备及存储介质，涉及自然语言处理技术领域。该文本数据标签优化方法可以对样本数据进行合理压缩和扩增，可以有效降低对大语言模型的使用频率，并配合精心编制的Prompt，激发出大语言模型强大的语义理解和生成能力，进而编制出高可信的评测集。再在此基础上计算出带噪数据的预测标签和真实标签之间的共现分布，随着数据规模的扩大和交叉验证的推算，计算出来的共现分布可以充分反映真实世界中的噪声标签和真实标签的分布，从而对错误标签的筛选具备高准确率，大幅减少检测错误情况的出现。本方法采用多层聚类方案，可以高性价比的应用大语言模型的能力，从而大幅降低对算力、硬件和资金的依赖。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种文本数据标签优化方法、装置、设备及存储介质。

技术介绍

1、在机器学习领域中，数据标签错误是常见的问题之一。它会对训练模型的准确性产生重大影响，因为模型的预测取决于数据的正确性。即使是在大规模数据集中，也难免存在标签错误的情况，错误的标签会引导模型学习到错误的模式，这可能导致模型训练出现偏差，从而会学习到错误的决策边界，还有可能致使模型出现过拟合现象，导致模型在测试集上的准确率大大降低。因此，准确地识别和纠正标签错误数据是提高模型准确性的重要一环。

2、为了解决这个问题，一些常见的方法包括手动检测，半自动检测和自动检测。手动检测方法需要人工审核数据集，从而发现其中的标签错误数据，并将它们手动更正。这种方法虽然效果最好，但是非常费时费力，且在大数据上还会因为人工检测基准难以统一而出现事倍功半的问题；半自动检测方法则是将人工审核和机器学习结合起来。例如，一种常见的半自动方法是利用聚类技术自动将数据分组，并由人类审核确定哪些标签错误。这种方法可以更快地发现标签错误，但是仍然需要大量的人力，多人之间评价基准难以统一的问题也同样存在；自动检测方法则是使用深度学习技术来识别错误标签。例如，可以使用预训练语言模型的方法，自动检测标签错误。这种方法虽然可以节省人力，但数据本身的质量决定了模型的上限，仅仅是利用了大模型较好的鲁棒性和带噪学习能力，进而识别出部分带有错误标签的数据，并且在数据分布不均衡的情况下还是会出现偏差或者过拟合的情况，同时对硬件配置和资金方面的要求也很高。

<...

【技术特征摘要】

1.一种文本数据标签优化方法，其特征在于，包括：

2.根据权利要求1所述的文本数据标签优化方法，其特征在于，步骤s1进一步包括：

3.根据权利要求1所述的文本数据标签优化方法，其特征在于，步骤s2进一步包括：

4.根据权利要求3所述的文本数据标签优化方法，其特征在于，步骤s3进一步包括：

5.根据权利要求4所述的文本数据标签优化方法，其特征在于，步骤s4进一步包括：

6.根据权利要求5所述的文本数据标签优化方法，其特征在于，根据所述带噪数据和所述评测集的共现分布，确定标签优化比例，包括：将共现分布q和共现分布qd非对角的...

【专利技术属性】
技术研发人员：孙铭扬，郑阳，朱玉浩，王伟，田融，
申请(专利权)人：中电鸿信信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人