基于大模型和聚类算法的自动标注方法、装置和设备制造方法及图纸

技术编号：44670228 阅读：26 留言：0更新日期：2025-03-19 20:25

本申请涉及数据处理相关技术领域，具体涉及一种基于大模型和聚类算法的自动标注方法、装置和设备。其中，方法包括：使用自然语言处理技术，对原始数据集进行初步分析，为原始数据集中的每一条数据生成一个初始标签；应用聚类算法对生成的初始标签进行聚类分析，基于标签间的相似性或关联性将初始标签分组，得到多个初始标签组；从每个初始标签组中选择最具代表性的标签，用以替代该初始标签组中的所有标签，以简化标签体系并减少冗余；判断原始数据集中任意两条数据之间的相似度；基于所述相似度对所述标签体系进行调节。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理相关，具体涉及一种基于大模型和聚类算法的自动标注方法、装置和设备。

技术介绍

1、随着技术的飞速发展，数据量呈现出爆炸性增长，这对数据标注的需求也随之增加。

2、然而，目前的数据标注大多依赖于人工批注，这存在明显的效率问题。人工批注不仅耗时耗力，而且受限于人工的速度和准确性，难以满足大规模数据集的需求。此外，人工标注的成本较高，且在处理大量数据时容易出现疲劳和错误，影响标注质量。

技术实现思路

1、有鉴于此，本申请的实施例致力于提供一种基于大模型和聚类算法的自动标注方法、装置和设备。

2、本申请提供一种基于大模型和聚类算法的自动标注方法，包括：

3、使用自然语言处理技术，对原始数据集进行初步分析，为原始数据集中的每一条数据生成一个初始标签；

4、应用聚类算法对生成的初始标签进行聚类分析，基于标签间的相似性或关联性将初始标签分组，得到多个初始标签组；

5、从每个初始标签组中选择最具代表性的标签，用以替代该初始标签组...

【技术保护点】

1.一种基于大模型和聚类算法的自动标注方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型和聚类算法的自动标注方法，其特征在于，所述自然语言处理技术包括：DSPy技术的llama3.1模型对应的技术。

3.根据权利要求1所述的基于大模型和聚类算法的自动标注方法，其特征在于，应用聚类算法对生成的初始标签进行聚类分析，基于标签间的相似性或关联性将初始标签分组，包括：

4.根据权利要求3所述的基于大模型和聚类算法的自动标注方法，其特征在于，确定任意两个初始标签之间的相似度，包括：

5.根据权利要求4所述的基于大模型和聚类算法的自动标注方法...

【技术特征摘要】

1.一种基于大模型和聚类算法的自动标注方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型和聚类算法的自动标注方法，其特征在于，所述自然语言处理技术包括：dspy技术的llama3.1模型对应的技术。

4.根据权利要求3所述的基于大模型和聚类算法的自动标注方法，其特征在于，确定任意两个初始标签之间的相似度，包括：

5.根据权利要求4所述的基于大模型和聚类算法的自动标注方法，其特征在于，所述判断原始数据集中任意两条数据之...

【专利技术属性】
技术研发人员：梁天新，吴欢，朱钦，孙洪静，
申请(专利权)人：北京行云在线软件开发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人