【技术实现步骤摘要】
本申请涉及数据处理相关,具体涉及一种基于大模型和聚类算法的自动标注方法、装置和设备。
技术介绍
1、随着技术的飞速发展,数据量呈现出爆炸性增长,这对数据标注的需求也随之增加。
2、然而,目前的数据标注大多依赖于人工批注,这存在明显的效率问题。人工批注不仅耗时耗力,而且受限于人工的速度和准确性,难以满足大规模数据集的需求。此外,人工标注的成本较高,且在处理大量数据时容易出现疲劳和错误,影响标注质量。
技术实现思路
1、有鉴于此,本申请的实施例致力于提供一种基于大模型和聚类算法的自动标注方法、装置和设备。
2、本申请提供一种基于大模型和聚类算法的自动标注方法,包括:
3、使用自然语言处理技术,对原始数据集进行初步分析,为原始数据集中的每一条数据生成一个初始标签;
4、应用聚类算法对生成的初始标签进行聚类分析,基于标签间的相似性或关联性将初始标签分组,得到多个初始标签组;
5、从每个初始标签组中选择最具代表性的标签,用以替代该初始标签组
...【技术保护点】
1.一种基于大模型和聚类算法的自动标注方法,其特征在于,包括:
2.根据权利要求1所述的基于大模型和聚类算法的自动标注方法,其特征在于,所述自然语言处理技术包括:DSPy技术的llama3.1模型对应的技术。
3.根据权利要求1所述的基于大模型和聚类算法的自动标注方法,其特征在于,应用聚类算法对生成的初始标签进行聚类分析,基于标签间的相似性或关联性将初始标签分组,包括:
4.根据权利要求3所述的基于大模型和聚类算法的自动标注方法,其特征在于,确定任意两个初始标签之间的相似度,包括:
5.根据权利要求4所述的基于大模型和聚
...【技术特征摘要】
1.一种基于大模型和聚类算法的自动标注方法,其特征在于,包括:
2.根据权利要求1所述的基于大模型和聚类算法的自动标注方法,其特征在于,所述自然语言处理技术包括:dspy技术的llama3.1模型对应的技术。
3.根据权利要求1所述的基于大模型和聚类算法的自动标注方法,其特征在于,应用聚类算法对生成的初始标签进行聚类分析,基于标签间的相似性或关联性将初始标签分组,包括:
4.根据权利要求3所述的基于大模型和聚类算法的自动标注方法,其特征在于,确定任意两个初始标签之间的相似度,包括:
5.根据权利要求4所述的基于大模型和聚类算法的自动标注方法,其特征在于,所述判断原始数据集中任意两条数据之...
【专利技术属性】
技术研发人员:梁天新,吴欢,朱钦,孙洪静,
申请(专利权)人:北京行云在线软件开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。