【技术实现步骤摘要】
本专利技术涉及数据处理领域,尤其涉及一种基于多模型协作的数据标注方法、系统、装置和存储介质。
技术介绍
1、随着大数据和人工智能技术的快速发展,数据的收集、处理和利用已成为各行各业智能化应用的核心。大规模数据的产生和广泛应用推动了数据处理技术的创新,尤其在自然语言处理、图像识别、语音识别等领域,自动化标注和数据清洗成为提高模型性能和效率的关键环节。
2、然而,现有的数据处理方法在面对大规模复杂数据时,往往存在效率低和准确性不足的问题。传统的数据处理方法主要依赖人工标注和基本统计分析,不仅耗时耗力,而且难以应对数据的多样性和复杂性。尤其是数据标注技术,仍然依赖人工标注,这种方式效率较低且容易受到人为偏差的影响。在大规模数据处理的场景中,人工标注的成本和时间开销较高,难以满足实时和大规模数据处理的需求。
技术实现思路
1、本专利技术的目的在于提供一种基于多模型协作的数据标注方法、系统、装置和存储介质,用于解决现有技术中数据标注效率低、准确性差以及人工标注成本高等技术问题。
< ...【技术保护点】
1.一种基于多模型协作的数据标注方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模型协作的数据标注方法,其特征在于,所述对原始数据进行清洗和格式转换,生成结构化数据的具体步骤包括:
3.根据权利要求1所述的基于多模型协作的数据标注方法,其特征在于,所述采用预训练模型对所述结构化数据进行筛选,并对筛选出的目标数据进行人工复核,得到训练数据集的具体步骤包括:
4.根据权利要求1所述的基于多模型协作的数据标注方法,其特征在于,所述在测试数据集上运行训练后的标注模型,对错误标注的数据进行筛查和人工修正,并将修正后的数据用于模
...【技术特征摘要】
1.一种基于多模型协作的数据标注方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模型协作的数据标注方法,其特征在于,所述对原始数据进行清洗和格式转换,生成结构化数据的具体步骤包括:
3.根据权利要求1所述的基于多模型协作的数据标注方法,其特征在于,所述采用预训练模型对所述结构化数据进行筛选,并对筛选出的目标数据进行人工复核,得到训练数据集的具体步骤包括:
4.根据权利要求1所述的基于多模型协作的数据标注方法,其特征在于,所述在测试数据集上运行训练后的标注模型,对错误标注的数据进行筛查和人工修正,并将修正后的数据用于模型的再次训练的具体步骤包括:
5.根据权利要求1所述的基于多模型协作的数据标注方法,其特征在于,所述对新增数据集进行二分类筛选,并基于向量化处理和相似度计算筛选低相似度数据,将所述低相似度数据回流至所述训练数据集的具体步骤包括:
【专利技术属性】
技术研发人员:潘磊,樊帅,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。