【技术实现步骤摘要】
一种标注数据质检方法、终端设备及存储介质
[0001]本专利技术涉及数据处理领域,尤其涉及一种标注数据质检方法、终端设备及存储介质。
技术介绍
[0002]如何高效获取大量的优质标注数据,一直以来是自然语言处理领域的一个非常重要的课题。人工智能依赖着大量的优质标注数据,这些标注数据的数量及其优质程度往往具有不亚于人工智能算法本身的影响。然而,在分类任务中,由于语言的丰富多变,标注规范往往难以全面覆盖;而且标注人员对规范的理解也具有众多主观性,经常会出现十分相似的数据分成不同的类别的情况,而这显然是不合理的,这种带有巨大噪声的数据势必会对算法的识别结果带来不良影响。
[0003]现在的常见的分类任务质检方法为:(1)由人工智能训练师在数据库中随机采样一部分标注数据进行重标,并且认为其标注结果为标准答案,对标注数据的准确率进行分析;(2)利用无监督的聚类方式,利用泛化性更为强大的预训练语言模型,利用标注数据对其进行微调,将微调后的模型用于预测标注数据。对预测得到的分类结果与人工标注的结果进行比对,挑选出预测类别不同的数据 ...
【技术保护点】
【技术特征摘要】
1.一种标注数据质检方法,其特征在于,包括以下步骤:S1:采集待检测标注数据存入标注数据库内;S2:基于局部敏感哈希算法和语义相似度计算算法,获取标注数据库中每个数据的形式相似且语义相似的数据并组成相似数据对;S3:提取每个相似数据对中各数据的分类标签并判断是否相同,将分类标签不同时的对应的相似数据对中的两个数据作为错误标注数据。2.根据权利要求1所述的标注数据质检方法,其特征在于:步骤S1中还包括将标注数据进行数据清洗后再存入标注数据库内。3.根据权利要求1所述的标注数据质检方法,其特征在于:步骤S2中具体过程包括:S21:通过局部敏感哈希算法计算标注数据库中每个数据的哈希值,并存入哈希数据库内;S22:遍历标注数据库中所有数据,...
【专利技术属性】
技术研发人员:江豪,肖龙源,邹辉,李威,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。