System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于煤矿的数据标注质量优化的自动化方法及系统技术方案_技高网

一种基于煤矿的数据标注质量优化的自动化方法及系统技术方案

技术编号:40842114 阅读:6 留言:0更新日期:2024-04-01 15:09
本发明专利技术涉及数据标准技术领域,特别是涉及一种基于煤矿的数据标注质量优化的自动化方法包括以下具体步骤:对输入的数据进行预处理;将预处理后的数据引入检测器和分类器进行数据筛选;划分出不同等级的样本质量;根据需求选择对应的样本操作进行第一轮数据标注;在第一轮数据标注中自动生成初始标注,并在标注后显示所标注物体的目标值分数;人工设定目标值分数,对低于目标值分数的数据以及图片中没有目标物体的数据筛选出来进行第二轮数据标注;在第二轮数据标注中,再次检测目标物体进行标注处理以修复上一轮可能出现的误标和漏标;对前两轮都无法标注的图片进行人工核验和微调标注结果;进行数据交付。本发明专利技术提高数据标注的质量和效率。

【技术实现步骤摘要】

本专利技术涉及数据标准,特别是涉及一种基于煤矿的数据标注质量优化的自动化方法。


技术介绍

1、数据引领着ai的发展方向,优质的数据来源变得尤为重要。自动化标注利用先进的计算机视觉、自然语言处理和机器学习技术,实现对图像、文本、语音和时间序列等数据的自动标签添加。图像识别和分割算法如yolo和mask r-cnn能够自动检测和标注图像中的目标,nlp模型如bert和gpt可实现文本自动标注,而自动语音识别技术处理语音数据,强化学习、半监督学习和自监督学习方法通过自动生成标签或与人工智能辅助标注结合,提高了标注效率。这些技术对于大规模数据集的标注任务具有重要意义,为机器学习和深度学习模型提供了必要的有标签训练数据;

2、随着大数据、云计算、互联网、物联网等信息技术的发展,人工智能技术在各行各业迎来爆发式增长的新高潮。在煤矿产业这一方面,矿工安全及矿场环境等至关重要,使用人工智能应用于该场景,为煤矿企业提前进行风险警告及安全保障,但是目前市场上针对煤矿场景下的标注领域寥寥无几,即使有标注需求也存在较大的差异,标注的场景复杂多变,多数现有的标注软件支持的数据模态有限,且功能单一,缺乏灵活性,培训成本高,在面临大规模、复杂的标注需求时,如一些标注平台不能处理视频帧标注或多任务密集标注。


技术实现思路

1、本专利技术目的是针对
技术介绍
中存在的问题,提出一种基于煤矿的数据标注质量优化的自动化方法。

2、本专利技术的技术方案,一种基于煤矿的数据标注质量优化的自动化方法,包括以下具体步骤:

3、s1、对输入的数据进行预处理;

4、s2、将预处理后的数据引入检测器和分类器进行数据筛选;划分出不同等级的样本质量;

5、s3、根据需求选择对应的样本操作进行第一轮数据标注;

6、s4、在第一轮数据标注中自动生成初始标注,并在标注后显示所标注物体的目标值分数;

7、s5、人工设定目标值分数,对低于目标值分数的数据以及图片中没有目标物体的数据筛选出来进行第二轮数据标注;

8、s6、在第二轮数据标注中,再次检测目标物体进行标注处理以修复上一轮可能出现的误标和漏标;

9、s7、对前两轮都无法标注的图片进行人工核验和微调标注结果;

10、s8、进行数据交付。

11、s1中在数据预处理的过程中对输入的数据进行数据扩充以及数据增强。

12、优选的,数据扩充过程中使用位置操作,调整像素的位置,实现目标物体在图片中的位置变化。

13、优选的,数据增强的方法包括图像水平/竖直翻转、随机抠取、尺度变换和旋转;增强训练数据提高模型的泛化能力。

14、优选的,数据增强策略可根据数据属性不同进行针对性的数据增强策略。

15、s2中人工设定所需要的检测或分类阈值,对数据进行挖掘;并根据人工设定的标准划分出不同等级的样本质量。

16、数据标注的过程中可选择不同的标注类型,并可进行自定义修改标签;

17、标注类型包括xml、json、文本或语音。

18、优选的,s8中,数据交付的过程中对数据进行加密,并输出指定的格式;

19、数据的格式包括json、utf-8文本或excel。

20、一种基于煤矿的数据标注质量优化的自动化系统,实现上述的方法,包括数据输入模块、预处理模块、数据标注模块、人工处理模块、数据加密模块、数据输出模块和参数调整模块;

21、其中,数据输入模块用于输入原始的待标注的数据;

22、预处理模块对输入的数据进行数据扩充以及数据增强处理;

23、参数调整模块用于设定所需要的检测或分类阈值以及目标分数值;

24、数据标注模块用于对数据依次进行两轮标注;

25、人工处理模块用于对前两轮无法标注的图片进行人工核验和微调标注结果;

26、数据输出模块用于输出标注后的结果;

27、数据加密模块用于对输出结果进行加密处理。

28、与现有技术相比,本专利技术具有如下有益的技术效果:

29、本专利技术通过三轮迭代的标注流程不仅实现了数据标注这一功能,还可以对数据进行预处理,数据质量的筛选,可以对所需要的数据进行选择性的标注,最后在标注成功后可以等比例划分数据集。提高标注效率、降低成本,并为机器学习模型提供高质量的训练数据。

本文档来自技高网...

【技术保护点】

1.一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,包括以下具体步骤:

2.根据权利要求1所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,S1中在数据预处理的过程中对输入的数据进行数据扩充以及数据增强。

3.根据权利要求2所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,数据扩充过程中使用位置操作,调整像素的位置,实现目标物体在图片中的位置变化。

4.根据权利要求2所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,数据增强的方法包括图像水平/竖直翻转、随机抠取、尺度变换和旋转;增强训练数据提高模型的泛化能力。

5.根据权利要求2所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,数据增强策略可根据数据属性不同进行针对性的数据增强策略。

6.根据权利要求1所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,S2中人工设定所需要的检测或分类阈值,对数据进行挖掘;并根据人工设定的标准划分出不同等级的样本质量。

7.根据权利要求1所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,数据标注的过程中可选择不同的标注类型,并可进行自定义修改标签;

8.根据权利要求1所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,S8中,数据交付的过程中对数据进行加密,并输出指定的格式;

9.一种基于煤矿的数据标注质量优化的自动化系统,实现如权利要求1-8任一项所述的方法,其特征在于,包括数据输入模块、预处理模块、数据标注模块、人工处理模块、数据加密模块、数据输出模块和参数调整模块;

...

【技术特征摘要】

1.一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,包括以下具体步骤:

2.根据权利要求1所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,s1中在数据预处理的过程中对输入的数据进行数据扩充以及数据增强。

3.根据权利要求2所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,数据扩充过程中使用位置操作,调整像素的位置,实现目标物体在图片中的位置变化。

4.根据权利要求2所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,数据增强的方法包括图像水平/竖直翻转、随机抠取、尺度变换和旋转;增强训练数据提高模型的泛化能力。

5.根据权利要求2所述的一种基于煤矿的数据标注质量优化的自动化方法,其特征在于,数据增强策略可根据数据属性不同进行针对性...

【专利技术属性】
技术研发人员:杨帆任慧敏孔皓
申请(专利权)人:小视科技江苏股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1