一种针对不平衡噪声数据的自适应引导的数据处理方法及系统技术方案

技术编号:41408136 阅读:25 留言:0更新日期:2024-05-20 19:34
本发明专利技术提供一种针对不平衡噪声数据的自适应引导的数据处理方法及系统,涉及数据处理领域,该方法包括:获取待处理的不平衡数据集,确定至少一个第一数量类型的样本集和至少一个第二数量类型的样本集;基于待处理的不平衡数据集和待处理的不平衡数据集对应的完全随机决策树的目标数量,构建多棵完全随机决策树,剔除待处理的不平衡数据集中的噪声第一工业产品样本;基于多棵完全随机决策树,确定去噪后的第二数量类型的样本集包括的每个第一工业产品样本的目标采样空间,生成至少一个第二工业产品样本,具有减轻目前过采样机制的盲目性,解决用于工业产品表面缺陷检测的分类器的样本数据集中类的分布不平衡的问题的优点。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别涉及一种针对不平衡噪声数据的自适应引导的数据处理方法及系统


技术介绍

1、在工业生产中,工业产品的质量问题主要表现在生产材料缺陷、安装配置缺陷、各种表面缺陷等问题上,其中表面缺陷是最主要的表现形式。人工目视检测工业产品的表面缺陷的方式具有效率低,成本高等缺点,另外在对人体有害的生产环境中,人工目视检测失效。因此,自动化的工业产品表面缺陷检测算法被开发及广泛应用。训练用于工业产品表面缺陷检测的分类器的样本数据集中类的分布是不平衡的且不可避免存在噪声。这种不平衡的数据分布可能导致传统算法过度偏向样本较多的类,而对样本较少的类表现不佳,例如,将某种罕见的表面缺陷识别为常见的表面缺陷。近年来,针对不平衡噪声数据问题进行了广泛的研究,开发了许多可行的算法。它们大致可分为三类,包括基于成本敏感的方法、基于集成学习的方法和基于重采样的方法。基于代价敏感的方法通过为不同的类设置不同的错分类代价来提高分类器的性能,从而使分类器更多地集中在少数类上。然而,为不同的数据集和任务确定合理的分类成本仍然是一个复杂的问题。基于集成学习的方法将多个弱分本文档来自技高网...

【技术保护点】

1.一种针对不平衡噪声数据的自适应引导的数据处理方法,其特征在于,包括:

2.根据权利要求1所述的一种针对不平衡噪声数据的自适应引导的数据处理方法,其特征在于,所述确定所述待处理的不平衡数据集对应的完全随机决策树的目标数量,包括:

3.根据权利要求2所述的一种针对不平衡噪声数据的自适应引导的数据处理方法,其特征在于,通过以下公式基于所述待处理的不平衡数据集包括的第一工业产品样本的总数、每个所述第一数量类型的样本集包括的第一工业产品样本的总数、每个所述第二数量类型的样本集包括的第一工业产品样本的总数及每个所述第一工业产品样本的样本维度,确定所述待处理的不平衡数据集对...

【技术特征摘要】

1.一种针对不平衡噪声数据的自适应引导的数据处理方法,其特征在于,包括:

2.根据权利要求1所述的一种针对不平衡噪声数据的自适应引导的数据处理方法,其特征在于,所述确定所述待处理的不平衡数据集对应的完全随机决策树的目标数量,包括:

3.根据权利要求2所述的一种针对不平衡噪声数据的自适应引导的数据处理方法,其特征在于,通过以下公式基于所述待处理的不平衡数据集包括的第一工业产品样本的总数、每个所述第一数量类型的样本集包括的第一工业产品样本的总数、每个所述第二数量类型的样本集包括的第一工业产品样本的总数及每个所述第一工业产品样本的样本维度,确定所述待处理的不平衡数据集对应的完全随机决策树的目标数量:

4.根据权利要求1所述的一种针对不平衡噪声数据的自适应引导的数据处理方法,其特征在于,所述基于所述待处理的不平衡数据集和所述待处理的不平衡数据集对应的完全随机决策树的目标数量,构建多棵完全随机决策树,包括:

5.根据权利要求1所述的一种针对不平衡噪声数据的自适应引导的数据处理方法,其特征在于,所述基于所述多棵完全随机决策树,剔除所述待处理的不平衡数据集中的...

【专利技术属性】
技术研发人员:赵涛李世剑邓毅
申请(专利权)人:重庆文化艺术职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1