一种不均衡数据的异常识别与修复方法及系统技术方案

技术编号:40777328 阅读:16 留言:0更新日期:2024-03-25 20:23
本发明专利技术属于数据治理技术领域,具体涉及一种不均衡数据的异常识别与修复方法及系统。所述方法包括不均衡混合数据聚类分析、异常数据识别与特征定位、异常数据修复三部分内容,首先提出了基于代价优化的混合聚类算法,解决不均衡数据集下混合数据的有效聚类问题,实现同一聚类簇内数据具有高度相似性;其次提出一种基于孤立森林的异常特征定位算法,解决以往无监督异常检测算法仅能定位到异常记录而无法识别记录中具体异常特征的问题,实现问题数据的准确定位;最后提出基于异构变分自编码器的数据修复模型,实现对混合数据异常的可信修复,解决以往人工智能方法在数据修复过程中受数据分布和噪声数据干扰过大导致修复数据可信度不高的问题。

【技术实现步骤摘要】

本专利技术属于数据治理,具体涉及一种不均衡数据的异常识别与修复方法及系统


技术介绍

1、在数据治理领域,智能化的准确识别并定位待治理数据中的异常数据一直是关键需求,而能够对识别的异常数据进行智能修复更是在提高数据供给质量、构建数据要素市场背景下对数据治理工作提出的更高需求。

2、在现有数据治理方案中,对于异常数据的识别与修复,最常见的是数据拥有方基于业务理解,整理出相关的数据治理规则去识别异常数据,对于异常数据的修复,也通常是将问题数据退回到数据生产部门由业务人员进行人工修正。近年来随着人工智能技术的发展,很多异常检测的算法被应用到了数据治理领域进行异常数据的自动识别,偶尔有研究利用神经网络进行异常数据的修复。但是已有各种异常检测等方法都以待治理数据的服从某种分布为前提,因此在现实中相关算法的异常检测与数据修复能力容易受到据分布与噪声数据的影响,效果远不如预期。

3、本专利技术目标是通过算法与模型的创新将现有通过人工开展异常数据筛查和修复的工作智能化、自动化,解决现有方案在异常识别、问题修复等方面的不足。通过分析可知,现有方案关键本文档来自技高网...

【技术保护点】

1.一种不均衡数据的异常识别与修复方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种不均衡数据的异常识别与修复方法,其特征在于,所述步骤2具体包括:

3.根据权利要求1所述的一种不均衡数据的异常识别与修复方法,其特征在于,所述步骤3包括:

4.根据权利要求3所述的一种不均衡数据的异常识别与修复方法,其特征在于,所述步骤3-2中构建基于孤立森林的异常特征定位模型,具体包括:

5.根据权利要求3所述的一种不均衡数据的异常识别与修复方法,其特征在于,所述步骤3-4中定位异常特征,具体包括:

6.根据权利要求5所述的一种不均...

【技术特征摘要】

1.一种不均衡数据的异常识别与修复方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种不均衡数据的异常识别与修复方法,其特征在于,所述步骤2具体包括:

3.根据权利要求1所述的一种不均衡数据的异常识别与修复方法,其特征在于,所述步骤3包括:

4.根据权利要求3所述的一种不均衡数据的异常识别与修复方法,其特征在于,所述步骤3-2中构建基于孤立森林的异常特征定位...

【专利技术属性】
技术研发人员:于瑞强李锐喻魏贤李晓宇闫谷丰杨玉传杜星学刘效强李慧霖
申请(专利权)人:烟台海颐软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1