当前位置: 首页 > 专利查询>浙江大学专利>正文

面向下游分析反馈的数据清洗方法及系统、电子设备技术方案

技术编号:43745069 阅读:21 留言:0更新日期:2024-12-20 13:04
本发明专利技术公开了一种面向下游分析反馈的数据清洗方法,包括:构建多层感知机分类器执行分类,生成软标签;脏数据结合软标签输入错误检测模型,输出特征向量形式的初步错误检测结果,通过聚类加权得聚类结果;选部分数据训练,分层抽样后输入多个同构错误检测模型,投票集成结果;利用交叉注意力机制的神经网络修补模型处理错误检测输出和脏数据,经特征提取、优化融合产出修正数据;下游模型反馈优化修补过程,获最终清洗数据。该方法主要通过基于深度学习的方法,对数据进行检测,并修复其中的脏数据,使得数据更加准确和可信。该方法能够根据下游任务的需求,对数据进行定制化处理,确保清洗后的数据能够直接应用于这些任务。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种面向下游分析反馈的数据清洗方法及系统、电子设备


技术介绍

1、随着大数据技术的发展,数据量呈爆炸式增长,数据来源多样化,数据的复杂度和多样性不断提高,数据质量直接影响到数据分析和决策的准确性和有效性。高质量数据是数据分析的基础,但是现实中的数据往往存在各种问题,比如缺失值、异常值、重复值、不一致性等,存在这些问题的数据通常被称为“脏数据”。脏数据会影响数据分析的准确性和可信度,甚至导致错误的结论和决策。

2、现有的数据清洗方法往往未能充分考虑到下游任务的特定需求。这种缺乏针对性的处理方式可能导致清洗后的数据仍然无法满足特定分析的精确要求,从而影响分析结果的质量和可信度。现有方法通常侧重于数据的一般性清理和标准化,而忽略了数据在具体分析任务中的适用性和有效性。为了提高数据清洗的针对性和实用性,亟需研究和开发面向下游分析任务反馈的数据清洗模型。这些模型应当能够根据下游任务的具体要求,对数据进行定制化处理,确保清洗后的数据不仅具备高质量和一致性,还能够直接满足下游分析任务的需求。


技术实现本文档来自技高网...

【技术保护点】

1.一种面向下游分析反馈的数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述的多层感知机分类器包含输入层、输出层、归一化层、Dropout层和输出层;当下游模型为错误检测提供指导时,输出层将直接输出所有分类结果的置信度作为软标签;当下游模型进行下游任务或者为补全模型提供反馈时,输出层还需要经过SoftMax操作输出具体的分类;在进行回归任务时,输出层将额外连接到一个输出节点来输出回归值,此时的输出层将退化为最后一个隐藏层。

3.根据权利要求1所述的方法,其特征在于,S3具体包括:

4.根据权利要求1所述的方法,其特征在于,...

【技术特征摘要】

1.一种面向下游分析反馈的数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述的多层感知机分类器包含输入层、输出层、归一化层、dropout层和输出层;当下游模型为错误检测提供指导时,输出层将直接输出所有分类结果的置信度作为软标签;当下游模型进行下游任务或者为补全模型提供反馈时,输出层还需要经过softmax操作输出具体的分类;在进行回归任务时,输出层将额外连接到一个输出节点来输出回归值,此时的输出层将退化为最后一个隐藏层。

3.根据权利要求1所述的方法,其特征在于,s3具体包括:

4.根据权利要求1所述的方法,其特征在于,s4具体包括:

5.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:苗晓晔杨再润吴洋洋尹建伟
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1