一种基于函数依赖的数据清洗方法技术

技术编号：13105613 阅读：40 留言：0更新日期：2016-03-31 11:53

本发明专利技术公开了一种基于函数依赖的数据清洗方法，其特征在于，包括：对原始数据进行数据转换，以将其不同类型的属性全部转换为数值型属性；对于数据转换后的原始数据，提取其属性的自依赖函数特征；对于数据转换后的原始数据，提取其属性之间的互依赖函数；根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性及样本，并根据该属性及样本形成相关清洗决策依据，判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗，若采用自依赖函数清洗，则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复，并加上白噪声作为随机扰动。本发明专利技术能够解决大数据中“脏数据”问题，为后续的大数据分析挖掘提供高质量的数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据处理领域，更具体地，设及
技术介绍
随着移动互联网和信息技术的高速发展，政府、企业和各行业领域的数据WTB/s 的速度增长，人们生活、企业决策和精准服务对数据的依赖越来越重，对数据质量的要求也越来越高，任何"脏数据"都将对数据分析和目标决策产生影响。随着"数据驱动运营"的意识在各行各业得到广泛认识和普及，人们在数据分析和挖掘中花费的精力越来越大。其中花费在"脏数据"处理上的时间超过80%。导致"脏数据"的原因包括系统故障、跨系统、多源数据、数据标准变迁、录入差错和数据稀疏等，最终导致数据缺失、数据错误、数据不一致等数据质量问题。鉴于此，近年来，数据质量提升的研究和应用逐渐增多。有采用预设规则来清洗不同域数据，基于权重和类别排序进行清洗，基于阔值和倍率为参数的横向清洗，基于时空因素的轨迹数据清洗。然而，上述运些研究和方法在应用场景方面具有一定的局限性，要么受制于数据本身的时空特性和重要程度，要么受专家经验影响较多。
技术实现思路
针对现有技术的W上缺陷或改进需求，本专利技术提供了一种基于函数依赖的数据清洗方法，其目的在于，通过依靠数据本身特征，先将待分析数据通过联合集成，然后提取不同属性间的函数依赖关系，根据函数依赖关系挖掘待清洗属性，并对此属性进行清洗和修复，同时能够解决大数据中"脏数据"问题，为后续的大数据分析挖掘提供高质量的数据。为实现上述目的，按照本专利技术的一个方面，提供了一种基于函数依赖的数据清洗方法，包括W下步骤： (1)对原始数据进行数据转换，W将其不同类型的属性全部转换为数值型...

【技术保护点】
一种基于函数依赖的数据清洗方法，其特征在于，包括以下步骤：(1)对原始数据进行数据转换，以将其不同类型的属性全部转换为数值型属性；(2)对于数据转换后的原始数据，提取其属性的自依赖函数特征；(3)对于数据转换后的原始数据，提取其属性之间的互依赖函数；(4)根据步骤(2)的自依赖函数特征和步骤(3)的互依赖函数确定需要进行清洗及待清洗的属性及样本，并根据该属性及样本形成相关清洗决策依据。(5)判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗，若采用自依赖函数清洗，则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复，并加上白噪声作为随机扰动；若采用互依赖函数清洗，则将不符合条件的样本根据互依赖函数确定的相关函数，以已校准的属性为基础对另一属性进行校准恢复。

【技术特征摘要】

【专利技术属性】
技术研发人员：莫益军，曾志华，谭辉，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人