一种数据清洗方法技术

技术编号:16779618 阅读:80 留言:0更新日期:2017-12-12 23:54
本发明专利技术公开了一种数据清洗方法,通过数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据进行聚类;数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。解决了数据清洗只清洗重复数据而不清洗相似数据的问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。

A method of data cleaning

The invention discloses a data cleaning method, through the data import, data will be processed after parsed to generate specific data in data cleaning method; data preprocessing, data cleaning to generate analytical data will be selected according to the processing rules for data extraction; data cleaning, data cleaning clustering stay; according to the user's data cache, data cache operation command will result; the command, including pending confirmation, confirmation of data cache removal; the results again confirm the data cleaning until the final data to generate related documents required and export file. It solves the problem of data cleaning, which only cleans duplicate data instead of cleaning similar data. It improves the breadth and depth of data cleaning, and not only cleans duplicate data, but also cleans similar data.

【技术实现步骤摘要】
一种数据清洗方法
本专利技术涉及企业数据清洗
,特别涉及一种数据清洗方法。
技术介绍
现代社会进入了大数据时代,各类信息记录采用电子介质记录,时间一久各类数据体量庞大,想找出自己相关的数据非常费力;传统的数据清洗方式只清洗重复数据而不清洗相似数据的问题,同时数据清洗的广度和深度也非常有限。
技术实现思路
本申请实施例的目的在于提供一种数据清洗方法,解决了现有技术中数据清洗不能清晰相思数据问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。为解决上述技术问题,本专利技术提供了一种数据清洗方法,包括:数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据根据计算相似度公式:映射为多维空间中的向量和并且用这两个向量间的夹角大小来表示向量的相近程度,以此来计算两条文本数据的相似程度;以及:根据上一步得出的向量,运用文本相似度计算公式:得出这两个向量的夹角的COSINE值;以及:将高于用户设定的某一相似度阈值的相关数据进行聚类;数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;确认数据,对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。进一步地,所述待处理数据格式包括Excel。进一步地,所述处理规则包括拼音相同汉字匹配或学名与俗称匹配或大小写匹配或全角半角匹配或连接符号相似匹配或字符串相似匹配。进一步地,所述数据清洗包括:将待清洗数据导入到搜索应用服务中,然后通过相似度服务模块计算相似度并进行后续的操作。进一步地,所述数据缓存通过构造数据存储结构,并结合数据压缩算法,将磁盘里的数据放入内存。本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:本申请实施例中通过数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据进行聚类;数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件;解决了数据清洗只清洗重复数据而不清洗相似数据的问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。附图说明图1是本申请实施例提供的清洗流程框图;图2是本申请实施例提供的存储结构数据索引树示例结构图。具体实施方式本申请实施例的目的在于提供一种数据清洗方法,解决了现有技术中数据清洗不能清晰相思数据问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。为解决上述技术问题,本申请实施例提供技术方案的总体思路如下:数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据进行聚类;数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。为了更好的理解上述技术方案,下面将结合说明书附图以及具体实施方式对上述技术方案进行进行详细说明。实施例1,结合附图1、2描述。一种数据清洗方法,包括:S01.数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;S02.数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;S03.数据清洗,将待清洗数据根据计算相似度公式:映射为多维空间中的向量和并且用这两个向量间的夹角大小来表示向量的相近程度,以此来计算两条文本数据的相似程度;以及:根据上一步得出的向量,运用文本相似度计算公式:得出这两个向量的夹角的COSINE值;以及:将高于用户设定的某一相似度阈值的相关数据进行聚类;S04.数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;S05.确认数据,对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。本申请实施例中通过对数据的解析、预设规则提取数据、数据聚类、数据缓存、再次清洗的技术手段,解决了数据清洗只清洗重复数据而不清洗相似数据的问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。进一步地,所述待处理数据格式包括Excel。进一步地,所述处理规则包括拼音相同汉字匹配或学名与俗称匹配或大小写匹配或全角半角匹配或连接符号相似匹配或字符串相似匹配。进一步地,所述数据清洗包括:将待清洗数据导入到搜索应用服务中,然后通过相似度服务模块计算相似度并进行后续的操作。进一步地,所述数据缓存通过构造数据存储结构,并结合数据压缩算法,将磁盘里的数据放入内存。进一步地,数据导入为数据导入模块,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理为数据处理模块,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗为数据清洗模块,将待清洗数据进行聚类;数据缓存数据缓存模块,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;确认数据为数据确认模块,对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。本申请实施例中的数据清洗方法还将相关的相似数据进行聚合展示,同时在数据预处理阶段,数据清洗方法内置了多种变换规则如拼音相同汉字匹配、学名与俗称匹配、大小写匹配、全角半角匹配、连接符号相似匹配,字符串相似匹配,通过这些规则可以将源数据根据需要进行多种变换,用于提高数据清洗的广度和深度,最后基于词典的分词也将相同的但是词序不同的数据进行了清洗。与其他数据清洗工具相比,本数据清洗方法提高了数据清洗的广度:不仅清洗重复数据,也同样清洗相似数据;本数据清洗方法提高了数据清洗的深度:数据清洗方法内置的多种数据变换规则扩大了数据清洗的适用性范围,同时对于清洗数据的相似度对比是基于词典分词的,并加以相似度计算的检测,能够有效提高数据准确率;本数据清洗方法还提高了数据清洗的效率:对待清洗的数据先进行搜索服务的检索能有效的缩小相似度比对的范围,减小计算规模,缩短清洗时间。实施例2,结合附图1、2描述。在实施例1的基础上,本申请实施例中数据清洗方法可导入Excel等格式的数据文件,经过解析生成具体数据存入数据清洗方法;在数据预处理阶段,2.数据清洗方法根据用户所选规则(拼音相同汉字匹配,学名与俗称匹配,大小写匹配,全角半角匹配,连接符号相似匹配,字符串相似匹配等)进行数据的预处理生成待清洗的数据;清洗功能是本数据清洗方法最核心的模块,它将待清洗数据根据特定算法进行相似度检测,并将高于用户设定的某一相似度阈值的相关数据进行聚类;数据清洗方法根据用户的一系列操作(待定,确认,移除等)将结果缓存起来,之后可以进行同一批源数据的重复清洗;直到确认数据后,才会生成最终所需的数据关系文件并导出如Excel等格式的文件。本数据清洗方法最核心的功能就是清洗数据阶段。主要目的就是将杂本文档来自技高网...
一种数据清洗方法

【技术保护点】
一种数据清洗方法,其特征在于,包括:数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据根据计算相似度公式:

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据根据计算相似度公式:映射为多维空间中的向量和并且用这两个向量间的夹角大小来表示向量的相近程度,以此来计算两条文本数据的相似程度;以及:根据上一步得出的向量,运用文本相似度计算公式:

【专利技术属性】
技术研发人员:童雷杨浩东张复生
申请(专利权)人:陕西优百信息技术有限公司
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1