一种数据清洗方法技术

技术编号：16779618 阅读：94 留言：0更新日期：2017-12-12 23:54

本发明专利技术公开了一种数据清洗方法，通过数据导入，将待处理数据经过解析后生成具体的数据存入数据清洗方法；数据预处理，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；数据清洗，将待清洗数据进行聚类；数据缓存，根据用户的操作命令将数据结果缓存起来；所述命令包括待定、确认、移除；确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。解决了数据清洗只清洗重复数据而不清洗相似数据的问题，具有提高数据清洗的广度和深度以及不仅清洗重复数据，也同样清洗相似数据的技术效果。

A method of data cleaning

The invention discloses a data cleaning method, through the data import, data will be processed after parsed to generate specific data in data cleaning method; data preprocessing, data cleaning to generate analytical data will be selected according to the processing rules for data extraction; data cleaning, data cleaning clustering stay; according to the user's data cache, data cache operation command will result; the command, including pending confirmation, confirmation of data cache removal; the results again confirm the data cleaning until the final data to generate related documents required and export file. It solves the problem of data cleaning, which only cleans duplicate data instead of cleaning similar data. It improves the breadth and depth of data cleaning, and not only cleans duplicate data, but also cleans similar data.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据清洗方法
本专利技术涉及企业数据清洗
，特别涉及一种数据清洗方法。
技术介绍
现代社会进入了大数据时代，各类信息记录采用电子介质记录，时间一久各类数据体量庞大，想找出自己相关的数据非常费力；传统的数据清洗方式只清洗重复数据而不清洗相似数据的问题，同时数据清洗的广度和深度也非常有限。
技术实现思路
本申请实施例的目的在于提供一种数据清洗方法，解决了现有技术中数据清洗不能清晰相思数据问题，具有提高数据清洗的广度和深度以及不仅清洗重复数据，也同样清洗相似数据的技术效果。为解决上述技术问题，本专利技术提供了一种数据清洗方法，包括：数据导入，将待处理数据经过解析后生成具体的数据存入数据清洗方法；数据预处理，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；数据清洗，将待清洗数据根据计算相似度公式：映射为多维空间中的向量和并且用这两个向量间的夹角大小来表示向量的相近程度，以此来计算两条文本数据的相似程度；以及：根据上一步得出的向量，运用文本相似度计算公式：得出这两个向量的夹角的COSINE值；以及：将高于用户设定的某一相似度阈值的相关数据进行聚类；数据...
一种数据清洗方法

【技术保护点】
一种数据清洗方法，其特征在于，包括：数据导入，将待处理数据经过解析后生成具体的数据存入数据清洗方法；数据预处理，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；数据清洗，将待清洗数据根据计算相似度公式：

【技术特征摘要】
1.一种数据清洗方法，其特征在于，包括：数据导入，将待处理数据经过解析后生成具体的数据存入数据清洗方法；数据预处理，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；数据清洗，将待清洗数据根据计算相似度公式：映射为多维空间中的向量和并且用这两个向量间的夹角大小来表示向量的相近程度，以此来计算两条文本数据的相似程度；以及：根据上一步得出的向量，运用文本相似度计算公式：

【专利技术属性】
技术研发人员：童雷，杨浩东，张复生，
申请(专利权)人：陕西优百信息技术有限公司，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人