【技术实现步骤摘要】
基于大数据的EXCEL数据源清洗方法、系统、电子设备和存储介质
[0001]本专利技术涉及数据清洗
,尤其涉及一种基于大数据的EXCEL数据源清洗方法、系统、电子设备和存储介质。
技术介绍
[0002]智慧城市的建设需要大数据技术的支持,当前大数据领域主要针对的是数据的挖掘、分析和使用,而将数据标准性和准确性的处理交给了用户,这样就给用户带来了巨大的工作量。并且,用户花费大量的时间与精力,手工整理出来的数据的准确率还不一定高。
[0003]各行各业都拥有大量、不同类型的数据,而这些数据又存在着多种多样的问题,对数据的准确使用造成了很大的障碍。为了消除障碍,就需要对数据进行清洗,从而获得准确而优质的数据。
[0004]各行业数据的存储方式主要是EXCEL和各种数据库,存储的结构也是各种各样,如果要进行数据清洗,就需要对各种不同结构和类型的数据做人工梳理,造成了人工成本的浪费。
[0005] EXCEL中大部分数据的质量和可信度都非常差。影响了对数据信息的分析和发掘,对决策提供了错误的参考。 >
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的EXCEL数据源清洗方法,其特征在于,包括:解析并结构化EXCEL数据源;对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理;对标准化后的EXCEL数据源进行清洗;根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。2.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法,其特征在于,解析并结构化EXCEL数据源,包括:上传EXCEL数据源,指定数据源中标题行数;根据标题行数区分标题行和数据区;根据标题最后一行自动构建数据模型,定义相应字段名称;建立字段与标题的对应关系;将EXCEL数据源的数据存入数据库。3.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法,其特征在于,对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。4.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法,其特征在于,对标准化后的EXCEL数据源进行清洗,包括:对EXCEL数据源中的数据进行预处理;构建知识库模型,将预处理后的EXCEL数据源中的数据与知识库模型中储存的非标准数据作对照,如果相等,则确定EXCEL数据源中的数据为对应的标准数据;构建设置有标准数据的标准库,对EXCEL数据源中的数据进行深层清洗后确认与标准库中的标准数据相似的数据,并将其替换为标准库中的标准数据。5.根据权利要求4所述的基于大数据的EXCEL数据源清洗方法,其特征在于,所述预处理包括:使用JAVA中去除前后空格的方法去除数据中的前后空格;使用JAVA中字符替换的方法,将空格替换为符号,去除字符串中的所有空格;使用JAVA中小写转大写的方法,把数据的小写字母...
【专利技术属性】
技术研发人员:孙东祥,常卫涛,张坤,郑媛媛,王茹,
申请(专利权)人:航天神舟智慧系统技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。