一种Excel数据清洗方法技术

技术编号:38843505 阅读:21 留言:0更新日期:2023-09-17 09:55
本发明专利技术提供了一种Excel数据清洗方法,获取Excel中各列或各行表头内容;根据所述表头内容,创建对应的表头属性信息;获取Excel中各列或各行的数据内容;根据所述数据内容,获取对应的数据属性信息;将所述表头属性信息与所述数据属性信息进行比对,根据比对结果,清洗Excel数据,可便于实现Excel数据的快速清洗。可便于实现Excel数据的快速清洗。可便于实现Excel数据的快速清洗。

【技术实现步骤摘要】
一种Excel数据清洗方法


[0001]本专利技术属于计算机
,尤其是涉及一种Excel数据清洗方法。

技术介绍

[0002]当前业务场景越来越多的数据采集是通过Excel文件方式,比如从业务系统Excel导出的数据,从现场录入的Excel数据,平台往往要针对这些Excel数据进行数据汇总入库然后进行数据分析形成业务数据提供使用。而在Excel数据进行汇总入库时,往往会出现Excel数据内容不规范,导入失败,由于Excel数据量较大,用户也不易发现错误数据。

技术实现思路

[0003]有鉴于此,为克服上述缺陷,本专利技术旨在提出一种Excel数据清洗方法。
[0004]为达到上述目的,本专利技术的技术方案是这样实现的:
[0005]第一方面,本专利技术提供了一种Excel数据清洗方法,包括:
[0006]获取Excel中各列或各行表头内容;
[0007]根据所述表头内容,创建对应的表头属性信息;
[0008]获取Excel中各列或各行的数据内容;
[0009]根据所述数据内容,获取对应的数据属性信息;
[0010]将所述表头属性信息与所述数据属性信息进行比对,根据比对结果,清洗Excel数据。
[0011]进一步的,所述获取Excel中各列或各行表头内容,包括:
[0012]采用关键词识别或数据爬取的形式获取表头内容。
[0013]进一步的,所述表头属性信息为字符串、日期、数字或可选值。
[0014]进一步的,所述根据所述数据内容,获取对应的数据属性信息,包括:
[0015]将Excel数据所属文件上传至xlsx.js库,进行内容解析。
[0016]第二方面,本专利技术提供了一种电子设备/服务器,包括处理器,以及与处理器通信连接,且用于存储所述处理器可执行指令的存储器,所述处理器在执行所述指令时,实现上述第一方面所述的Excel数据清洗方法。
[0017]第三方面,本专利技术提供了一种可读取存储介质,用于存储计算机程序,所述计算机程序在被处理器执行时,实现上述第一方面所述的Excel数据清洗方法。
[0018]相对于现有技术,本专利技术所述的Excel数据清洗方法具有以下优势:
[0019]本专利技术通过获取Excel中各列或各行表头内容;根据所述表头内容,创建对应的表头属性信息;获取Excel中各列或各行的数据内容;根据所述数据内容,获取对应的数据属性信息;将所述表头属性信息与所述数据属性信息进行比对,根据比对结果,清洗Excel数据,可便于实现Excel数据的快速清洗。
附图说明
[0020]构成本专利技术的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0021]图1为本专利技术所述的Excel数据清洗方法流程图。
具体实施方式
[0022]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0023]下面将参考附图并结合实施例来详细说明本专利技术。
[0024]本实施例提供了一种Excel数据清洗方法,包括:
[0025]S1,获取Excel中各列或各行表头内容。
[0026]例如,采用关键词识别或数据爬取的形式获取表头内容,例如获取各列或各行的表头内容为身份证号、日期和性别。
[0027]S2,根据所述表头内容,创建对应的表头属性信息。
[0028]例如将对应“身份证号”的表头内容,创建对应的表头属性信息为18位字符串,将对应“性别”的表头内容,创建对应的表头属性信息为
[0029]“可选值,男或女”。将对应“日期”的表头内容,创建对应的表头属性信息为“日期”或者“长日期”、“短日期”。
[0030]创建表头属性信息要与所对应的数据内容相对应,尽量与其他表头内容对应的表头属性信息区别开。
[0031]S3,获取Excel中各列或各行的数据内容。
[0032]本实施例一种可选的实施方式为:可采用关键字识别获取Excel中各列或各行的数据内容。
[0033]本实施例另一种可选的实施方式为:将Excel文件输入至训练好的神经网络模型中,由神经网络模型获取Excel文件中各列或各行的数据内容。
[0034]本实施例又一种可选的实施方式为:将Excel数据所属文件上传至xlsx.js库,获取Excel文件中各列或各行的数据内容。
[0035]S4,根据所述数据内容,获取对应的数据属性信息。
[0036]将Excel数据所属文件上传至xlsx.js库,进行内容解析,在解析后,
[0037]获取各列或各行数据内容所对应的数据属性信息。
[0038]S5,将所述表头属性信息与所述数据属性信息进行比对,根据比对结果,清洗Excel数据。
[0039]例如,表头内容为“身份证号”所对应的表头属性信息为18位字符串,若该列或该行的数据内容在解析并判断后,均不是18位字符串,则说明该列或该行的数据内容有误,并标记该列或者该行的数据内容,例如将底色改为红色。若发现列或该行的数据内容在解析并判断后,某一个或多个单元格的数据内容不是18位字符串,则说明该列或该行中的某一个或多个单元格的数据内容有误,并标记数据内容有误的单元格,例如将单元格的底色改为红色。可根据列或行、单元格的底色,
[0040]清洗Excel数据,也便于用户从可视化的角度快速的找到错误数据。
[0041]本实施例提供了一种服务器,包括处理器,以及与处理器通信连接,且用于存储所述处理器可执行指令的存储器,所述处理器在执行所述指令时,实现上述实施例所述的Excel数据清洗方法。
[0042]本实施例提供了一种可读取存储介质,用于存储计算机程序,所述计算机程序在被处理器执行时,实现上述实施例所述的Excel数据清洗方法。
[0043]本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本专利技术的范围。
[0044]在本申请所提供的几个实施例中,应该理解到,所揭露的方法和系统,可以通过其它的方式实现。例如,以上所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。上述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Excel数据清洗方法,其特征在于,包括:获取Excel中各列或各行表头内容;根据所述表头内容,创建对应的表头属性信息;获取Excel中各列或各行的数据内容;根据所述数据内容,获取对应的数据属性信息;将所述表头属性信息与所述数据属性信息进行比对,根据比对结果,清洗Excel数据。2.根据权利要求1所述的Excel数据清洗方法,其特征在于,所述获取Excel中各列或各行表头内容,包括:采用关键词识别或数据爬取的形式获取表头内容。3.根据权利要求1所述的Excel数据清洗方法,其特征在于:所述表头属性信息为字符串、日期、数字或可选值。4.根据权...

【专利技术属性】
技术研发人员:邹虎
申请(专利权)人:紫光云技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1