【技术实现步骤摘要】
一种通用的数据文件批量智能处理方法
[0001]本专利技术属于数据处理领域,尤其涉及一种通用的数据文件批量智能处理方法。
技术介绍
[0002]将数据文件导入到数据库一直是进行数据分析利用的一个重要前提。
[0003]现有技术中,我们进行文件数据入库时,会有以下几种方案:1.使用数据库命令对文件进行批量导入;2.使用数据库第三方工具如kettle和navicat等对Excel、csv、txt等进行文件导入;
[0004]首先,上述这些方式在导入时都要求文件列与数据库列一一对应,仅能完成简单的列对列匹配的数据导入,对复杂内容格式的数据解析导入很难支撑,而实际的情况是我们拿到的文件格式复杂多样,文件列不一定能与数据库列一一对应,很多时候数据库列需要的某个字段可能存在于文件名称中、sheet名称中、表头前的说明内容中甚至是需要根据文件其他列的值推断才能得出这个数据库列需要的字段,这些场景上述现有技术都无法实现;其次,在文件数据批量导入的场景中,上述方式都要求这一批文件的数据格式必须保持一致,否则无法进行批量数据导入 ...
【技术保护点】
【技术特征摘要】
1.一种通用的数据文件批量智能处理方法,其特征在于,所述方法包括以下步骤:读取并且解析不同内容格式的数据文件,将其进行数据文件格式的统一化,生成封装数据;对封装数据进行内容识别,以确定封装数据的对应文件与业务要素之间的匹配关系;根据所述匹配关系确定封装数据与上传过程中与每个数据库字段对应解析方式的至少一种解析结果,以对数据库字段进行入库填写,其中解析方式包括文件列中解析、文件名称解析和表头前的内容区域解析识别中一种或者多种;根据入库填写结果,执行封装数据读取与入库操作。2.根据权利要求1所述的通用的数据文件批量智能处理方法,其特征在于,所述读取并且解析不同内容格式的数据文件,将其进行数据文件格式的统一化,生成封装数据,具体包括:读取上传文件数据的格式;根据不同格式的数据文件的组织方式,来读取文件内容;将读取的文件内容统一封装为二维数组格式的数据。3.根据权利要求1所述的通用的数据文件批量智能处理方法,其特征在于,所述对封装数据进行内容识别,以确定封装数据的对应文件与业务要素之间的匹配关系具体包括:识别数据文件的表头内容,定位所述表头内容在文件中的起始位置;根据表头内容来确认数据文件的业务种类;根据表头内容、业务种类以及预先维护的业务要素数据特征,识别并维护数据文件中的列与业务要素之间的匹配关系。4.根据权利要求1所述的通用的数据文件批量智能处理方法,其特征在于,所述识别并维护数据文件中的列与业务要素之间的匹配关系具体包括:当从文件列中解析时,根据所述匹配关系来查找数据文件中是否包含主叫号码列;若包含,判定主叫号码列在最终解析时就会从找到的文件列中解析。5.根据权利要求4所述的通用的数据文件批量智能处理方法,其特征在于,所述方法还包括:当数据文件中没有包含主叫号码列时,从文件名称中对主叫号码进行识别解析;若识别解析成功,进行字段值解析;若解析到字段值,对解析结果进行进一步的清洗和校验,以判断解析结果是否符合要求...
【专利技术属性】
技术研发人员:汪洋,许飞祥,吴亮,程建平,陈海江,范的迪,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。