多格式文档统一入库方法、装置及系统制造方法及图纸

技术编号:34516317 阅读:13 留言:0更新日期:2022-08-13 21:03
本申请提出了多格式文档统一入库方法、装置及系统,可将excel文档、word文档或txt文档统一导入系统平台,系统平台根据不同的文档类型的导入信息将其导入到对应的预设模板内,利用数据规整算法对预设模板内的数据进行分析处理,提炼出可用的接口表以便后续进行数据分析处理。析处理。析处理。

【技术实现步骤摘要】
多格式文档统一入库方法、装置及系统


[0001]本申请涉及数据处理领域,特别涉及一种多格式文档统一入库方法、装置 及系统。

技术介绍

[0002]对于多部门协作的系统平台而言,经常需要汇总统计多部门的文档数据。 然而由于不同部门都有各自的文档模板,导致各个部门向系统平台导入的文档 数据可能是excel表格形式,也可能是Word文档,而若是让各部门人员按照系 统平台统一模板进行重新填写的话,这就会加大了数据输入人员的填报工作量, 导致各部门的配合力度不高,且在人工重新转移填报的过程中也容易出现数据 漏填多填或者错填的问题,导致导入的数据不精准,进而影响后续的数据分析。

技术实现思路

[0003]本申请实施例提供了一种多格式文档统一入库方法、装置及系统,根据不 同的文档类型将其导入到系统的预设模板内,利用数据规整算法对预设模板内 的数据进行分析处理,提炼出可用的接口表以便后续进行数据分析处理。
[0004]第一方面,本申请实施例提供了一种多格式文档统一入库方法,所述方法 包括:获取待导入文档,依据所述待导入文档的导入人员信息将所述待导入文 档导入对应的预设模板;
[0005]若所述待导入文档为excel文档,依据所述预设模板的行序列依次逐行识 别所述预设模板的字符类型,选取字段类型均为文字类型或空的行作为表头, 填充所述表头内的空白字段得到表头内容;依据所述预设模板的列序列依次逐 列识所述预设模板的字符类型,选取字段类型均为文字类型或者空的列作为指 标,填充所述指标内的空白字段得到指标结构;拼接所述表头内容组成表头结 构,拼接所述指标内容组成指标内容,所述表头结构和所述指标结构组成表字 段,依据所述表字段填充表内容,组合所述表字段和所述表内容组成接口表;
[0006]若所述待导入文档为word文档或txt文档,识别所述预设模板的数字字段 作为表内容,识别所述数字字段前后的文字字段作为表字段,组合所述表字段 和所述表内容组成接口表。
[0007]第二方面,本申请实施例提供了一种多格式文档统一入库装置,包括:
[0008]文档导入模块,用于获取待导入文档,依据所述待导入文档的导入人员信 息将所述待导入文档导入对应的预设模板;
[0009]Excel接口表生成模块,用于若所述待导入文档为excel文档,依据所述预 设模板的行序列依次逐行识别所述预设模板的字符类型,选取字段类型均为文 字类型或空的行作为表头,填充所述表头内的空白字段得到表头内容;依据所 述预设模板的列序列依次逐列识所述预设模板的字符类型,选取字段类型均为 文字类型或者空的列作为指标,填充所
述指标内的空白字段得到指标结构;拼 接所述表头内容组成表头结构,拼接所述指标内容组成指标内容,所述表头结 构和所述指标结构组成表字段,依据所述表字段填充表内容,组合所述表字段 和所述表内容组成接口表;
[0010]Word或txt接口表生成模块,用于若所述待导入文档为word文档或txt文 档,识别所述预设模板的数字字段作为表内容,识别所述数字字段前后的文字 字段作为表字段,组合所述表字段和所述表内容组成接口表。
[0011]第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,其 特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计 算机程序以执行所述的多格式文档统一入库方法。
[0012]第四方面,本申请实施例提供一种计算机程序产品,包括软件代码部分,当所 述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行所述的多 格式文档统一入库方法。
[0013]第五方面,本申请实施例提供一种可读存储介质,所述可读存储介质中存 储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括所述的多格式文档统一入库方法。
[0014]本专利技术的主要贡献和创新点如下:
[0015]1.减少数据导入人员的工作量且提高数据质量:取代了传统数据导入人员 需要重新填报规范模板的方式,数据导入人员只需要将原始的格式文档 一键导入系统平台,系统平台可自动对其进行入库操作,进而减少数据 导入人员的工作量。同时,避免了人工重新填报数据带来的数据误差和 数据偏差,确保了系统平台收集的数据的真实性和原始性。
[0016]2.减少系统平台的开发量:不需要针对多格式文档单独开发导入界面,开 发人员仅需开发单一的导入界面即可,通过导入人员的身份特征识别不 同格式的文档类型,减少了开发人员的开发量。
[0017]3.便捷运维:由于采用统一的导入模式,数据也入库到统一的预设模板中, 一般情况不会出现导入失败或者模板错误无法导入情况,减轻了运维负 担。
[0018]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请 的其他特征、目的和优点更加简明易懂。
附图说明
[0019]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分, 本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限 定。在附图中:
[0020]图1是根据本申请实施例的多格式文档统一入库方法的流程图;
[0021]图2是根据本申请一种实施例的多格式文档统一入库方法的流程图;
[0022]图3是根据本申请实施例的多格式文档统一入库装置的结构框图;
[0023]图4是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
[0024]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描 述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。 以下示例性实施
例中所描述的实施方式并不代表与本说明书一个或多个实施例 相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本 说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
[0025]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序 来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本 说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实 施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在 其他实施例中也可能被合并为单个步骤进行描述。
[0026]实施例一
[0027]本申请旨在提出一种多格式文档统一入库方法,可将excel格式、word格 式或txt格式的文档统一入库处理,解决了大数据平台的多格式文档的数据导 入困难的问题。在传统的方法中,数据导入人员需要将不同格式的文档按照系 统平台的
[0028]具体的,本申请实施例提供了一种多格式文档统一入库方法,具体地,参 考图1,所述方法包括:
[0029]获取待导入文档,依据所述待导入文档的导入人员信息将所述待导入文档 导入对应的预设模板;
[0030]若所述待导入文档为excel文档,依据所述预设模板的行序列依次逐行识 别所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多格式文档统一入库方法,其特征在于,包括:获取待导入文档,依据所述待导入文档的导入人员信息将所述待导入文档导入对应的预设模板;若所述待导入文档为excel文档,依据所述预设模板的行序列依次逐行识别所述预设模板的字符类型,选取字段类型均为文字类型或空的行作为表头,填充所述表头内的空白字段得到表头内容;依据所述预设模板的列序列依次逐列识所述预设模板的字符类型,选取字段类型均为文字类型或者空的列作为指标,填充所述指标内的空白字段得到指标结构;拼接所述表头内容组成表头结构,拼接所述指标内容组成指标内容,所述表头结构和所述指标结构组成表字段,依据所述表字段填充表内容,组合所述表字段和所述表内容组成接口表;若所述待导入文档为word文档或txt文档,识别所述预设模板的数字字段作为表内容,识别所述数字字段前后的文字字段作为表字段,组合所述表字段和所述表内容组成接口表。2.根据权利要求1所述的多格式文档统一入库方法,其特征在于,对应word文档类型和txt文档类型的预设模板的字段类型使用文本型,对应excel文档类型的预设模板的字段类型使用长字符型。3.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“依据所述预设模板的行序列依次逐行识别所述预设模板的字符类型,选取字段类型均为文字类型或者空的行作为表头”步骤中,所述预设模板的行序列自所在行的位置自上而下依次增加,若识别到行的字段类型为数字类型,则停止识别。4.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“填充所述表头内的空白字段得到表头内容”步骤中,针对所述表头的每一行内字段类型为空的字段,将所述字段前一个非空字段的字段内容作为所述字段的字段内容。5.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“拼接所述表头内容组成表头结构”步骤中,将对应同一列的所述表头内容进行拼接组成表头结构。6.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“依据所述预设模板的列序列依次逐列识所述预设模板的字符类型”中,所述预设模板的列序列自所在列的位置自左而右依次增加,一旦识别到列的某字段类型为数字类型,则停止识别。7.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“填充所述指标内的空白字段得到指标内容”步骤中,针对所述指标的每一列内字段类型为空的字段,将所述字段所在行置于前置位置的非空字段的字段内容作...

【专利技术属性】
技术研发人员:刘仿卢大海
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1