System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息处理技术,尤其涉及一种基于pdf文件的数据提取方法及装置。
技术介绍
1、随着计算机技术的普及,无纸化办公逐渐应用到各个行业,借助网络,工作电子文档可以在各部门间自由传阅,从而得到进一步修改完善,让工作效率大大提升。
2、pdf格式是一种常用的文档格式,现有技术中,存在一些pdf提取软件,其可以提取pdf文件中的信息,便于用户搜索和复制使用。现有技术中,还存在数据提取软件,可提取pdf的多种信息,包括文本、表格、图标、尺寸等。然而,现有的提取软件都存在局限,对于不规整的行列表,容易出错,无法给出精确的信息。
技术实现思路
1、本专利技术提供一种基于pdf文件的数据提取方法及装置,以克服现有技术中,数据提取存在局限,对于不规整的行列表,容易出错,无法给出精确的信息的问题。
2、本专利技术提供一种基于pdf文件的数据提取方法,包括:
3、在画布上绘制并显示第一pdf文件页面视图,所述第一pdf文件中包括第一键和第一键值;
4、根据所述第一pdf文件创建数据提取模块,所述数据提取模块用于关联第一键与第一键值,所述数据提取模块通过位置信息关联第一键和第一键值;
5、通过所述数据提取模块提取第二pdf文件数据。
6、进一步地,所述根据所述第一pdf文件创建数据提取模块,包括:
7、创建第一数据提取子模块,所述第一数据提取子模块用于提取第一键对应的第一键值;
8、其中,所述创建第一
9、通过点击第一键值所在位置,在第一数据提取子模块中配置第一键值位置数据。
10、进一步地,所述根据所述数据提取模块提取第二pdf文件数据,包括:
11、通过第一数据提取子模块提取第二pdf文件数据中第一键对应的第一键值。
12、进一步地,所述创建第一数据提取子模块包括:
13、点击第一键所在位置,获取第一键位置数据;
14、点击第一键值所在位置,获取第一键值位置数据,所述第一键值位置数据为第一键值所在位置偏移第一键所在位置的偏移数据。
15、进一步地,所述通过第一数据提取子模块提取第二pdf文件数据中第一键对应的第一键值,包括:
16、根据第一键值位置数据获取第二pdf文件中所在位置的内容为第一键值。
17、进一步地,所述在画布上绘制并显示第一pdf文件页面视图之前,还包括:
18、上传第一pdf文件。
19、进一步地,所述创建第一数据提取子模块,包括:
20、根据用户操作确定数据类型,所述数据类型包括:单元格、词块或列表;
21、根据所述数据类型显示对应的配置表格,所述配置表格用于引导用户进行数据配置。
22、进一步地,若所述数据类型为列表,则所述配置表格引导用户对列表表头、列表的至少一个单元格位置信息进行配置,所述列表表头为第一键,至少一个单元格对应的内容为第一键值;
23、数据提取模块使用数组保存键值信息,列表数据与数组内元素对应。
24、进一步地,所述在画布上绘制并显示第一pdf文件页面视图,包括:
25、在画布上绘制第一pdf文件,使第一pdf文件根据内容分区,通过点击可选中对应区域。
26、本专利技术还提供一种基于pdf文件的数据提取装置,包括:
27、显示模块,所述显示模块用于在画布上绘制并显示第一pdf文件页面视图,所述第一pdf文件中包括第一键和第一键值;
28、配置模块,所述配置模块根据所述第一pdf文件创建数据提取模块,所述数据提取模块用于关联第一键与第一键值,所述数据提取模块通过位置信息关联第一键和第一键值;
29、处理模块,所述输出模块通过所述数据提取模块提取第二pdf文件数据。
30、进一步地,所述配置模块,包括第一数据提取子模块,所述第一数据提取子模块用于提取第一键对应的第一键值;所述第一数据提取子模块通过点击第一键值所在位置,在第一数据提取子模块中配置第一键值位置数据。
31、进一步地,所述配置模块,包括第一数据提取子模块,所述第一数据提取子模块通过点击第一键所在位置,获取第一键位置数据;点击第一键值所在位置,获取第一键值位置数据,配置所述第一键值位置数据为第一键值所在位置偏移第一键所在位置的偏移数据。
32、本专利技术一种基于pdf文件的数据提取方法及装置,通过配置数据提取模块,通过数据提取模块提取pdf文件中数据,使得用户可精确获取对应信息,获取的精确信息可用于后续的数据处理。与现有技术相比,不受pdf中表格的格式限制,且用户可自助创建数据提取模块,提取数据精确,且操作简便,便于调整,同时,提取的数据可以用于数据处理,如后续的统计、校正、分析等。
本文档来自技高网...【技术保护点】
1.一种基于PDF文件的数据提取方法,其特征在于,包括:
2.根据权利要求1所述的数据提取方法,其特征在于,
3.根据权利要求2所述的数据提取方法,其特征在于,
4.根据权利要求2所述的数据提取方法,其特征在于,
5.根据权利要求2所述的数据提取方法,其特征在于,所述创建第一数据提取子模块,包括:
6.根据权利要求5所述的数据提取方法,其特征在于,
7.根据权利要求1-5任一项所述的数据提取方法,其特征在于,
8.一种基于PDF文件的数据提取装置,其特征在于,包括:
9.根据权利要求8所述的数据提取装置,其特征在于,
10.根据权利要求8所述的数据提取装置,其特征在于,
【技术特征摘要】
1.一种基于pdf文件的数据提取方法,其特征在于,包括:
2.根据权利要求1所述的数据提取方法,其特征在于,
3.根据权利要求2所述的数据提取方法,其特征在于,
4.根据权利要求2所述的数据提取方法,其特征在于,
5.根据权利要求2所述的数据提取方法,其特征在于,所述创建第一数据提取子模块,包...
【专利技术属性】
技术研发人员:黄炳河,金季岚,张泓,
申请(专利权)人:厦门海迈科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。