抽取电子表格文档中结构化信息的方法及装置制造方法及图纸

技术编号:15437482 阅读:189 留言:0更新日期:2017-05-26 03:32
本发明专利技术属于数据处理技术领域,具体涉及一种抽取电子表格文档中结构化信息的方法及装置。本发明专利技术提供的抽取电子表格文档中结构化信息的方法,包括:通过孤立表格识别算法获取电子表格文档中所有业务表格;对所述业务表格进行布局分析;根据布局分析结果从所述业务表格中抽取内容,并做对应的转换处理得到结构化信息。本发明专利技术提供的抽取电子表格文档中结构化信息的方法及装置,实现了自动批量获取电子表格文档中所有业务表格的功能,提高了大规模数据抽取的效率。

Method and apparatus for extracting structured information from spreadsheet documents

The invention belongs to the technical field of data processing, in particular to a method and a device for extracting structured information in an electronic form document. Including the method, the invention provides a structured information extraction spreadsheet documents: access to all business forms a spreadsheet document by isolated form recognition algorithm; layout analysis of the layout of business forms; according to the analysis results from content from the service table, and the corresponding conversion processing of structured information. Method and apparatus for structured information provided from a spreadsheet document, automatically batch access to all forms of electronic business form function, improve the efficiency of large-scale data extraction.

【技术实现步骤摘要】
抽取电子表格文档中结构化信息的方法及装置
本专利技术涉及数据处理
,具体涉及一种抽取电子表格文档中结构化信息的方法及装置。
技术介绍
电子表格文档,如Excel,虽然叫表格软件,但是仍然是非结构化或者半结构化的数据。而且一个电子表格文档中会有多个页签,每个页签中可能存在多个孤立的业务表格,而每个业务表格的布局可能非常随意。所以表格中的数据没有办法直接使用,需抽取后进行一定处理后转换成结构化数据。现有的数据抽取算法很难处理这么复杂、多变的情况。
技术实现思路
针对现有技术中的缺陷,本专利技术提供的抽取电子表格文档中结构化信息的方法及装置,实现了自动批量获取电子表格文档中所有业务表格的功能,提高了大规模数据抽取的效率。第一方面,本专利技术提供的一种抽取电子表格文档中结构化信息的方法,包括:通过孤立表格识别算法获取电子表格文档中所有业务表格;对所述业务表格进行布局分析;根据布局分析结果从所述业务表格中抽取内容,并做对应的转换处理得到结构化信息。本专利技术提供的抽取电子表格文档中结构化信息的方法,通过孤立表格识别算法可以自动批量地获取电子表格文档中所有独立的业务表格,提高了大规模数据抽取的效率;通过对业务表格进行布局分析后再抽取业务数据,提高了抽取数据的可靠性,尤其对大规模半结构化数据识别和抽取时更为有效。优选地,所述通过孤立表格识别算法获取电子表格文档中所有业务表格,包括:建立与所述电子表格文档的尺寸相同的两个二维bit数组,记为A和B;遍历所述电子表格文档中的所有单元格,若单元格中有内容,则A中相应位置标记为1,否则标记为0;遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记;若B中的值为1,则A中相同位置的值设为1;根据更新后的A获取所述电子表格文档中的业务表格坐标。优选地,所述遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记,包括:遍历所述电子表格文档中的所有单元格,若单元格的四个边角至少有一个边角存在两条边框线,则B中相应位置标记为1。优选地,所述遍历所述电子表格文档中的所有单元格,若单元格的四个边角至少有一个边角存在两条边框线,则B中相应位置标记为1后,还包括:步骤S132,再次遍历所述电子表格文档中的所有单元格,若单元格存在边框线,且B上对应值为0,且与所述单元格相邻的上下左右四个单元格在B中的值至少有一个被标记为1,则将所述单元格在B中的位置标记为1;步骤S133,再次遍历所述电子表格文档中的所有单元格,若单元格在B上对应值为0,且在包含所述单元格的2×2的区域内,其它三个单元格在B上对应值都是1,则在B上标记所述单元格为1,并且计数器加1;步骤S134,若所述计数器不为0,则所述计数器清零,重新执行步骤S133。优选地,所述根据更新后的A获取所述电子表格文档中的业务表格坐标,包括:对更新后的A进行缩小操作,得到LA;根据LA获取所述电子表格文档中的业务表格坐标业务表格坐标。优选地,所述对更新后的A进行缩小操作,得到LA,包括:从A的最左侧开始遍历A中所有的列,若列中存在1的值,则记录列的列坐标X1,终止遍历;从A的最右侧开始遍历A中所有的列,若列中存在1的值,则记录列的列坐标X2,终止遍历;从A的最上侧开始遍历A中所有的行,若行中存在1的值,则记录行的行坐标Y1,终止遍历;从A的最下侧开始遍历A中所有的行,若行中存在1的值,则记录行的行坐标Y2,终止遍历;提取出A中[X1,X2,Y1,Y2]位置的数据,形成二维bit数组LA,并根据X1、X2、Y1、Y2确定LA和A的坐标映射关系。优选地,所述根据LA获取所述电子表格文档中的业务表格坐标,包括:若LA中所有值都为1,则所述电子表格文档中只有一个表格,业务表格坐标为[X1,X2,Y1,Y2];否则,检测所述电子表格文档中第X1列、第Y1行的单元格是否为空,若单元格不为空,则一直向右检测其余单元格,直到检测到空单元格,记录空单元格的列坐标为X3,从上向下检测第X1列的单元格是否为空,直到检测到空单元格,记录空单元格的行坐标为第X1列的最大行坐标,继续检测下一列,直到检测完第X3列,若所有最大行坐标中最大值为Y3,则业务表格坐标为[X1,X3,Y1,Y3],将LA中与[X1,X3,Y1,Y3]相对应位置的内容设为0,得到新的LA;根据更新后的LA获取所述电子表格文档中的业务表格坐标,直到提取出所述电子表格文档中所有业务表格。优选地,所述对所述业务表格进行布局分析,包括:检测所述业务表格中的标题部分;抽取所述业务表格中除标题部分的多维度信息;根据抽取的所述多维度信息判断表格布局。第二方面,本专利技术提供的一种抽取电子表格文档中结构化信息的装置,包括:业务表格获取模块,用于通过孤立表格识别算法获取电子表格文档中所有业务表格;表格布局分析模块,用于对所述业务表格进行布局分析;表格信息抽取模块,用于根据布局分析结果从所述业务表格中抽取内容,并做对应的转换处理得到结构化信息。本专利技术提供的抽取电子表格文档中结构化信息的装置,通过孤立表格识别算法可以自动批量地获取电子表格文档中所有独立的业务表格,提高了大规模数据抽取的效率;通过对业务表格进行布局分析后再抽取业务数据,提高了抽取数据的可靠性,尤其对大规模半结构化数据识别和抽取时更为有效。优选地,所述业务表格获取模块具体用于:建立与所述电子表格文档的尺寸相同的两个二维bit数组,记为A和B;遍历所述电子表格文档中的所有单元格,若单元格中有内容,则A中相应位置标记为1,否则标记为0;遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记;若B中的值为1,则A中相同位置的值设为1;根据更新后的A获取所述电子表格文档中的业务表格坐标。附图说明图1为本专利技术实施例所提供的抽取电子表格文档中结构化信息的方法的流程图;图2为一个示例性表格中的标题部分、备注部分以及业务数据部分的布局;图3为纵向多TL布局的示例;图4为横向多TL布局的示例;图5为对多TL布局的表格进行切割合并的一个示例;图6为对多TL布局的表格进行切割合并的一个示例;图7为对单TL(多级)布局的表格进行处理的一个示例;图8为包含多个相互独立的业务表格的电子文档中的一个示例;图9为一个只设置了外边框线的表格;图10为本专利技术实施例所提供的抽取电子表格文档中结构化信息的装置的结构框图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。如图1所示,本实施例提供了一种抽取电子表格文档中结构化信息的方法,包括:步骤S1,通过孤立表格识别算法获取电子表格文档中所有业务表格。其中,常见的电子表格文档包括Excel、openoffice的ods文件等,但不限于上述列举的内容。如图8所示,一个电子文档中可能包含多个相互独立的业务表格,通过孤立表格识别算法分别提取电子表格文档中所有业务表格。业务表格指包含业务数据的表格。步骤S2,对业务表格进行布局分析。步骤S3,根据布局分析结果从业务表格中抽取内容,并做对应的转换处理得到结构本文档来自技高网...
抽取电子表格文档中结构化信息的方法及装置

【技术保护点】
一种抽取电子表格文档中结构化信息的方法,其特征在于,包括:通过孤立表格识别算法获取电子表格文档中所有业务表格;对所述业务表格进行布局分析;根据布局分析结果从所述业务表格中抽取内容,并做对应的转换处理得到结构化信息。

【技术特征摘要】
1.一种抽取电子表格文档中结构化信息的方法,其特征在于,包括:通过孤立表格识别算法获取电子表格文档中所有业务表格;对所述业务表格进行布局分析;根据布局分析结果从所述业务表格中抽取内容,并做对应的转换处理得到结构化信息。2.根据权利要求1所述的方法,其特征在于,所述通过孤立表格识别算法获取电子表格文档中所有业务表格,包括:建立与所述电子表格文档的尺寸相同的两个二维bit数组,记为A和B;遍历所述电子表格文档中的所有单元格,若单元格中有内容,则A中相应位置标记为1,否则标记为0;遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记;若B中的值为1,则A中相同位置的值设为1;根据更新后的A获取所述电子表格文档中的业务表格坐标。3.根据权利要求2所述的方法,其特征在于,所述遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记,包括:遍历所述电子表格文档中的所有单元格,若单元格的四个边角至少有一个边角存在两条边框线,则B中相应位置标记为1。4.根据权利要求3所述的方法,其特征在于,所述遍历所述电子表格文档中的所有单元格,若单元格的四个边角至少有一个边角存在两条边框线,则B中相应位置标记为1后,还包括:步骤S132,再次遍历所述电子表格文档中的所有单元格,若单元格存在边框线,且B上对应值为0,且与所述单元格相邻的上下左右四个单元格在B中的值至少有一个被标记为1,则将所述单元格在B中的位置标记为1;步骤S133,再次遍历所述电子表格文档中的所有单元格,若单元格在B上对应值为0,且在包含所述单元格的2×2的区域内,其它三个单元格在B上对应值都是1,则在B上标记所述单元格为1,并且计数器加1;步骤S134,若所述计数器不为0,则所述计数器清零,重新执行步骤S133。5.根据权利要求2所述的方法,其特征在于,所述根据更新后的A获取所述电子表格文档中的业务表格坐标,包括:对更新后的A进行缩小操作,得到LA;根据LA获取所述电子表格文档中的业务表格坐标业务表格坐标。6.根据权利要求5所述的方法,其特征在于,所述对更新后的A进行缩小操作,得到LA,包括:从A的最左侧开始遍历A中所有的列,若列中存在1的值,则记录列的列坐标X1,终止遍历;从A的最右侧开始遍历A中所有的列,若列中存在1的值,则记...

【专利技术属性】
技术研发人员:张军贾西贝
申请(专利权)人:深圳市华傲数据技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1