表格数据的获取方法、装置和服务器制造方法及图纸

技术编号:21606523 阅读:19 留言:0更新日期:2019-07-13 18:34
本说明书提供了一种表格数据的获取方法、装置和服务器。其中,方法包括:获取待处理文本的图像数据;从图像数据中提取组合图,组合图为包含有交叉的形态学竖线和形态学横线的图形;将组合图分割成多个矩形单元;对矩形单元分别进行光学字符识别,确定矩形单元的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。在本说明书实施例中,先通过获取并根据图像数据中的形态学竖线和形态学横线等图形特征得到组合图;再将组合图分割成多个矩形单元分别进行光学字符识别,得到矩形单元的文本信息,并根据位置坐标进行组合还原得到表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题。

Tabular data acquisition methods, devices and servers

【技术实现步骤摘要】
表格数据的获取方法、装置和服务器
本说明书属于互联网
,尤其涉及一种表格数据的获取方法、装置和服务器。
技术介绍
在生活、工作中常常会涉及到这样一类文本数据(例如,合同文件)除了包含有单独的文本字符(例如单纯的文字符号)外,还会包含有表格数据(例如,关于价格的统计列表),且这类表格数据在某些场景中还具有较高的信息价值,包含有人们较为关注的信息内容。现有的数据获取方法往往是直接对包含有文本数据的扫描图片等图像数据进行光学字符识别,以识别并提取出图像数据中的文本信息,得到对应文本的电子档数据。基于现有的数据获取方法,在对图像数据中单独的文本字符进行识别提取时,具有相对较好的效果。但是,文本数据中的表格数据区别于上述单独的文本字符,除了包含有文本字符所携带的文本信息外,还具有一定的图形特征,例如,包含有分隔线、分隔框等。相对于单独的文本字符,表格数据的结构更为复杂,识别起来更为困难。导致通过现有的数据获取方法在识别图像数据中的表格数据时,很容易出现误差。例如,会将表格中的分隔栏错误识别成了数字。或者,对表格中N行M列中的文本字符的识别出现错位等等。因此,亟需一种能够精确识别,并完整恢复得到图像数据中的表格数据的方法。
技术实现思路
本说明书目的在于提供一种表格数据的获取方法、装置和服务器,以解决现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容。本说明书提供的一种表格数据的获取方法、装置和服务器是这样实现的:一种表格数据的获取方法,包括:获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。一种表格数据的获取装置,包括:获取模块,用于获取待处理文本的图像数据;提取模块,用于从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;分割模块,用于将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;识别模块,用于对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;组合模块,用于根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。本说明书提供的一种表格数据的获取方法、装置和服务器,由于先通过获取并根据图像数据中的形态学竖线和形态学横线等图形特征提取得到组合图;再将组合图分割成多个矩形单元分,对各个矩形单元别进行光学字符识别,得到各个矩形单元所包含的文本信息,进而根据矩形单元的位置坐标将包含有文本信息的矩形单元进行组合,还原得到完整的表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是在一个场景示例中,应用本说明书实施例提供的表格数据的获取方法的一种实施例的示意图;图2是在一个场景示例中,应用本说明书实施例提供的表格数据的获取方法的一种实施例的示意图;图3是在一个场景示例中,应用本说明书实施例提供的表格数据的获取方法的一种实施例的示意图;图4是在一个场景示例中,应用本说明书实施例提供的表格数据的获取方法的一种实施例的示意图;图5是本说明书实施例提供的表格数据的获取方法的流程的一种实施例的示意图;图6是本说明书实施例提供的服务器的结构的一种实施例的示意图;图7是本说明书实施例提供的表格数据的获取装置的结构的一种实施例的示意图。具体实施方式为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。考虑到现有的数据获取方法大多是针对包含有待处理文本的图像数据中的单独的文本字符的识别设计的。因此,在识别、提取图像数据中的文本字符所表征的文本信息时具有较好的准确度。但是,有些类型的文本数据,例如合同文本,还会包含有一些表格内容。这类表格内容相对与单独的文本字符结构更为复杂,通常除了包含有文本字符外,还具有一定的图形特征,例如还会同时包含有一些图形形态学的结构。导致对这类表格数据的识别、提取以及重建更加复杂、困难。通过现有的数据获取方法对图形数据中的这类表格数据直接进行识别、提取时,容易将文本字符和图形特征混淆,无法精准地区分、处理其中的文本字符和图形特征,导致容易出现误差,例如,将表格数据中的分隔栏等图形结构错误地识别成了文本字符,或者对表格数据中不同位置的文本信息的识别提取出现错位等。即,通过现有的获取方法处理图像数据中的表格数据时效果往往不够理想,存在提取表格数据误差大、不准确的技术问题。针对产生上述问题的根本原因,本说明书具体分析了表格数据所同时具备的文本字符与图形结构两种不同属性对象识别时的不同特点,通过先获取图像数据中的形态学竖线和形态学横线等图像结构特征,从图像数据中找到可能形成表格数据的组合图;再将上述组合图分割成多个矩形单元,对各个矩形单元分别单独进行光学字符识别,以得到矩形单元的文本信息;进而根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,以恢复、重建图像的完整的表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容。本说明书实施方式提供一种表格数据方法的获取方法,所述表格数据的获取方法具体可以应用于包含有多个服务器的图像数据处理系统中。例本文档来自技高网
...

【技术保护点】
1.一种表格数据的获取方法,包括:获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。

【技术特征摘要】
1.一种表格数据的获取方法,包括:获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。2.根据权利要求1所述的方法,从所述图像数据中提取组合图,包括:搜索并获取所述图像数据中的形态学竖线和形态学横线;连接所述形态学竖线和所述形态学横线,得到所述组合图。3.根据权利要求1所述的方法,在从所述图像数据中提取组合图后,所述方法还包括:获取所述组合图中的交点坐标,其中,所述交点为所述组合图中形态学竖线和形态学横线相交位置处的像素点;搜索并获取所述组合图中的矩形框;根据所述组合图中的交点坐标,确定所述矩形框的端点坐标;根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求。4.根据权利要求3所述的方法,根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求,包括:根据所述矩形框的端点坐标,计算所述矩形框的面积;检测所述矩形框的面积是否大于预设的面积阈值。5.根据权利要求3所述的方法,将所述组合图分割成多个矩形单元,包括:根据矩形框的端点坐标确定分割线;根据所述分割线将所述组合图分割成多个矩形单元,并根据所述矩形框的端点坐标生成与所述矩形框对应的矩形单元的位置坐标。6.根据权利要求1所述的方法,在获取待处理文本的图像数据后,所述方法还包括:对所述待处理文本的图像数据进行预处理,其中,所述预处理包括:将所述图像数据转换为灰度图像;和/或,对所述图像数据进行高斯平滑处理。7.根据权利要求1所述的方法,所述待处理文本的图像数据包括:包含待处理合同的扫描图像或照片。8.一种表格数据的获取装置,包括:获取模块,用于获取待处理文本的图像数据;提取模块,用于从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形...

【专利技术属性】
技术研发人员:张林江
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1