【技术实现步骤摘要】
文档处理方法及装置、用于图像的数据提取方法及装置
[0001]本公开涉及计算机
,尤其涉及文档处理
更具体地,本公开提供了一种文档处理方法及装置、用于图像的数据提取方法及装置、电子设备和存储介质。
技术介绍
[0002]文档中可以包含一个或多个图表。这些图表的数据可以是非结构化的数据,例如图片、背景图等。相关技术中,可以人工截取文档中的图表,然后观察图表中的特征点(例如,坐标轴原点、刻度线端点等)和数据值,以从这些图表中提取出结构化数据。
技术实现思路
[0003]本公开提供了一种文档处理方法及装置、用于图像的数据提取方法及装置、电子设备和存储介质。
[0004]根据第一方面,提供了一种文档处理方法,该方法包括:根据文档页面中行文字图像的位置信息,生成多个第一包围框;根据上述多个第一包围框的位置信息,生成多个第二包围框,每个第二包围框用于标记上述文档页面中一个文本稀疏区域;对相邻的第二包围框执行合并操作,得到多个候选包围框;针对上述多个候选包围框,根据每个候选包围框的位置信息,确定文档页 ...
【技术保护点】
【技术特征摘要】
1.一种文档处理方法,包括:根据文档页面中行文字图像的位置信息,生成多个第一包围框;根据所述多个第一包围框的位置信息,生成多个第二包围框,每个第二包围框用于标记所述文档页面中一个文本稀疏区域;对相邻的第二包围框执行合并操作,得到多个候选包围框;针对所述多个候选包围框,根据每个候选包围框的位置信息,确定文档页面的多个局部图像;以及根据所述多个局部图像中的内容,生成目标图像。2.根据权利要求1所述的方法,其中,所述第二包围框包括第一子包围框和第二子包围框;所述根据所述多个第一包围框的位置信息,生成多个第二包围框包括:在任意两个上下相邻的所述第一包围框之间生成一个第一子包围框;以及在每个所述第一包围框的左侧和/或右侧生成一个第二子包围框。3.根据权利要求2所述的方法,其中,所述候选包围框为矩形;所述第二子包围框的宽度为所述第一包围框的边缘至所述文档页面的边缘的长度;所述对相邻的第二包围框执行合并操作,得到多个候选包围框包括:对每个第一子包围框执行划分操作,得到与所述第二子包围框的宽度相等的多个第三子包围框;以及对所述第三子包围框与所述第二子包围框执行合并操作,得到候选包围框。4.根据权利要求1至3任一项所述的方法,其中,所述根据所述多个第一包围框的位置信息,生成多个第二包围框包括:针对所述多个第一包围框中每个第一包围框,根据该第一包围框的位置信息和所述第二包围框的位置信息,确定至少一个重叠区域,一个重叠区域与至少一个所述第二包围框对应;以及针对至少一个重叠区域,分别从与每个重叠区域对应的至少一个所述第二包围框中去除该重叠区域,得到多个调整后的第二包围框。5.根据权利要求1所述的方法,其中,所述根据文档页面中行文字图像的位置信息,生成多个第一包围框包括:根据所述文档页面中每个文字图像的位置信息和每个文本图像的高度,针对所述文档页面中的每行文字,生成多个第一包围框。6.一种用于图像的数据提取方法,包括:根据目标图像内每个像素的像素值,确定所述目标图像中位于坐标轴上的N个标记点的坐标;根据N个标记点的坐标,对所述目标图像执行划分操作,得到N+1个子区域;针对所述N+1个子区域中第i个子区域,执行文本识别操作,得到与第i个子区域对应的第i组数据;i=1,......,N+1;其中,所述目标图像是根据权利要求1至5任一项所述的文档处理方法生成的。7.根据权利要求6所述的方法,其中,所述坐标轴包括M个像素;所述根据目标图像内每个像素的像素值,确定所述目标图像中位于坐标轴上的N个标
记点的坐标包括:获取距离所述坐标轴最近的K行像素中每行像素的M个像素;K≥1;响应于所述坐标轴上的第j个像素与每行像素中的第j个像素的相似度大于预设相似度阈值、所述坐标轴上的第j
‑
1个像素与每行像素中的第j
‑
1个像素的相似度小于预设相似度阈值、且所述坐标轴上的第j+λ个像素点与每行像素中的第j+λ个像素的相似度小于预设相似度阈值,确定所述坐标轴上的第j个像素为一个标记点;j=2,
……
,M;λ为预设值,且λ为自然数。8.一种文档处理装置,包括:第一生成模块,用于根据文档页面中行文字图像的位置信息,生成多个第一包围框;第二生成模块,用于根据所述多个第一包围框的位置信息,生成多个第二包围框,每个第二包围框用于标记所述文档页面中一个文本稀疏区域;合并模块,用于对相邻的第二包围框执行合并操作...
【专利技术属性】
技术研发人员:黄海平,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。