一种拍照文档图像数据标注方法、系统、装置及介质制造方法及图纸

技术编号:37971260 阅读:18 留言:0更新日期:2023-06-30 09:46
本发明专利技术公开了一种拍照文档图像数据标注方法、系统、装置及介质,其中方法包括:获取第一文档图像;将第一文档图像打印成纸质文档;对纸质文档进行拍摄,获得第二文档图像;将第一文档图像和第二文档图像进行配准对齐,得到偏移场;根据偏移场和第一文档图像获取第二文档图像的批注信息;和/或,根据偏移场对第二文档图像进行采样,得到与第一文档图像像素级对齐的第三文档图像;和/或,将偏移场和第二文档图像构成文档图像矫正任务标注数据。本发明专利技术通过配准对齐的方式,将已有标注的电子生成文档进行映射以及对拍照文档进行偏移采样,可以较低成本地获得多种任务的标注数据。本发明专利技术可广泛应用于模式识别与人工智能技术领域。泛应用于模式识别与人工智能技术领域。泛应用于模式识别与人工智能技术领域。

【技术实现步骤摘要】
一种拍照文档图像数据标注方法、系统、装置及介质


[0001]本专利技术涉及模式识别与人工智能
,尤其涉及一种拍照文档图像数据标注方法、系统、装置及介质。

技术介绍

[0002]现有的文档分析识别系统大多只关注于扫描文档或电子生成文档,但随着移动设备移动摄像头的普及,如今文档图像越来越多地以拍照的形式出现。相比于扫描文档或电子生成文档容易获得标注不同,拍照文档图像标注获取难度更大。原因如下:电子生成文档图像的标注可以结合其源代码文件通过一些简单的规则处理得到,这种方法对于拍照文档图像不适用;拍照文档图像含有几何形变,需要进行更密集的标注,而扫描文档和电子生成文档内容更加规整,标注更加稀疏;部分拍照文档图像任务(如文档图像矫正、稳定图像增强)需要像素级标注,标注难度很大。上述难点导致目前针对拍照文档图像的标注数据集较少。

技术实现思路

[0003]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种拍照文档图像数据标注方法、系统、装置及介质。
[0004]本专利技术所采用的技术方案是:
...

【技术保护点】

【技术特征摘要】
1.一种拍照文档图像数据标注方法,其特征在于,包括以下步骤:获取不包含几何形变退化、光照退化的第一文档图像;将所述第一文档图像打印成纸质文档;对所述纸质文档进行拍摄,获得第二文档图像;将所述第一文档图像和第二文档图像进行配准对齐,得到偏移场;根据所述偏移场和所述第一文档图像获取所述第二文档图像的批注信息;其中所述第一文档图像带有批注信息;和/或,根据所述偏移场对所述第二文档图像进行采样,得到与所述第一文档图像像素级对齐的第三文档图像;其中所述第三文档图像带有阴影信息;和/或,将所述偏移场和第二文档图像构成文档图像矫正任务标注数据。2.根据权利要求1所述的一种拍照文档图像数据标注方法,其特征在于,所述对所述纸质文档进行拍摄,获得第二文档图像,包括:对所述纸质文档进行几何形变处理后,进行拍摄,获得所述第二文档图像;和/或,采用多种拍摄角度或者在多种光照环境下,对所述纸质文档进行进行拍摄,获得所述第二文档图像。3.根据权利要求1所述的一种拍照文档图像数据标注方法,其特征在于,所述偏移场是一个通道数为2的矩阵,用于为待偏移图像上的每个像素位置指定一个2维向量,表征该像素应该偏移的方向以及距离;所述偏移的采样过程表示如下:I3=I1(x+f(x))其中,x为像素位置,f为偏移场,最终结果I3为采样偏移后的结果图像。4.根据权利要求1所述的一种拍照文档图像数据标注方法,其特征在于,所述根据所述偏移场和所述第一文档图像获取所述第二文档图像的批注信息,包括:根据所述偏移场对第一文档图像中的标注信息进行偏移,将偏移得到的标注信息映射到所述第二文档图像中;将所述第二文档图像和映射得到的标注信息构成拍照文档图像版面分析任务、版面分割任务、表格检测任务的标注数据。5.根据权利要求4所述的一种拍照文档图像数据标注方法,其特征在于,在文档图像版面分析任务中,通过以下方式获得所述第二文档图像的标注信息:给定第一文档图像的标注格式为:{X1,X2,

,X
N
}总共包含N个标注实例,标注实例X
n
包含检测框标注以及类别标注c
n
,其中和分别为左上角点坐标和右下角点坐标;对于标注实例X
n
,其更密集的标注表示为:
式中,S为一个预定义常数;基于偏移场f,将第一文档图像上的标注点(x,y)映射到第二文档图像的(x

,y

):x

=x+f
x
(x,y)y

=y+f
y
(x,y)其中,f
x
、f
y
分别表示偏移场x方向和y方向的偏移值;得到第二文档图像的标注信息为:{X1′
,X2′
,

,X
N

}最后获得第二文档图...

【专利技术属性】
技术研发人员:金连文张家鑫陈邦栋郑晓怡
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1