一种大尺寸复杂pdf工程图纸文本检测与识别方法技术

技术编号:34900114 阅读:19 留言:0更新日期:2022-09-10 14:03
本发明专利技术提供了一种大尺寸复杂pdf工程图纸文本检测与识别方法,包括以下步骤:步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像;步骤S2:将高分辨率图像切割为若干低分辨率的子图,并根据位置记录子图对应顺序;步骤S3:进行第一次子图文本检测,初步定位子图中的文本区域范围,输出范围对应的位置坐标;步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;步骤S5:进行第二次文本检测,精确定位文本区域中的文本,并裁剪对应的文本块;步骤S6:对文本块进行文本识别,提取文本块中的文本内容,以及对应的坐标位置。本发明专利技术提供的方法提高了复杂图纸的文本识别准确率。率。率。

【技术实现步骤摘要】
一种大尺寸复杂pdf工程图纸文本检测与识别方法


[0001]本专利技术涉及核电厂文本图纸管理
,尤其涉及一种大尺寸复杂pdf工程图纸文本检测与识别方法。

技术介绍

[0002]在工程领域,常常需要建立图纸与其文本内容之间的关系,以便快速查询图纸中物料编码、元器件编号等信息及其对应的图纸。以往此类工作大多基于人工手段实现,效率较低下,在大量图纸的文本数据处理情况下人力资源的成本极为高昂。因此,需要一种自动识别图纸文本内容的方法代替人工,完成大批量pdf图纸的文本提取,以此降低人工成本的同时提高工程图纸的文本提取效率。
[0003]当前针对图纸的文本识别一般需要两个步骤:文本检测、文本识别。文本检测目的在于检测出图纸中的文本区域,实现文本在图像中的定位,并输出对应文本区域的位置坐标信息;文本识别目的在于,针对图纸中的文本区域,输出对应的文本。
[0004]可见,现有的图纸文本提取手段存在成本高昂、效率低下以及图纸内容复杂等问题。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中所述的缺陷,从而提供一种成本低廉、效率高的大尺寸复杂pdf工程图纸文本检测与识别方法。
[0006]为了实现上述目的,本专利技术提供如下技术方案:
[0007]一种大尺寸复杂pdf工程图纸文本检测与识别方法,包括以下步骤:
[0008]步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像;
[0009]步骤S2:将高分辨率图像切割为若干低分辨率的子图,并根据位置记录子图对应顺序;
[0010]步骤S3:进行第一次子图文本检测,初步定位子图中的文本区域范围,输出范围对应的位置坐标;
[0011]步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;
[0012]步骤S5:进行第二次文本检测,精确定位文本区域中的文本,并裁剪对应的文本块;
[0013]步骤S6:对文本块进行文本识别,提取文本块中的文本内容,以及对应的坐标位置。
[0014]步骤S2中,通过使用滑动窗口裁剪,将高分辨率图像切割为若干低分辨率的子图。
[0015]步骤S3中,使用AdvancedEAST方法完成子图的文本检测,初步获取子图中文本区域的粗略位置信息。
[0016]步骤S4包括:
[0017]步骤S41:将步骤S3中的坐标位置映射到原高分辨率大图上;
[0018]步骤S42:去除坐标信息中的重复数据;
[0019]步骤S43:根据去重后的位置坐标,裁剪对应的文本区域图像。
[0020]步骤S5中,对步骤S4中得到的文本区域图像进行第二次文本检测,对文本进行精确定位,并裁剪出对应的文本图像。
[0021]步骤S6中,使用PaddleOCR文本识别方案,完成对步骤S5中得到的文本图像的文本识别,最终输出文本内容以及对应的图像区域坐标。
[0022]与现有技术相比,本专利技术提供的大尺寸复杂pdf工程图纸文本检测与识别方法具有以下有益效果:
[0023]本专利技术提供的方法可精确的检测出大尺寸复杂PDF工程图纸中的有效文本区域,包括横向文本区域坐标信息、竖向文本区域坐标信息,并准确的识别出有效文本区域内的文本内容。
[0024]并且本专利技术通过连续两次文本检测,有效避免了线条、图案等干扰对于识别的不利影响,提高了复杂图纸的文本识别准确率。
[0025]进一步地,本专利技术通过滑动窗口分块处理方式实现文本检测识别方法应用在大尺寸图纸上,同时避免了连续文本被截断的风险。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0027]图1为本专利技术实施例所提供的大尺寸复杂pdf工程图纸文本检测与识别方法的流程图。
具体实施方式
[0028]下面通过具体实施方式进一步详细说明。
[0029]本专利技术提供了一种大尺寸复杂pdf工程图纸文本检测与识别方法,方法总体可分为四部分:一、处理PDF图纸,转换为高分辨率图像,并有序拆分为固定尺寸的子图。二、进行两次文本检测,精确定位文本区域。第一次检测针对子图,找出子图中存在文本的粗略区域范围;第二次检测针对第一次检测的区域,排除区域中存在的干扰,精确定位文本位置。三、文本坐标处理,将子图中的坐标映射到高分辨率大图上,并筛除坐标中的重复数据;四、文本识别,针对文本检测结果,识别对应区域的文本内容,输出文本内容及其对应的坐标位置。
[0030]如图1所示,本专利技术提供的大尺寸复杂pdf工程图纸文本检测与识别方法包括以下步骤:
[0031]步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像,如3680x2944的千万像素级别图像;
[0032]步骤S2:使用滑动窗口裁剪方法,将高分辨率图像切割为若干较小尺寸的子图,并
根据裁剪窗口的横、纵向滑动次数i、j记录子图对应序号。具体做法为:对于3680x2944的大图,每个子图I
i,j
的宽度w和高度h均为736,横、纵向滑动步长Δx、Δy均为368,最终得到63个子图;
[0033]步骤S3:使用AdvancedEAST方法完成子图的文本检测,初步获取子图中文本区域的粗略位置信息,具体表现为矩形文本区域的四个顶点,对应8个坐标值(x0,y0)

(x3,y3);
[0034]步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;
[0035]步骤S41:将步骤S3中的坐标位置映射到原高分辨率大图上,坐标映射公式如下:
[0036]X
m
=i*Δx+x
m
,m=0,1,2,3;
[0037]Y
n
=j*Δy+y
n
,n=0,1,2,3;
[0038]步骤S42:去除坐标信息中的重复数据。由于步骤S2中使用滑动窗口裁剪得到子图,检测中必然存在同一文本区域被检测多次的情形,从而得到多组指向原图中同一区域的坐标信息,这些重复数据需要合并为一组坐标数据。重复数据合并判定公式如下:
[0039][0040]其中,S
i
表示文本区域,如果文本检测区域存在包含情形,则合并文本区域坐标,舍弃较小区域坐标。
[0041]步骤S43:根据去重后的位置坐标,裁剪对应的文本区域图像。
[0042]步骤S5:对第一次文本检测的文本区域图像进行第二次文本检测,对文本进行精确定位,并裁剪出对应的文本图像。二次检测能够有效地去除第一次检测的文本区域中文本内容以外的线条或图案干扰本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大尺寸复杂pdf工程图纸文本检测与识别方法,其特征在于,包括以下步骤:步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像;步骤S2:将高分辨率图像切割为若干低分辨率的子图,并根据位置记录子图对应顺序;步骤S3:进行第一次子图文本检测,初步定位子图中的文本区域范围,输出范围对应的位置坐标;步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;步骤S5:进行第二次文本检测,精确定位文本区域中的文本,并裁剪对应的文本块;步骤S6:对文本块进行文本识别,提取文本块中的文本内容,以及对应的坐标位置。2.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法,其特征在于,步骤S2中,通过使用滑动窗口裁剪,将高分辨率图像切割为若干低分辨率的子图。3.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与...

【专利技术属性】
技术研发人员:姚昊潘炼伍吉泽李武平沈祯杰刘忠良李清熊伟张永兴李强
申请(专利权)人:中核核电运行管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1