当前位置: 首页 > 专利查询>清华大学专利>正文

文本提取方法、装置及设备制造方法及图纸

技术编号:35299412 阅读:25 留言:0更新日期:2022-10-22 12:47
本申请实施例提供一种文本提取方法、装置及设备。该方法包括:获取待处理图纸对应的图纸图像;对图纸图像进行切分处理,得到多个图像块;分别对每个图像块进行文本框识别,以在每个图像块中确定初始文本框、以及初始文本框在对应的图像块中的文本框位置;根据多个图像块中的初始文本框、以及初始文本框在对应的图像块中的文本框位置,在图纸图像中确定多个目标文本框;在图纸图像中,对多个目标文本框中的内容进行文本识别处理,以得到待处理图纸对应的文本信息。提高了文本信息提取的准确性。提高了文本信息提取的准确性。提高了文本信息提取的准确性。

【技术实现步骤摘要】
文本提取方法、装置及设备


[0001]本申请实施例涉及计算机
,具体涉及一种文本提取方法、装置及设备。

技术介绍

[0002]在多种应用场景中,需要在图纸中提取文本信息。图纸可以包括图像、可携带文档格式(Portable Document Format,PDF)图纸等。
[0003]在相关技术中,通常采用光学字符识别(Optical Character Recognition,OCR)相关技术在图纸中提取文本信息,在OCR相关技术中,对待处理的图纸的尺寸大小有一定的要求,例如,通常仅能处理尺寸较小的图纸。然而,当图纸的尺寸较大时,无法通过OCR相关技术提取图纸中的文本信息,或者通过OCR相关技术对图纸中的文本信息提取的准确性较差。
[0004]由上可知,在相关技术中,当图纸的尺寸较大时,对图纸中的文本信息提取的准确性较差。

技术实现思路

[0005]本申请实施例提供一种文本提取方法、装置及设备,提高了文本信息提取的准确性。
[0006]第一方面,本申请实施例提供一种文本提取方法,包括:
[0007]获取待处理图纸对应的图纸图像;
[0008]对所述图纸图像进行切分处理,得到多个图像块;
[0009]分别对每个图像块进行文本框识别,以在每个图像块中确定初始文本框、以及所述初始文本框在对应的图像块中的文本框位置;
[0010]根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置,在所述图纸图像中确定多个目标文本框;<br/>[0011]在所述图纸图像中,对所述多个目标文本框中的内容进行文本识别处理,以得到所述待处理图纸对应的文本信息。
[0012]在一种可能的实施方式中,根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置,在所述图纸图像中确定多个目标文本框,包括:
[0013]确定所述多个图像块在所述图纸图像中的图像块位置;
[0014]针对任意一个图像块,根据所述图像块位置和所述图像块中的初始文本框的文本框位置,将所述图像块中的初始文本框映射至所述图纸图像,以在所述图纸图像中确定所述图像块对应的目标文本框。
[0015]在一种可能的实施方式中,根据所述图像块位置和所述图像块中的初始文本框的文本框位置,将所述图像块中的初始文本框映射至所述图纸图像,以在所述图纸图像中确定所述图像块对应的目标文本框,包括:
[0016]根据所述图像块位置,在所述图纸图像中确定所述图像块对应的图像区域;
[0017]根据所述图像块中的初始文本框的文本框位置,在所述图像区域中确定所述初始文本框对应的目标位置;
[0018]在所述图纸图像中,确定所述目标位置对应的待选文本框;
[0019]对所述待选文本框进行去除竖直文本框处理、倾斜校正处理、合并重叠区域处理、切割多行文本框处理、精细化处理中的至少一种,以得到所述图像块对应的目标文本框。
[0020]在一种可能的实施方式中,获取待处理图纸对应的图纸图像,包括:
[0021]获取所述待处理图纸的图纸文件;
[0022]将所述图纸文件转换为图像格式,得到初始图纸图像;
[0023]对所述初始图纸图像进行轮廓剪裁处理、以及非文本内容去除处理,得到所述图纸图像。
[0024]在一种可能的实施方式中,对所述图纸图像进行切分处理,得到多个图像块,包括:
[0025]确定滑动窗尺寸、竖直滑动步长和水平滑动步长;
[0026]按照所述滑动窗尺寸,在所述图纸图像中切分滑动窗内的图像,以及按照所述竖直滑动步长和所述水平滑动步长,对所述滑动窗进行滑动处理,直至得到所述多个图像块。
[0027]在一种可能的实施方式中,在所述图纸图像中,对所述多个目标文本框中的内容进行文本识别处理,以得到所述待处理图纸对应的文本信息,包括:
[0028]对所述图纸图像进行版面解析处理,得到所述图纸图像对应的版面信息;
[0029]在所述图纸图像中,分别对每个目标文本框中的内容进行文本识别,得到所述多个目标文本框对应的子文本信息;
[0030]根据所述版面信息,对所述多个目标文本框对应的子文本信息进行排版处理,得到所述待处理图纸对应的文本信息。
[0031]在一种可能的实施方式中,所述方法还包括:
[0032]确定所述文本信息中各语句的文本类型,所述文本类型为结构化数据类型或非结构化数据类型;
[0033]存储所述文本信息、以及所述文本信息中各语句的文本类型。
[0034]第二方面,本申请实施例提供一种文本提取装置,包括获取模块、切分模块、文本框识别模块、第一确定模块、文本识别模块,其中,
[0035]所述获取模块用于,获取待处理图纸对应的图纸图像;
[0036]所述切分模块用于,对所述图纸图像进行切分处理,得到多个图像块;
[0037]所述文本框识别模块用于,分别对每个图像块进行文本框识别,以在每个图像块中确定初始文本框、以及所述初始文本框在对应的图像块中的文本框位置;
[0038]所述第一确定模块用于,根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置,在所述图纸图像中确定多个目标文本框;
[0039]所述文本识别模块用于,在所述图纸图像中,对所述多个目标文本框中的内容进行文本识别处理,以得到所述待处理图纸对应的文本信息。
[0040]在一种可能的实施方式中,所述第一确定模块具体用于:
[0041]确定所述多个图像块在所述图纸图像中的图像块位置;
[0042]针对任意一个图像块,根据所述图像块位置和所述图像块中的初始文本框的文本
框位置,将所述图像块中的初始文本框映射至所述图纸图像,以在所述图纸图像中确定所述图像块对应的目标文本框。
[0043]在一种可能的实施方式中,所述第一确定模块具体用于:
[0044]根据所述图像块位置,在所述图纸图像中确定所述图像块对应的图像区域;
[0045]根据所述图像块中的初始文本框的文本框位置,在所述图像区域中确定所述初始文本框对应的目标位置;
[0046]在所述图纸图像中,确定所述目标位置对应的待选文本框;
[0047]对所述待选文本框进行去除竖直文本框处理、倾斜校正处理、合并重叠区域处理、切割多行文本框处理、精细化处理中的至少一种,以得到所述图像块对应的目标文本框。
[0048]在一种可能的实施方式中,所述获取模块具体用于:
[0049]获取所述待处理图纸的图纸文件;
[0050]将所述图纸文件转换为图像格式,得到初始图纸图像;
[0051]对所述初始图纸图像进行轮廓剪裁处理、以及非文本内容去除处理,得到所述图纸图像。
[0052]在一种可能的实施方式中,所述切分模块具体用于:
[0053]确定滑动窗尺寸、竖直滑动步长和水平滑动步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本提取方法,其特征在于,包括:获取待处理图纸对应的图纸图像;对所述图纸图像进行切分处理,得到多个图像块;分别对每个图像块进行文本框识别,以在每个图像块中确定初始文本框、以及所述初始文本框在对应的图像块中的文本框位置;根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置,在所述图纸图像中确定多个目标文本框;在所述图纸图像中,对所述多个目标文本框中的内容进行文本识别处理,以得到所述待处理图纸对应的文本信息。2.根据权利要求1所述的方法,其特征在于,根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置,在所述图纸图像中确定多个目标文本框,包括:确定所述多个图像块在所述图纸图像中的图像块位置;针对任意一个图像块,根据所述图像块位置和所述图像块中的初始文本框的文本框位置,将所述图像块中的初始文本框映射至所述图纸图像,以在所述图纸图像中确定所述图像块对应的目标文本框。3.根据权利要求2所述的方法,其特征在于,根据所述图像块位置和所述图像块中的初始文本框的文本框位置,将所述图像块中的初始文本框映射至所述图纸图像,以在所述图纸图像中确定所述图像块对应的目标文本框,包括:根据所述图像块位置,在所述图纸图像中确定所述图像块对应的图像区域;根据所述图像块中的初始文本框的文本框位置,在所述图像区域中确定所述初始文本框对应的目标位置;在所述图纸图像中,确定所述目标位置对应的待选文本框;对所述待选文本框进行去除竖直文本框处理、倾斜校正处理、合并重叠区域处理、切割多行文本框处理、精细化处理中的至少一种,以得到所述图像块对应的目标文本框。4.根据权利要求1

3任一项所述的方法,其特征在于,获取待处理图纸对应的图纸图像,包括:获取所述待处理图纸的图纸文件;将所述图纸文件转换为图像格式,得到初始图纸图像;对所述初始图纸图像进行轮廓剪裁处理、以及非文本内容去除处理,得到所述图纸图像。5.根据权利要求1

4任一项所述的方法,其特征在于,对所述图纸图像进行切分处理,得到多个图像块,包括:确定滑动窗尺寸、竖直滑动步长和水平...

【专利技术属性】
技术研发人员:张荷花彭维方
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1