工程图纸矢量化和图元语义提取方法技术

技术编号:8215872 阅读:252 留言:0更新日期:2013-01-17 15:33
本发明专利技术工程图纸矢量化和图元语义提取方法,包括如下步骤:S1,利用脚本语言提取PDF图纸文件中的信息数据或生成对应BMP格式图像数据,并对图像格式的文件进行进一步预处理;S2,利用种子段算法对图像数据中的直线图元进行矢量化;S3,对图像数据中的圆/圆弧进行矢量化;S4,图元关系识别,利用基于连通区域的图文分离算法去除图纸图像上的标注框、文字信息;S5,输出结果。本发明专利技术工程图纸矢量化和图元语义提取方法通过对图文分离算法的预处理,以及对种子段矢量化方法的改进,提高了矢量化的准确率和处理速度;同时通过规则匹配算法,较好地解决了图样语义信息的提取难题,为机器智能读图以及三维重建提供了较好的数据基础。

【技术实现步骤摘要】

本专利技术涉及工程图纸图元语义信息提取及图纸矢量化

技术介绍
光栅图像矢量化(Raster to Vector Conversion,简称为RVC),就是利用计算机图形学、数字图像处理、人工智能等综合技术,把通过扫描仪输入到计算机中的以光栅图像格式保存的工程图,识别成矢量图形,最后以CAD软件能够识别的格式保存的过程。光栅图形矢量化,不仅在机械设计领域,更在各种工程设计、地理信息等行业具有广泛的应用前景,具有重要的理论和实践意义。另外,除了图元信息外,一张实际工程图纸主要由图形元素、尺寸标注、文字等三部分构成。可由如下形式表达P={E,D,T}其中,P-工程图纸,E-图形元素,D-尺寸标注,T-文本说明这三部分所表达的各种信息构成了工程图样语义的主要内容。其中的文字说明部分包括产品的一些材料、精度、加工要求等信息。一般这些说明不涉及零件的三维形体信息,所以通常意义上的图样语义是指图形和尺寸标注两方面。通过标注提取和文字提取,可以为矢量化后的图纸数据的三维重建提供基础。常见的矢量化方法有基于细化的算法、动态骨架算法、轮廓匹配算法、网格模式算法和基于游程算法等以及基于整体识别的种子段算法等,同时也有将人工智能技术融合到矢量化方法当中,如神经网络技术和模糊识别技术等。图元语义提取涉及的方法主要有规则匹配、图文分离、文字识别三块内容。规则匹配是利用固定的规则判断出标注线、外型线、箭头、消隐线等图元;图文分离的主要目的是从图文混合的工程图中,将所有字符标注分离出来,本质上属于一种图像分割算法,通常利用轮廓特征进行判定;文字识别主要利用特征量算法实现。目前已有德国的vpstudio软件,Able公司的R2v软件等多种图纸矢量化软件,这些软件在一定程度上可以较好进行图纸的矢量化,但它们并不完美,矢量化的准确率不是很高,存在各种不足之处。同时在图元语义提取上,效果都比较差,不能准确识别箭头、标注等内容(基本上都是把文字识别为多段直线)。
技术实现思路
本专利技术的目的在于提供一种解决不同格式的工程图纸识别和输出的。为解决上述技术问题,本专利技术,包括如下步骤SI,利用脚本语言提取PDF图纸文件中的信息数据或生成对应BMP格式图像数据,并对图像格式的文件进行进一步预处理;S2,利用种子段算法对图像数据中的直线图元进行矢量化;S3,对图像数据中的圆/圆弧进行矢量化;S4,图元关系识别,利用基于连通区域的图文分离算法去除图纸图像上的标注框、文字信息;S5,输出结果。所述种子段算法包括如下步骤S2. 1,搜索种子段;S2. 2,种子段生长;S2. 3,已识别直线的擦除。所述搜索种子段包括如下步骤S2. I. 1,以黑像素点C为中心作一个正方形窗口,从上边界开始,按顺时针方向取窗口边界上的连续黑像素段为候选段;S2. I. 2,将未处理的、长度为L的候选段,以其中点P作为初始点来寻找种子段;S2. I. 3,从P开始,按CP确定的方向,以搜索步长r为步长测正交方向上的黑像素段长度,如黑像素段长度< L,即为规则段,否则为不规则段,并以当前测得的规则段中点为Q;S2. I. 4,检查P、Q之间的黑像素连通区;S2. I. 5,结束寻找。所述S2. 1.2中,若无未处理的候选段,如搜索半径R <最大搜索范围scope,则R=R+r,并跳至S2. I. I。所述S2. I. 2中,若无未处理的候选段,如搜索半径R彡最大搜索范围scope,则结束寻找。所述S2. I. 3中,连续测得的规则段数η ;连续测得的不规则段数m,设当前测得的规则段中点为Q,如果nXr彡KXL,则进入S2. 1.4。所述S2. I. 3中,连续测得的规则段数η;连续测得的不规则段数m,设当前测得的规则段中点为Q,如果mXr> scope或| CP | >scope,则结束寻找并返回S2. I. 2。所述S2. I. 4中,若P、Q之间的黑像素连通区合格,则结束寻找,返回成功标志。所述S2. 1.4中,若P、Q之间的黑像素连通区不合格,则返回S2. 1.3。所述种子段生长包括如下步骤S2. 2. I,用Bresenham算法生成种子段长轴方向的正交方向路径;S2. 2. 2,按种子段的长轴方向用Bresenham算法逐点生成从种子段的中心点开始的跟踪路径,每生成一个点,检查该点对应的像素点是否为黑点。在所述S2. 2. 2中,如检查该点对应的像素点是黑点,则累计连续黑点的长度,如果长度大于噪音阈值,则将在检测到黑点前连续白点的长度记入路径段表.检查在当前路径点处的正交连通长度。在所述S2. 2. 2中,如检查该点对应的像素点不是黑点,则累计连续白点的长度,如果长度大于噪音阈值,则将在检测到白点前连续黑点的长度记入路径段表。在所述S2. 2. 2中,如果在检测到白点前连续黑点的长度大于虚线间距的阈值,则结束当前方向上的跟踪。所述已识别直线的擦除包括如下步骤S2. 3. 1,沿直线的路径测试路径正交方向上的连通长度,将路径划分为有交点段和无交点段,无交点段按线宽完全擦除;S2. 3. 2,检测交点处直线的中心线两侧的分支情况及其局部轮廓。在所述S2. 3. 2中,如所述分支为两侧分支,则用两边轮廓的趋势计算出近似的擦除边界。在所述S2. 3. 2中,如所述分支为单侧分支,则将无分支的一侧擦除至直线的中心线,另一侧用轮廓的趋势计算。所述S3利用最小二乘法逼近算法提取直线段中的圆及圆弧信息。所述S4利用规则匹配算法提取直线段、圆弧段中的箭头、标注线、辅助线、消隐线、外型线等语义信息;利用OCR技术对擦除已识别图元的图像进行文字识别,利用规则匹配算法将文字和图元信息关联。所述S5利用XML格式将所有已矢量化的图元及其语义信息输出至文件保存。本专利技术通过对图文分离算法的预处理,以及对种子段矢量化方法的改进,提高了矢量化的准确率和处理速度;同时通过规则匹配算法,较好地解决了图样语义信息的提取难题,为机器智能读图以及三维重建提供了较好的数据基础。附图说明图I为本专利技术流程图;图2A为本专利技术直线矢量化搜索种子段流程图;图2B为本专利技术直线矢量化种子段生长流程图;图2C为本专利技术直线矢量化已识别直线的擦除流程图。具体实施例方式下面结合附图对本专利技术作进一步详细说明。如图I、图2所示,本专利技术利用Ghostscript脚本语言提取HF图纸文件中的信息数据或生成对应BMP格式图像数据;对图像格式的文件进一步预处理(去噪及二值化);利用改进的种子段算法提取图像中的所有直线段图元信肩、O从一个黑像素点c开始按定义寻找种子段的算法如下r为搜索步长,scope为最大搜索范围,均根据图纸扫描分辨率确定。初始设R=r。Stepl. 1,以黑像素点c为中心作一个边长为2XR的正方形窗口,从上边界开始,按顺时针方向取窗口边界上的长度接近线宽范围的连续黑像素段为候选段。Stepl. 2,若有未处理的候选段(长度为L),以中点p作为初始点来寻找种子段。若无未处理的候选段,如R〈scope,则R=R+r,并跳至Stepl. I ;若R彡scope,结束寻找,返回失败标志。St印L 3,从P开始,按cp确定的方向(上、下、左或右),以r为步长测正交方向上的黑像素段长度,长度接近或小于L的本文档来自技高网
...

【技术保护点】
工程图纸矢量化和图元语义提取方法,其特征在于,包括如下步骤:S1,利用脚本语言提取PDF图纸文件中的信息数据或生成对应BMP格式图像数据,并对图像格式的文件进行进一步预处理;S2,利用种子段算法对图像数据中的直线图元进行矢量化;S3,对图像数据中的圆/圆弧进行矢量化;S4,图元关系识别,利用基于连通区域的图文分离算法去除图纸图像上的标注框、文字信息;S5,输出结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙煦峰吴康宁陶余会赵亮
申请(专利权)人:上海中和软件有限公司上海复旦复华科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1