一种流程图像识别方法技术

技术编号:18445568 阅读:100 留言:0更新日期:2018-07-14 10:38
本发明专利技术提出了一种流程图像识别方法,其技术特征在于:首先建立一个基于角点的流程图结构模型(CBSM),形式地定义用于描述流程图结构元素的各种角点类型、组合规则及约束;然后进行文图分割提取流程图结构,检测流程图结构的角点并提取角点邻域的网格特征和外围特征,采用SVM分类器实现角点分类;基于CBSM识别流程图结构;最后将流程图像识别结果以文本形式输出。本发明专利技术基于角点特征识别流程图结构元素,能够解决现有流程图像识别技术未能处理好的文图粘连及断边问题,为流程图像识别提供新方法。

A method of process image recognition

A method of process image recognition is proposed in this paper. Its technical features are: first, a flowchart structure model (CBSM) based on the corner point is set up, and the various corner types, combination rules and constraints used to describe the structure elements of the flowchart are defined in form, and then the flow chart structure is extracted and the flow chart is detected. The corner points of the structure and the peripheral features of the corner point neighborhood are extracted. The SVM classifier is used to classify the corner points, and the flow chart structure is identified based on the CBSM. Finally, the results of the process image recognition are output in text form. The invention based on the corner feature recognition flowchart structure element, can solve the problem that the existing process image recognition technology can not deal with the problem of text drawing adhesion and edge breaking, and provides a new method for process image recognition.

【技术实现步骤摘要】
一种流程图像识别方法
本专利技术属于图像识别
,特别涉及一种流程图像识别方法。
技术介绍
现有计算机信息检索系统主要采用基于文本匹配的检索技术,但化工、制药、机械、信息技术等领域中的文档往往还包含大量流程图像,这些图像蕴含丰富的信息,对于检索和查新至关重要。流程图可以直观地描述一个工作过程的具体步骤,具有重要的语义。由于现存文档中的流程图存在文图粘连和断边等情况导致流程图像识别效率不高,因此需要一种能够新的流程图像识别方法,解决以上问题。
技术实现思路
本专利技术的目的在于提供一种流程图像识别方法,通过基于角点特征的结构模型来识别流程图像。本方法包括建立一个基于角点的流程图结构模型(CBSM),然后对流程图结构进行角点检测与角点分类,依据角点组合规则和组合约束来识别流程图结构元素。为了实现上述目的,本专利技术采用的技术方案是:一种流程图像识别方法能够基于角点特征描述和识别流程图结构,步骤包括:S1建立CBSM,定义角点类型、描述流程图结构元素的角点组合规则以及角点组合约束包括:S11将描述流程图结构元素的角点分为独立型和连接型两大类,命名各类角点并建立流程图像角点分类表;S12建立角点组合规则;S13建立角点组合约束。S2提取流程图像结构;对原始流程图像进行二值化、降噪处理,通过图文分割提取原始流程图像中的结构图层,对提取的流程图结构进行单像素化。S3对流程图结构进行角点检测和筛选,步骤为:S31通过CSS算法利用曲率检测出与直线型元素相关的角点,过滤掉曲线型结构元素上的圆角点和虚假角点。不同尺度σ下的曲率计算公式为:其中t是弧长参数,σ是尺度参数,分别为曲线l上一点的坐标x(t)和y(t)与一维高斯核函数g(μ,σ)的一阶导数和二阶导数的卷积;圆角点判定方法为:其中u为候选角点的位置参数,K(u)是候选角点的曲率,T(u)为与角点支持域自适应的动态局部阈值,与候选角点u处的局部平均曲率成正比,当Rc=1时表示角点为圆角点,给予滤除。其中Cc为需要判定的候选角点,∠Cc为角点Cc的角,θobtuse为真角点的最大钝角值,θobtuse的经验取值为162°,当Cc>θobtuse时,Cc为虚假角点。S32通过Harris算法检测与曲线型元素相关的角点,首先求输入图像I对应的x和y轴方向的一阶偏导Ix和Iy,利用高斯核Gx,y对其平滑,并构造自相关矩阵M,其中,是卷积算子,σ是高斯平滑尺度。通过自相关矩阵的特征值α、β(α≥β)来构造角点响应R并判决角点,R=αβ-k(α+β)2,其中,k(k=0.04)是错误角点响应抑制常数。S33采用距离筛选法对检测出的冗余角点进行筛选。计算指定范围内所有点之间的欧式距离,在欧几里得空间中,如点x=(x1,…,xn)和y=(y1,…,yn)之间的距离为:当角点间的距离小于指定阈值时,可删掉其中之一以减少冗余。S4得到步骤S3中角点的邻域特征并进行角点分类器的训练,对流程图中角点进行分类:S41以检测到的每个角点为中心截取41×41像素的角点邻域图像,提取角点邻域图像的网格特征和外围特征并将角点样本分类标注;S42使用支持向量机SVM分类器训练样本集,采用径向基核函数(RadialBasisFunction,RBF)作为SVM分类核函数;利用MATLAB中的LIBSVM工具箱来实现SVM多分类,引入惩罚因子c对其进行惩罚,通过参数调优设置惩罚因子c,使得数据在高维特征空间中的线性可分度最大。S43采用K-折交叉验证(K-foldCrossValidation,K-CV)将原始数据分成均分为K组,将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,用这K个模型最终验证集的分类准确率的平均数作为此K-CV下分类器的性能指标。S5采用基于CBSM结构元素识别算法对流程图像图元识别,步骤为:S51按照起始角点选择的优先级,在流程图中查找第一个未标注所属图元编号且未处理的角点作为起始角点,并将其标注为已处理角点;起始角点的选择包括:R-1,El-1,D*-1,R-2,Er-1,D*-3以及D*-4。起始角点的优先级为:不同类型间优先级:R-1=El-1=D*-1>R-2=Er-1=D*-3=D*-4;优先级相同时:按照从上到下,从左到右的位置顺序选择起始角点。S52从起始角点出发,按照CBSM中的角点组合规则,寻找可能构成图元的角点组合,若未找到满足条件的角点组合则返回S51;S53验证所获角点组合是否满足CBSM中给定的角点组合约束,若满足则在识别结果中添加新图元并对其进行编号,标注与相关角点的所属图元编号,若不满足返回S52;S54采用OCR(OpticalCharacterRecognition)技术识别图元对应位置处的文本信息,生成流程图的文本描述;S55检测未标注的角点集合是否可能构成新图元,若可能构成新图元则返回S51。与现有技术相比,本专利技术采用基于角点特征的结构模型的流程图像识别方法,对流程图结构元素提供了基于角点的新的定义方式,可以有效解决文图粘连和断边对专利流程图识别的影响,对整体流程图的识别快速有效。附图说明图1是本专利技术的流程示意图。图2是本专利技术流程S3示意图。图3是本专利技术流程S5示意图。图4是本专利技术实验获取到的36种角点示意图。图5是本专利技术流程S6示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合实施例、附图对本专利技术作进一步描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术的识别方法的步骤包括:S1建立一个基于角点的流程图结构模型(CBSM),定义描述流程图结构元素的角点组合规则以及角点组合约束;S2提取流程图结构;S3对流程图结构进行角点检测和筛选;S4得到步骤S3中角点的邻域特征并进行角点分类器的训练,对角点进行分类;S5基于CBSM对流程图结构元素进行识别;S6文本识别以及结构描述生成。其中步骤S1包括:S11将流程图结构元素分为两大类,命名各个独立型角点和连接型角点,建立如表1所示流程图像角点分类表,表1中上半部分为独立型角点,表1下半部分为连接型角点;表1流程图像角点分类S12根据图元与角点组合之间的关系,建立组合规则。将基本图元的角点组合规则定义为三类关系:角点组合关系,角点间相对位置关系,角点的几何关系。通过角点组合判断得到结构图元的识别结果。角点组合关系定义为确定类型角点的并集。角点间相对位置关系的定义为:假设Ci,Cj(i≠j)表示两个不同类型的角点,x(Ci)表示角点Ci横坐标,y(Ci)表示角点Ci纵坐标。定义角点Cj相对于角点Ci的相对位置可以有8种表示,分别为左上(ul),左(l),左下(dl),下(d),右下(dr),右(r),右上(ur),上(u),每种位置关系对应一个判定表达式。例如,r(Ci,Cj)表示Cj在Ci的右方位置,满足x(Ci)<x(Cj);d(Ci,Cj)表示Cj在Ci下方位置,满足y(Ci)<y(Cj);dl(Ci,Cj)表示Cj在Ci的左下方位置,满足(x(Ci)&本文档来自技高网...

【技术保护点】
1.一种流程图像识别方法,其特征在于,包括如下步骤:S1建立一个基于角点的流程图结构模型(CBSM),定义描述流程图结构元素的角点类型、角点组合规则以及角点组合约束;S2提取流程图结构;S3对流程图结构进行角点检测和筛选;S4得到步骤S3中角点的邻域特征并训练角点分类器,对角点进行分类;S5基于CBSM对流程图结构元素进行识别;S6文本识别以及结构描述生成。

【技术特征摘要】
1.一种流程图像识别方法,其特征在于,包括如下步骤:S1建立一个基于角点的流程图结构模型(CBSM),定义描述流程图结构元素的角点类型、角点组合规则以及角点组合约束;S2提取流程图结构;S3对流程图结构进行角点检测和筛选;S4得到步骤S3中角点的邻域特征并训练角点分类器,对角点进行分类;S5基于CBSM对流程图结构元素进行识别;S6文本识别以及结构描述生成。2.根据权利要求1所述流程图像识别方法,其特征在于,所述步骤S1中建立CBSM,定义描述流程图结构元素的角点类型、角点组合规则以及角点组合约束包括:S11将描述流程图结构元素的角点分为独立型和连接型两大类,命名各角点类型并建立流程图像角点分类表;S12建立角点组合规则;S13建立角点组合约束。3.根据权利要求2所述流程图像识别方法,其特征在于,所述步骤S11中,经典图元包括矩形、菱形和椭圆形,定义矩形为R图元,菱形为D图元,椭圆形为E图元,则描述经典图元的角点及其命名规则如下:将仅属于单个图元或连接线的角点定义为独立型角点,其中对R图元的四个角点和折线的角点,分别命名为:┌:R-1、┐:R-2、└:R-3、┘:R-4;将位于图元与连接线或连接线与连接线相接处的角点定义为连接型角点,其中对R图元和连接线相接处以及连接线与连接线相接处的角点,分别命名为:┴:Rb-1、┬:Rb-2、┤:Rb-3、├:Rb-4;将E图元的独立型角点根据位置分别命名为:El-1、Er-1、El-2、Er-2;将组成E图元的连接型角点分别命名为:┴:Rb-1、┬:Rb-2;将D图元的独立型角点按照上下左右的顺序依次命名为D-1、D-2、D-3、D-4;将D图元的连接型角点按照上下左右的顺序依次命名为Db-1、Db-2、Db-3、Db-4;所述步骤S12中,根据图元几何关系和角点相对位置关系,定义组合规则如下:角点相对位置关系:以Ci,Cj(i≠j)表示两个不同角点,x(Ci)表示角点Ci横坐标,y(Ci)表示角点Ci纵坐标,角点Cj相对于角点Ci的位置关系有8种,分别为左上、左、左下、下、右下、右、右上、上,依次分别表示为ul、l、dl、d、dr、r、ur、u,每种位置关系对应一个判定表达式;以r(Ci,Cj)表示Cj在Ci的右方位置,满足x(Ci)<x(Cj);d(Ci,Cj)表示Cj在Ci下方位置,满足y(Ci)<y(Cj);dl(Ci,Cj)表示Cj在Ci的左下方位置,满足(x(Ci)>x(Cj))∧(y(Ci)<y(Cj));其中,r(Ci,Cj)等价于l(Cj,Ci),d(Ci,Cj)等价于u(Cj,Ci),dr(Ci,Cj)等价于ul(Cj,Ci),dl(Ci,Cj)等价于ur(Cj,Ci),d(Ci,Cj)等价于u(Cj,Ci),r(Ci,Cj)等价于l(Cj,Ci);在流程图结构元素中,角点间几何关系描述为水平关系H或者垂直关系V,H(Ci,Cj)表示Ci与Cj处于同一条水平线上,满足y(Ci)=y(Cj);V(Ci,Cj)表示Ci与Cj处于同一条垂直线上,满足x(Ci)=y(Cj);其中,H(Ci,Cj)等价于H(Cj,Ci),V(Ci,Cj)等价于V(Cj,Ci);R图元的角点组合为R-1∧R-2∧R-3∧R-4;R图元的角点相对位置关系表示如下:r(R-1,R-2)∧d(R-1,R-3)∧dr(R-1,R-4)∧dl(R-2,R-3)∧d(R-2,R-4)∧r(R-3,R-4);R图元的角点间几何关系表示如下:H(R-1,R-2)∧V(R-1,R-3)∧H(R-3,R-4)∧V(R-2,R-4);E图元的角点组合表示为El-1∧El-2∧Er-1∧Er-2;E图元的角点之间相对位置表示如下:r(El-1,Er-1)∧d(El-1,El-2)∧dr(El-1,Er-2)∧dl(Er-1,El-2)∧d(Er-1,Er-2)∧r(El-2,Er-2);E图元的角点间几何关系表示如下:H(El-1,Er-1)∧V(El-1,El-2)∧H(El-2,Er-2)∧V(Er-1,Er-2);D图元的角点组合表示为D*-1∧D*-2∧D*-3∧D*-4,D*-表示D-型角点或Db-型角点,D-型角点为独立型角点,Db-型角点为连接型角点;D图元的角点相对位置关系表示如下:d(D*-1,D*-2)∧dl(D*-1,D*-3)∧dr(D*-1,D*-4)∧ul(D*-2,D*-3)∧ur(D*-2,D*-4)∧r(D*-3,D*-4);D图元的角点间几何关系表示如下:H(D*-3,D*-...

【专利技术属性】
技术研发人员:孙连山侯涛张沙沙
申请(专利权)人:陕西科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1