一种流程模型图的自动识别与理解方法技术

技术编号:19009438 阅读:82 留言:0更新日期:2018-09-22 09:16
本发明专利技术公开了一种流程模型图的自动识别与理解方法,属于流程挖掘领域;本发明专利技术首先构建基本图元模板,然后使用图元模板匹配流程模型图,识别流程模型图中的任务、活动、事件、网关、箭头等模型元素,并使用筛选技术去除重复匹配节点和错误匹配区域;然后使用流程模型图切割技术,获得包含文本的节点所在区域的图片,并使用OCR文字识别技术识别图片中的文本;然后对流程模型图进行灰度处理,获得并存储流程模型图的灰度值矩阵,最后根据模型图中箭头和最近邻节点的位置,在灰度值矩阵中遍历,识别有向边的开始节点和结束节点。本发明专利技术能够正确的识别模型节点的类型、模型节点的位置和模型节点中的文本,也能正确识别流程模型图中的有向边。

An automatic recognition and understanding method of process model diagram

The invention discloses an automatic identification and understanding method of process model diagram, which belongs to the field of process mining. First, the basic primitive template is constructed, and then the primitive template is used to match the process model diagram to identify the task, activity, event, gateway, arrow and other model elements in the process model diagram, and the filtering technology is used. Remove duplicate matching nodes and mismatched areas; then use process model graph cutting technology to get the picture of the area where the node contains text, and use OCR word recognition technology to identify the text in the picture; then process the process model graph to gray-scale processing, and obtain and store the gray-scale value matrix of the process model graph, the most. Then, according to the position of the arrow and the nearest neighbor node in the model graph, the beginning node and the end node of the directed edge are identified by traversing the gray value matrix. The invention can correctly identify the type of the model node, the position of the model node and the text in the model node, and also correctly identify the directed edge in the flow model diagram.

【技术实现步骤摘要】
一种流程模型图的自动识别与理解方法
本专利技术属于流程挖掘领域,具体涉及一种流程模型图的自动识别与理解方法。
技术介绍
当前流程模型图的识别与理解主要包含两类方案:一种是使用工程图识别系统来识别流程模型图,第二种是通过静态规则库完成流程模型图的识别。第一种方法使用工程图识别系统识别流程模型图,根据工程领域的不同,现有的工程识图系统有法国LORIA研究所的Celesstin系统、以色列工程技术大学的MDUS系统等等。在使用工程图识别系统识别流程模型图时,首先需要将流程模型图位图中转为工程识图系统可读取的矢量描述,然后在矢量描述基础上识别基本图元、识别模型元素符号和提取模型语义。第二种方法使用静态规则库完成流程模型的识别,首先定义流程模型图中模型节点和有向边的基本图元,然后通过图像相似度计算方法,在流程模型图中匹配基本图元,识别流程模型图中的模型元素。综合分析两种方法,工程识图系统能够识别图片中的基本图元,识别工程对象和工程语义,但是工程识图系统通用性差,工程识图系统根据工程领域定义了节点的类型,而流程模型图中节点类型工程图中节点类型不完全相同,因此使用工程识图系统识别流程模型图会存在模型节点丢失的问题。静态规则库定义了流程模型图中的基本图元,因此可以识别流程模型图中模型节点的类型和位置,但是流程模型图中有向边的形状不确定,不能定义所有形状边的基本图元,因此使用静态规则库识别流程模型图会丢失有向边的信息。本专利技术提出一种流程模型图的自动识别与理解技术,可以准确的识别模型节点的位置、尺寸和模型节点的文本,能够准确的识别有向边的开始结束节点。因此从整体来看本专利技术所提出的技术与思路是创新的,是现有流程模型图识别方法无法实现的。现有的流程模型图的自动识别与理解方法包括工程识图识别,静态规则库识别等方案。其技术缺点主要体现在以下几个方面:工程识图用于识别专有领域工程图的图元和语义,因而工程识图系统的通用性差,因为不存在专用于业务流程图识别的系统,所以工程识图系统中节点的类型与流程模型图中节点的类型不完全相同。因而在使用工程识图系统识别流程模型图会存在部分节点不能被识别,造成识别的流程模型结构不完整,或有向边开始结束节点丢失等问题。静态规则库识别流程模型时,首先需要定义流程模型图基本单元的图元模板,流程模型图中模型节点的种类有限,因而可以定义模型节点的基本图元,但是流程模型图中有向边的起点坐标、终点坐标、拐点个数、箭头指向不同,所以不能通过定义所有的形状的边。因此在使用静态规则库识别流程模型图时,有向边不能被完全识别,最终识别的流程模型中会存在孤立节点,造成流程模型结构的错误。
技术实现思路
针对现有技术中存在的上述技术问题,本专利技术提出了一种流程模型图的自动识别与理解方法,设计合理,克服了现有技术的不足,具有良好的效果。为了实现上述目的,本专利技术采用如下技术方案:一种流程模型图的自动识别与理解方法,采用模型元素识别模块、模型节点文本识别模块和模型有向边识别模块;模型元素识别模块,被配置为构建基本图元模板,使用基本图元模板识别流程模型中包括活动、任务、事件、网关、箭头在内的模型元素,使用筛选技术去除重复匹配节点和错误匹配区域;模型节点文本识别模块,被配置为根据模型节点的位置和尺寸切割流程模型图,获得模型节点所在区域的小图片,使用OCR(OpticalCharacterRecognition,光学字符识别)文字识别技术识别小图片中的文本;模型有向边识别模块,被配置为灰度处理流程模型图,获得并存储流程模型图中每个像素点的灰度值,生成流程模型图灰度值矩阵,并根据箭头位置、箭头最近邻节点位置,从灰度值矩阵中遍历识别有向边;所述的将流程模型图自动识别与理解的方法,具体包括如下步骤:步骤1:模型元素的识别;步骤2:模型节点文本的识别;步骤3:模型有向边的识别。优选地,在步骤1中,具体包括如下步骤:步骤1.1:基本图元模板的构造;通过研究流程模型图的基本组成单元,构造包括事件、活动、网关、任务、箭头在内的模型元素的图元模板,其中每个图元模板都有对应的图元图片、元素类型、元素宽度和元素高度;步骤1.2:模型元素的匹配;将图元模板在流程模型图中滑动,并通过图像相似度计算方法计算图元模板与流程模型图中各个重叠区域的相似度,从所有区域中选择与图元模板最相似的若干区域,这些区域就是从流程模型图中识别的模型元素;步骤1.3:匹配结果的筛选;去除模型元素匹配结果中重复识别和错误识别区域,当两个识别结果区域非常接近时,将相似度低的识别结果作为重复识别区域去除,当识别的结果区域中边框不完整或不包含任何符号像素时,将其作为错误识别区域从识别结果中去除。优选地,在步骤2中,具体包括如下步骤:步骤2.1:流程模型图切割;从流程模型元素识别的结果中获得所有模型节点的位置、尺寸和类型信息,对于包含文本信息的模型节点,使用图片切割技术切割流程模型图,获得仅包含模型节点区域的小图片;步骤2.2:OCR文字识别;使用OCR文字识别技术识别模型节点小图片中的文本信息,也就是节点的文本信息。优选地,在步骤3中,具体包括如下步骤:步骤3.1:流程模型图的灰度化处理;对流程模型图做灰度处理,获得并存储流程模型图中每个相似点对应的灰度值,生成流程模型图对应的灰度值矩阵;步骤3.2:有向边识别;通过模型元素识别模块识别模型节点和箭头的位置,与箭头最相邻的模型节点即为箭头所在有向边的终点,有向边与流程模型图背景的灰度值不同,根据箭头的位置、箭头相对于模型节点的位置、最近邻模型节点位置,从灰度值矩阵中沿着有向边的走向反向遍历,找到有向边的开始节点本专利技术所带来的有益技术效果:基本图元模板构造技术:静态规则库通过构造节点和有向边的图片模板来识别流程模型图中的元素,因为不能穷举所有形状的有向边,所以本专利技术在构造基本图元模板时仅构造模型节点和箭头的图元模板,可以极大缩短图元模板的构造时间。匹配结果筛选技术:现有的模型元素识别方法没有对重复匹配和错误匹配做优化处理,本专利技术在模型元素匹配之后,对匹配结果筛选,去除重复匹配的节点和错误识别区域,提高了模型元素识别的准确率。模型节点文本识别技术:工程识图系统和静态规则库识别流程模型中文本时,以流程模型图整体作为输入,因此不能准确判定哪些模型元素中存在文本信息,而且文字识别复杂度高;本专利技术使用图片切割技术获得包含文本信息节点所在区域的小图片,然后识别小图片中的文本作为模型节点的文本,可以使识别结果更加准确,识别的效率得到提升。流程模型图的灰度化处理技术:工程识图系统和静态规则库识别流程模型图时,在流程模型图中直接发现有向边,需要对流程模型图中各像素值重复读取,本专利技术对流程模型图做灰度处理,获得流程模型图的灰度值矩阵,在有向边识别时可以直接从灰度值矩阵中读取流程模型图的灰度值,缩短了有向边识别的时间。模型有向边识别技术:静态规则库通过定义图元模板识别流程模型图中的有向边,存在有向边丢失的问题,本专利技术根据箭头的位置,箭头最近邻节点的位置从灰度值矩阵中遍历得到有向边,可以保证有向边的准确识别。附图说明图1为本专利技术基本原理图。图2为箭头的图元模板示意图。图3为模型元素匹配过程示意图。图4为活动节点切割结果示意图。图5为开始事件节点的灰度化处理结果示意图。图本文档来自技高网
...
一种流程模型图的自动识别与理解方法

【技术保护点】
1.一种流程模型图的自动识别与理解方法,其特征在于:采用模型元素识别模块、模型节点文本识别模块和模型有向边识别模块;模型元素识别模块,被配置为构建基本图元模板,使用基本图元模板识别流程模型中包括活动、任务、事件、网关、箭头在内的模型元素,使用筛选技术去除重复匹配节点和错误匹配区域;模型节点文本识别模块,被配置为根据模型节点的位置和尺寸切割流程模型图,获得模型节点所在区域的小图片,使用OCR文字识别技术识别小图片中的文本;模型有向边识别模块,被配置为灰度处理流程模型图,获得并存储流程模型图中每个像素点的灰度值,生成流程模型图灰度值矩阵,并根据箭头位置、箭头最近邻节点位置,从灰度值矩阵中遍历识别有向边;所述的将流程模型图自动识别与理解的方法,具体包括如下步骤:步骤1:模型元素的识别;步骤2:模型节点文本的识别;步骤3:模型有向边的识别。

【技术特征摘要】
1.一种流程模型图的自动识别与理解方法,其特征在于:采用模型元素识别模块、模型节点文本识别模块和模型有向边识别模块;模型元素识别模块,被配置为构建基本图元模板,使用基本图元模板识别流程模型中包括活动、任务、事件、网关、箭头在内的模型元素,使用筛选技术去除重复匹配节点和错误匹配区域;模型节点文本识别模块,被配置为根据模型节点的位置和尺寸切割流程模型图,获得模型节点所在区域的小图片,使用OCR文字识别技术识别小图片中的文本;模型有向边识别模块,被配置为灰度处理流程模型图,获得并存储流程模型图中每个像素点的灰度值,生成流程模型图灰度值矩阵,并根据箭头位置、箭头最近邻节点位置,从灰度值矩阵中遍历识别有向边;所述的将流程模型图自动识别与理解的方法,具体包括如下步骤:步骤1:模型元素的识别;步骤2:模型节点文本的识别;步骤3:模型有向边的识别。2.根据权利要求1所述的流程模型图的自动识别与理解方法,其特征在于:在步骤1中,具体包括如下步骤:步骤1.1:基本图元模板的构造;通过研究流程模型图的基本组成单元,构造包括事件、活动、网关、任务、箭头在内的模型元素的图元模板,其中每个图元模板都有对应的图元图片、元素类型、元素宽度和元素高度;步骤1.2:模型元素的匹配;将图元模板在流程模型图中滑动,并通过图像相似度计算方法计算图元模板与流程模型图中各个重叠区域的相似度,从所有区域中...

【专利技术属性】
技术研发人员:段华原桂远曾庆田刘聪李超鲁法明倪维健周长红赵华林泽东刁秀丽温彦
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1