【技术实现步骤摘要】
一种基于OCR的流程快速建模方法及系统
[0001]本专利技术涉及计算机
,尤其涉及一种基于OCR的流程快速建模方法及系统。
技术介绍
[0002]OCR(Optical Character Recognition),中文叫做光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着科技的发展,越来越多的应用场景(比如:涉及金融、保险、智慧安防、地产、教育的应用场景)都需要OCR的技术支持,以识别证件印刷体中的文本信息。
[0003]而在不同的业务场景中,存在大量的流程图,在需要建立流程模型时,一般都是根据业务流程中每个流程的定义进行建模,使得流程模型的准确率过渡依赖于流程定义文件,一方面降低流程模块的建立速度,另一方面若流程定义文件不准确,生成的流程模型的准确率也会受到影响。另外,业务场景的多变与某个流程的重新定义,导致已建立的流程模型无法 ...
【技术保护点】
【技术特征摘要】
1.一种基于OCR的流程快速建模方法,其特征在于,包括:获取待建模流程的流程图集,并根据预设的OCR识别模型,对所述流程图集中的每个流程图进行识别,获得每个流程图各自对应的第一流程数据;其中,第一流程数据是由所述OCR识别模型识别出的字符特征而表征,且每个第一流程数据包括:若干个流程节点、每个流程节点的节点类型以及每个流程节点的流向;遍历所有第一流程数据,将流程节点相同的流程数据进行加权融合,生成所述待建模流程的第二流程数据;其中,所述第二流程数据中的各个流程节点均不相同;所述加权融合包括节点类型融合和节点流向融合;根据所述第二流程数据,构建待建模流程的第一流程模型。2.根据权利要求1所述的基于OCR的流程快速建模方法,其特征在于,所述根据预设的OCR识别模型,对所述流程图集中的每个流程图进行识别,具体为:通过所述OCR识别模型,对待识别流程图进行区域划分,获得若干个带文字字符的子区域,并确定每个子区域对应的区域类型和区域流向;对每个子区域的文字字符进行字符切割和字符特征提取,获得每个子区域对应的若干个字符特征;根据每个子区域各自的区域类型、区域流向和所述若干个字符特征,判断各子区域是否为流程节点,并根据确定为流程节点的所有子区域,生成所述第一流程数据。3.根据权利要求2所述的基于OCR的流程快速建模方法,其特征在于,所述遍历所有第一流程数据,将流程节点相同的流程数据进行加权融合,生成所述待建模流程的第二流程数据,具体为:将各第一流程数据之间的流程节点进行字符特征比对,将比对结果符合预设条件的所有流程节点对作为待融合节点对;对每个待融合节点对进行节点类型融合和节点流向融合,生成若干个融合后的流程节点;根据融合后的流程节点和未融合的流程节点,生成所述待建模流程的第二流程数据。4.根据权利要求3所述的基于OCR的流程快速建模方法,其特征在于,所述对每个待融合节点对进行节点类型融合和节点流向融合,生成若干个融合后的流程节点,具体为:判断各待融合节点对之间是否存在相同的流程节点;若存在,则将具有相同流程节点的所有待融合节点对进行节点对间的第一节点类型融合和第一节点流向融合;若不存在,则将不具有相同流程节点的待融合节点对进行节点对内的第二节点类型融合和第二节点流向融合;所述第一节点类型融合为:计算待融合节点对内各流程节点的节点类型出现频次,并将出现频次最高的节点类型作为融合后流程节点的节点类型;所述第一节点流向融合为:根据预设的流向初始权重,对待融合节点对内各流程节点的流向进行权重计算,将权重最高的流向作为融合后流程节点的流向;所述第二节点类型融合为:若待融合节点对内流程节点的节点类型相同,则将相同的节点类型作为融合后流程节点的节点类型;若待融合节点对内流程节点的节点类型不相同,则响应用户输入的操作,确定融合后流程节点的节点类型;
所述第二节点流向融合为:若待融合节点对内流程节点的流向相同,则将相同的流向作为融合后流程节点的流向;若待融合节点对内流程节点的流向不相同,则根据预设的流向初始权重,对待融合节点对内流程节点的流向进行权重计算,将权重最高的流向作为融合后流程节点的流向。5.根据权利要求4所述的基于OCR的流程快速建模方法,其特征在于,所述根据所述第二流程数据,构建待建模流程的第一流程模型,具体为:根据所述第二流程数据中各流程节点的流向,确定各流程节点之间的关系,并根据各流程节点的节点类型,构建待建模流程的第一流程模型;其中,所述第一流程模型中记录了各流程节点在进行融合时的流向权重。6.根据权利要求5所述的基于OCR的流程快速建模方法,其特征在于,在所述构建待建模流程的第一流程模型之后,还包括:获取第三流程图,并根据预设的OCR识别模型,对所述第三流程图进行识别,获得所述第三流程图对应的第三流程数据;其中,所述第三流程图为所述流程图集之外的流程图;依次判断所述第三流程数据中的流程节点是否与所述第一流程模型中的流程节点相同;当相同时,根据第一流程模型记录的流向权重,结合第三流程数据,重新计算相同流程节点的流向权重,并根据第一计算结果,更新所述第一流程模型及记录的流向权重;当不相同时,根据不相同流程节点的节点类型和流向,更新所述第一流程模型。7.根据权利要求5所述的基于OCR的流程快速建模方法,其特征在于,在所述构建待建模流程的第一流程模型之后,还包括:获取第四流程图,并根据预设的OCR识别模型,对所述第四流程图进行识别,获得所述第四流程图对应的第四流程数据;其中,所述第四流程图为所述流程图集内的任一流程图;查询所述第一流程模型,将与所述第四流程数据中流程节点相同的节点作为待调整节点;根据待调整节点在所述第一流程模型记录的流向权重,剔除第四流程数据中各流程节点的流向对流向权重的影响,重新计算待调整节点的流向权重,并根...
【专利技术属性】
技术研发人员:李思伟,李锦洲,池沐霖,张旭君,申鑫,
申请(专利权)人:京华信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。