一种基于KMP算法的单模板工作流优化方法技术

技术编号:28871795 阅读:16 留言:0更新日期:2021-06-15 23:04
本发明专利技术公开一种基于KMP算法的单模板工作流优化方法,涉及图像文字识别领域;获取单模板工作流中模板图片,根据模板图片字符串的子串的前缀集合和后缀集合构建模板图片的字符串部分匹配表,根据字符串部分匹配表基于KMP算法匹配模板图片字符串与测试图片OCR识别字符串。

【技术实现步骤摘要】
一种基于KMP算法的单模板工作流优化方法
本专利技术公开一种方法,涉及图像文字识别领域,具体地说是一种基于KMP算法的单模板工作流优化方法。
技术介绍
单模板通常指一种可以识别单个板式图片中的文字,能够自主构建文字识别的模板。而单模板工作流能够自主构建文字识别模板,识别模板图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度,其中字符串匹配查找是单模板工作流评估应用阶段的关键步骤,但是现在单模板工作流还没有完善方法既能使模板图片字符串与OCR识别的测试图片字符高效查找匹配,又能提高单模板工作流文字识别的精度。
技术实现思路
本专利技术针对现有技术的问题,提供一种基于KMP算法的单模板工作流优化方法,涉及基于KMP算法思想的单模板工作流优化方法,提高单模板工作流评估应用阶段效果。本专利技术提出的具体方案是:一种基于KMP算法的单模板工作流优化方法,其特征是获取单模板工作流中模板图片,根据模板图片字符串的子串的前缀集合和后缀集合构建模板图片的字符串部分匹配表,根据字符串部分匹配表基于KMP算法匹配模板图片字符串与测试图片OCR识别字符串。进一步,所述的一种基于KMP算法的单模板工作流优化方法中根据模板图片字符串的子串归类统计模板图片字符串的子串的前缀集合和后缀集合,匹配模板图片字符串的子串的前缀集合和后缀集合,获取前缀集合和后缀集合中最长公共元素长度,构建模板图片的字符串部分匹配表。进一步,所述的一种基于KMP算法的单模板工作流优化方法中归类统计模板图片字符串的子串的前缀集合和后缀集合:遍历模板图片字符串的所有子串,根据字符串前缀与后缀的定义归类统计模板图片字符串的子串的前缀集合和后缀集合。进一步,所述的一种基于KMP算法的单模板工作流优化方法中匹配模板图片字符串与测试图片OCR识别字符串:从字符串部分匹配表中获取字符串的子串对应的部分匹配值,利用已匹配的字符数减去对应的部分匹配值获得匹配过程中模板图片字符串需要移动的位数,进行模板图片字符串与测试图片OCR识别字符串匹配。一种基于KMP算法的单模板工作流优化系统,包括获取模块、构建模块及匹配模块,获取模块获取单模板工作流中模板图片,构建模块根据模板图片字符串的子串的前缀集合和后缀集合构建模板图片的字符串部分匹配表,匹配模块根据字符串部分匹配表基于KMP算法匹配模板图片字符串与测试图片OCR识别字符串。进一步,所述的一种基于KMP算法的单模板工作流优化系统中构建模块根据模板图片字符串的子串归类统计模板图片字符串的子串的前缀集合和后缀集合,匹配模板图片字符串的子串的前缀集合和后缀集合,获取前缀集合和后缀集合中最长公共元素长度,构建模板图片的字符串部分匹配表。进一步,所述的一种基于KMP算法的单模板工作流优化系统中构建模块归类统计模板图片字符串的子串的前缀集合和后缀集合:遍历模板图片字符串的所有子串,根据字符串前缀与后缀的定义归类统计模板图片字符串的子串的前缀集合和后缀集合。进一步,所述的一种基于KMP算法的单模板工作流优化系统中匹配模块匹配模板图片字符串与测试图片OCR识别字符串:从字符串部分匹配表中获取字符串的子串对应的部分匹配值,利用已匹配的字符数减去对应的部分匹配值获得匹配过程中模板图片字符串需要移动的位数,进行模板图片字符串与测试图片OCR识别字符串匹配。一种基于KMP算法的单模板工作流优化装置,包括至少一个存储器和至少一个处理器;所述至少一个存储器,用于存储机器可读程序;所述至少一个处理器,用于调用所述机器可读程序,执行所述的一种基于KMP算法的单模板工作流优化方法。本专利技术的有益之处是:本专利技术提供一种基于KMP算法的单模板工作流优化方法,通过基于KMP算法优化单模板工作流,能够实现在单模板工作流的评估应用阶段构建一种查找匹配算法模型,应用于模板图片字符串与OCR识别的测试图片字符串的快速匹配,从而提高单模板工作流文字识别模型的精度,保证结构化信息的提取效果。附图说明图1是本专利技术方法应用流程示意图;图2是本专利技术方法流程示意图;图3是本专利技术方法实施例中第一次匹配比对示意图;图4是本专利技术方法实施例中第二次匹配比对示意图;图5是本专利技术方法实施例中第三次匹配比对示意图;图6是本专利技术方法实施例中第四次匹配比对示意图;图7是本专利技术方法实施例中第五次匹配比对示意图;图8是本专利技术方法实施例中最终匹配比对示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。本专利技术提供一种基于KMP算法的单模板工作流优化方法,其特征是获取单模板工作流中模板图片,根据模板图片字符串的子串的前缀集合和后缀集合构建模板图片的字符串部分匹配表,根据字符串部分匹配表基于KMP算法匹配模板图片字符串与测试图片OCR识别字符串。本专利技术方法通过基于KMP算法优化单模板工作流,能够实现在单模板工作流的评估应用阶段构建一种查找匹配算法模型,应用于模板图片字符串与OCR识别的测试图片字符串的快速匹配,从而提高单模板工作流文字识别模型的精度,保证结构化信息的提取效果。具体应用中,在本专利技术的一些实施例中获取单模板工作流中模板图片后为匹配模板图片字符串与测试图片OCR识别字符串,进行如下步骤:S1:遍历模板图片字符串的所有子串。遍历模板图片字符串的所有子串,将遍历结果添加至数组,遍历过程伪代码如下:array=[]//初始化前、后缀空集合fort←0tolen(string)doprefix.append(string[:t+1])//添加所有字符子串到数组ArrayrepeatendS2:归类统计模板图片字符串的子串前、后缀集合。其中前缀是指从串首开始到某个位置结束的一个特殊子串,可利用如下公式表示:prefix(S,i)=S[0...i]表示字符串S的以i结尾的前缀,真前缀指除了S本身的S的前缀。例如“纳税人识别号”的真前缀包括{“纳”,“纳税”,“纳税人”,“纳税人识”,“纳税人识别”};后缀是指从某个位置i开始到整个串末尾结束的一个特殊子串。可利用如下公式表示:suffix(S,i)=S[i..|S|-1]表示字符串S的以i开头的后缀,真后缀指除了S本身的S的后缀。例如,”购买方”的真后缀包括{”买方”,”方”}。根据字符串前缀与后缀的定义,完成遍历模板图片字符串。根据上述字符串真前缀与真后缀的定义归类统计模板图片字符串的子串前、后缀集合。S3:匹配模板图片字符串子串前、后缀集合,寻找子串最长公共元素长度。所有子串前缀和后缀在数量上是对称的,可以从前缀中找出一个,与后缀进行匹配,先不关心做这个匹配的意义,以模板图片字符串ABCDABD为例,寻找子串最长公共元素本文档来自技高网...

【技术保护点】
1.一种基于KMP算法的单模板工作流优化方法,其特征是获取单模板工作流中模板图片,根据模板图片字符串的子串的前缀集合和后缀集合构建模板图片的字符串部分匹配表,根据字符串部分匹配表基于KMP算法匹配模板图片字符串与测试图片OCR识别字符串。/n

【技术特征摘要】
1.一种基于KMP算法的单模板工作流优化方法,其特征是获取单模板工作流中模板图片,根据模板图片字符串的子串的前缀集合和后缀集合构建模板图片的字符串部分匹配表,根据字符串部分匹配表基于KMP算法匹配模板图片字符串与测试图片OCR识别字符串。


2.根据权利要求1所述的一种基于KMP算法的单模板工作流优化方法,其特征是根据模板图片字符串的子串归类统计模板图片字符串的子串的前缀集合和后缀集合,匹配模板图片字符串的子串的前缀集合和后缀集合,获取前缀集合和后缀集合中最长公共元素长度,构建模板图片的字符串部分匹配表。


3.根据权利要求1或2所述的一种基于KMP算法的单模板工作流优化方法,其特征是归类统计模板图片字符串的子串的前缀集合和后缀集合:
遍历模板图片字符串的所有子串,根据字符串前缀与后缀的定义归类统计模板图片字符串的子串的前缀集合和后缀集合。


4.根据权利要求3所述的一种基于KMP算法的单模板工作流优化方法,其特征是匹配模板图片字符串与测试图片OCR识别字符串:
从字符串部分匹配表中获取字符串的子串对应的部分匹配值,利用已匹配的字符数减去对应的部分匹配值获得匹配过程中模板图片字符串需要移动的位数,进行模板图片字符串与测试图片OCR识别字符串匹配。


5.一种基于KMP算法的单模板工作流优化系统,其特征是包括获取模块、构建模块及匹配模块,
获取模块获取单模板工作流中模板图片,构建模块根据模板图片字符串的子串的前缀集合和后...

【专利技术属性】
技术研发人员:玄洪升李明明潘心冰郭保荣冷静
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1