一种基于OCR识别技术的表单快速搭建方法技术

技术编号:36343022 阅读:62 留言:0更新日期:2023-01-14 17:56
本发明专利技术公开了一种基于OCR识别技术的表单快速搭建方法,包括以下步骤:S1:上传纸质表格图片;S2:基于OCR识别技术,识别出图片中的文字、文字在图片中的绝对位置以及文字的范围;S3:对于识别到的文字进行语义化,获得对应的表单组件;S4:识别图片中各个字段的布局位置。本发明专利技术中,将表单拍照上传即可快速识别,省去了使用excel导入需要先手动将信息录入到excel的操作,最大限度地降低手动录入花费的时间成本和人力成本,增加了识别语义化的过程,通过自动识别,快速分析和匹配字段类型,帮助用户快速理解表单的组件类型,用户无需理解字段类型的差异,即可快速搭建表单,降低用户理解成本。理解成本。理解成本。

【技术实现步骤摘要】
一种基于OCR识别技术的表单快速搭建方法


[0001]本专利技术涉及低代码
,尤其涉及一种基于OCR识别技术的表单快速搭建方法。

技术介绍

[0002]低代码开发平台(LCDP)是无需编码(0代码)或通过少量代码就可以快速生成应用程序的开发平台。通过可视化进行应用程序开发的方法(参考可视编程语言),使具有不同经验水平的开发人员可以通过图形化的用户界面,使用拖拽组件和模型驱动的逻辑来创建网页和移动应用程序。
[0003]低代码的表单功能正在逐渐取代线下的纸质化流程,但在纸质化向线上化转型中,需要大量的将线下的纸质表格手动输入到系统中,创建新的表格,首先,对于不熟悉低代码使用的人群,或者表格内容较多的情况下,手动录入的方式耗费时间和人力,也容易出现遗漏偏差等问题;
[0004]其次,使用已有的excel/word导入创建表单的方式,需要先完成纸质表格到excel/word文档的录入工作,同样需要人工先转录,才能再次导入,占用较多的人力成本和时间成本;
[0005]最后,现有公开号为:CN109784235A,名称为“纸质表单的自动录入方法、装置、计算机设备和存储介质”,以及公开号为:CN109886108A,名称为“一种表单任意区域字符识别与信息录入方法”的中国专利,虽然同样实现了表单搭建,但是其本质是通过录入数据而非识别文字的方式搭建表单,且依赖于已有的电子模板,适用场景有限。

技术实现思路

[0006]为了解决上述
技术介绍
中所提到的技术问题,而提出的一种基于OCR识别技术的表单快速搭建方法。
[0007]为了实现上述目的,本专利技术采用了如下技术方案:
[0008]一种基于OCR识别技术的表单快速搭建方法,包括以下步骤:
[0009]S1:通过表单搭建页面的上传图片入口上传纸质表格图片,图片上传成功后,调用OCR服务接口对图片进行亮暗度、清晰度检查,对于满足检查要求的图片调用图片识别接口,对于不满足检查要求的图片,重新拍照上传;
[0010]S2:通过调用OCR文字识别服务接口,获取返回的图片中的文字数据,文字数据包括图片分辨率信息、识别到的文字信息和文字在图片中的绝对位置坐标信息,若图片中不包含文字,识别失败,返回步骤S1;
[0011]S3:对于识别到的文字进行语义匹配,获得对应的表单组件;
[0012]S4:计算识别到的文字在布局中的绝对位置与宽高,结合布局预设方案计算出字段在布局中的位置;
[0013]S5:根据识别出的表单组件、布局位置和比例进行排列,获得表单预览页面,根据
识别出表单组件获得组件列表,手动调整组件列表中的组件类型,对表单预览页面中的表单组件进行编辑;
[0014]S6:确认表单预览页面中的字段无误后,在表单设计页面生成表单页面,设置表单参数,完成表单创建。
[0015]作为上述技术方案的进一步描述:
[0016]在步骤S3中,所述文字语义匹配步骤包括:
[0017]S31:将识别到的文字与数据库中的字段名称进行精确和模糊匹配,获取匹配到的字段名称对应的表单组件集合,并对表单组件集合进行分组统计,取分组中数量最多的组件类型作为待匹配文字的类型;
[0018]S32:当匹配到的组件类型为单选或者复选或者表格时,则继续进行字段匹配,单选或者多选会继续识别选项值,表格则按照步骤S31识别表格中的组件类型;
[0019]S33:当未匹配到的组件类型为单选、复选或者表格的复合类型时,手动确定识别到的文字是单选、复选或者表格,并将其他字段加入到该复合类型中;
[0020]S34:基于步骤S31

S33匹配失败的,按照语义化基本规则进行匹配,基于语义化基本规则和步骤S31

S33均匹配失败的,组件类型默认为TEXT。
[0021]作为上述技术方案的进一步描述:
[0022]在步骤S31中,字段精确匹配为:将待匹配的识别文字作为匹配条件带入到查询条件中的name.keyword做关键字筛选,对筛选到的记录按字段类型dataType进行分组统计,取统计数量最大的组的类型作为文字的语义化字段类型。
[0023]作为上述技术方案的进一步描述:
[0024]在步骤S31中,字段模糊匹配为:当精确匹配无法匹配到数据时,采用分词进行模糊匹配,取相关性最大的记录的类型作为待匹配文字的类型,最大相关性数据存在多条,则对记录按字段类型进行分组,取最大分组的类型作为文字的语义化类型。
[0025]作为上述技术方案的进一步描述:
[0026]在步骤S32中,当匹配到的类型是一个单选或者复选类型时,则会进行选项的匹配,选项的匹配规则为:
[0027]S321、基于步骤S31确认字段类型的数据样本,获取这些数据的options属性,并将这些选项全部封装为一个Set集合再去重,得到一个选项的并集;
[0028]S322、通过并集集合到OCR识别数据中精确匹配可能选项;
[0029]当匹配到的类型是一个表格类型时,则会进行表格表头字段的匹配,其匹配规则为:
[0030]S323、基于步骤S31确认字段类型的数据样本,获取这些数据的tableField属性,并将这些表头字段全部封装为一个Set集合再去重,得到一个表头字段的并集;
[0031]S324、通过并集集合到OCR识别数据中精确匹配可能选项。
[0032]作为上述技术方案的进一步描述:
[0033]在步骤S1中,采用图像清晰度评价算法计算图像清晰度,在Tenegrad函数中使用Sobel算子处理图片后,提取图片水平和垂直方向的梯度值,若计算所得的梯度值低于预设的阈值,则判断图片不满足检查要求。
[0034]作为上述技术方案的进一步描述:
[0035]在步骤S4中,表单布局的预设方案包括:1/2行、1/3行、1/4行、2/3行、3/4行、整行,单行至多允许有4个组件,根据OCR识别到的文字位置计算出字段在表单布局中的相对位置。
[0036]作为上述技术方案的进一步描述:
[0037]在步骤S4中,表单布局计算步骤如下:
[0038]S41、以图片的宽度imageWidth为基准,获取第一个识别到的字段,获取这个字段的width属性值,计算imageWidth

width,若计算结果小于0,则该第一个字段独占一行,否则,记录这个计算结果用于第二次计算;
[0039]S42、获取下一个字段,运用上一个计算结果再计算宽度,直到计算结果小于等于0或者字段数达到4个为止,之后再进行下一行的布局计算,小于0时最后一个字段不计入当前行,等于0时,最后一个字段计入当前行;
[0040]S43、当获取到的字段类型是TABLE类型时,直接进行下一行的布局计算,并且TABLE独占一行,同时,TABLE内的字段不参与位置的计算,直接显示在TABLE中。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR识别技术的表单快速搭建方法,其特征在于,包括以下步骤:S1:通过表单搭建页面的上传图片入口上传纸质表格图片,图片上传成功后,调用OCR服务接口对图片进行亮暗度、清晰度检查,对于满足检查要求的图片调用图片识别接口,对于不满足检查要求的图片,重新拍照上传;S2:通过调用OCR文字识别服务接口,获取返回的图片中的文字数据,文字数据包括图片分辨率信息、识别到的文字信息和文字在图片中的绝对位置坐标信息,若图片中不包含文字,识别失败,返回步骤S1;S3:对于识别到的文字进行语义匹配,获得对应的表单组件;S4:计算识别到的文字在布局中的绝对位置与宽高,结合布局预设方案计算出字段在布局中的位置;S5:根据识别出的表单组件、布局位置和比例进行排列,获得表单预览页面,根据识别出表单组件获得组件列表,手动调整组件列表中的组件类型,对表单预览页面中的表单组件进行编辑;S6:确认表单预览页面中的字段无误后,在表单设计页面生成表单页面,设置表单参数,完成表单创建。2.根据权利要求1所述的一种基于OCR识别技术的表单快速搭建方法,其特征在于,在步骤S3中,所述文字语义匹配步骤包括:S31:将识别到的文字与数据库中的字段名称进行精确和模糊匹配,获取匹配到的字段名称对应的表单组件集合,并对表单组件集合进行分组统计,取分组中数量最多的组件类型作为待匹配文字的类型;S32:当匹配到的组件类型为单选或者复选或者表格时,则继续进行字段匹配,单选或者多选会继续识别选项值,表格则按照步骤S31识别表格中的组件类型;S33:当未匹配到的组件类型为单选、复选或者表格的复合类型时,手动确定识别到的文字是单选、复选或者表格,并将其他字段加入到该复合类型中;S34:基于步骤S31

S33匹配失败的,按照语义化基本规则进行匹配,基于语义化基本规则和步骤S31

S33均匹配失败的,组件类型默认为TEXT。3.根据权利要求2所述的一种基于OCR识别技术的表单快速搭建方法,其特征在于,在步骤S31中,字段精确匹配为:将待匹配的识别文字作为匹配条件带入到查询条件中的name.keyword做关键字筛选,对筛选到的记录按字段类型dataType进行分组统计,取统计数量最大的组的类型作为文字的语义化字段类型。4.根据权利要求3所述的一种基于OCR识别技术的表单快速搭建方法,其特征在于,在步骤S31中,字段模糊匹配为:当精确匹配无法匹配到数据时,采用分词进行模糊匹配,取相关性最大的记录的类型作为待匹配文字的类型,最大相关性数据存在多条,则对记录按字段类型进行分组,取最大分组的类型作为文字的语义化类型。5.根据权利要求4所述的一种基于OCR识别技术的表单...

【专利技术属性】
技术研发人员:陶滨江
申请(专利权)人:上海纽酷信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1