【技术实现步骤摘要】
表单录入方法及装置、电子设备和计算机可读介质
[0001]本专利技术涉及计算机领域,尤其涉及一种表单录入方法、表单录入装置、电子设备和计算机可读介质。
技术介绍
[0002]随着电子设备的发展,许多功能转移到了线上进行。在使用电子设备的过程中,用户经常需要填写各种表单。由于许多表单填写的信息经常是重复的,例如个人信息等,因此,为了减少用户的表单填写工作量,目前提出许多自动进行表单填写的相关方案。然而,在目前的表单填充方案中,通常仅支持单一应用的表单填写,例如快递应用中保存的信息,仅支持在进行快递单号查询或快递表单填写时使用。因此,使用场景单一,导致用户在其他应用中进行表单填写时,仍需要手动进行填写,适用范围窄。
[0003]OCR(Optical Character Recognition,光学字符识别)技术通常用于字符识别,其通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。企业的货物交易一般通过表单作为商品交易的记录凭证,传统的表单需要存档时,需要员工对着表单的每个单元格的内容进行人工录入,但是传统的人工录入表单耗时较长,效率不高。
[0004]在医学领域,也有很多信息采集需要用到OCR技术,如病历信息、检查结果、影像学检查结果。目前电子病历的信息都是自然语句形式,无法直接用作科研分析。因此,研究者在做科研分析时,需要逐一录入结构化系统或者转化为结构化数据,费时费力,而且容易出错。虽然OCR技术已经广泛应 ...
【技术保护点】
【技术特征摘要】
1.一种表单录入方法,包括:步骤S1:扫描待录入表单以获取表单图像,所述待录入表单具有高度方向和宽度方向;步骤S2:将所述表单图像划分为多个单元格,并将每一个单元格的文本块图像区切割成至少一个单独的文本图像;步骤S3:对所述多个单独的文本图像分别识别,以获取所述文本图像中的文字;和步骤S4:基于所述识别结果,将所述待录入表单录入预先存储的表单模板中。2.根据权利要求1所述的表单录入方法,其中,所述步骤S2包括:步骤S21:选定所述待录入表单的顶点和边线并执行矩形变换,以获得表单轮廓;步骤S22:选定分割线以将所述表单图像划分为所述多个单元格,每个单元格的边与所述高度方向或所述宽度方向平行;步骤S23:对划分后的每一个单元格进行矩形变换以获得矩形单元格;和步骤S24:切割每一个矩形单元格中的文本块图像区,以获得所述多个单独的文本图像。3.根据权利要求2所述的表单录入方法,其中,所述步骤S22包括:确定相邻单元格之间在所述高度方向或所述宽度方向上的分割线,在相邻单元格在所述高度方向上相邻的情况下,所述分割线平行于所述宽度方向,在相邻单元格在所述宽度方向上相邻的情况下,所述分割线平行于所述高度方向;和以所述分割线划分相邻的单元格。4.根据权利要求2所述的表单录入方法,其中,所述步骤S24包括:对于每一个矩形单元格中的所述文本块图像区,确定连续的文本块图像;和将所述文本块图像切割成至少一个单独的文本图像。5.根据权利要求4所述的表单录入方法,其中,所述确定连续的文本块图像的步骤包括:将连续的文本块图像中每一个的长度与设定值相比较,并在判定文本块图像的长度大于所述设定值时将所述文本块图像切割成单独的文本图像。6.根据权利要求5所述的表单录入方法,其中,当判定文本块图像的长度大于所述设定值时,所述文本块图像包括至少两个字符。7.根据权利要求1所述的表单录入方法,其中:在所述步骤S2中,确定每一个文本图像在所述待录入表单中的位置;以及在所述步骤S4中,以所述确定的位置,将在所述步骤S3中获取的文字放置到所述表单模板中的对应位置。8.根据权利要求7所述的表单录入方法,其中:在所述步骤S2中,基于所述位置为每一个文本图像编号;以及在所述步骤S4中,以所述文本图像编号将步骤S3中获取的文字放置到所述表单模板中的对应位置。9.根据权利要求8所述的表单录入方法,其中,在所述步骤S4中,对编号的每一个文本图像分配关键词,并基于所述关键词将所述文本图像放置到所述表单模板中的对应位置。10.根据权利要求1所述的表单录入方法,其中,所述步骤S3包括:对所述多个文本图像进行文字识别;
将识别后的文字导入文字库并与所述文字库中的字符比对;和基于所述比对结果,选取与所述待录入表单中的文字相符的字符。11.根据权利要求10所述的表单录入方法,其中,在所述步骤S4中,将选取的所述字符录入所述表单模板中。12.根据权利要求1
‑
11中任一项所述的表单录入方法,其中,在所述步骤S1之后且在所述步骤S2之前,所述表单录入方法还包括:对所述表单图像进行二值化处理,以获得二值化的表单图像。13.一种表单录入装置,包括:表单扫描模块,所述表单扫描模块扫描待录入表单以获取表单图像,所述待录入表单具有高度方向和宽度方向;图像处理模块,所述图像处理模块将所述表单图像划分为多个单元格,并将每一个单元格的文本块图像区切割成至少一个单独的文本图像;识别模块,所述识别模块对所述多个单独的...
【专利技术属性】
技术研发人员:韩东燃,窦智丽,马一跃,郭凤英,刘一星,
申请(专利权)人:北京中医药大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。