表单录入方法及装置、电子设备和计算机可读介质制造方法及图纸

技术编号:38928015 阅读:19 留言:0更新日期:2023-09-25 09:34
本发明专利技术提供一种表单录入方法、表单录入装置、电子设备和计算机可读介质,其能够快速且准确地自动录入表单中所包含的信息。所述表单录入方法包括:步骤S1:扫描待录入表单以获取表单图像,待录入表单具有高度方向和宽度方向;步骤S2:将表单图像划分为多个单元格,并将每一个单元格的文本块图像区切割成至少一个单独的文本图像;步骤S3:对多个单独的文本图像分别识别,以获取文本图像中的文字;和步骤S4:基于识别结果,将待录入表单录入预先存储的表单模板中。的表单模板中。的表单模板中。

【技术实现步骤摘要】
表单录入方法及装置、电子设备和计算机可读介质


[0001]本专利技术涉及计算机领域,尤其涉及一种表单录入方法、表单录入装置、电子设备和计算机可读介质。

技术介绍

[0002]随着电子设备的发展,许多功能转移到了线上进行。在使用电子设备的过程中,用户经常需要填写各种表单。由于许多表单填写的信息经常是重复的,例如个人信息等,因此,为了减少用户的表单填写工作量,目前提出许多自动进行表单填写的相关方案。然而,在目前的表单填充方案中,通常仅支持单一应用的表单填写,例如快递应用中保存的信息,仅支持在进行快递单号查询或快递表单填写时使用。因此,使用场景单一,导致用户在其他应用中进行表单填写时,仍需要手动进行填写,适用范围窄。
[0003]OCR(Optical Character Recognition,光学字符识别)技术通常用于字符识别,其通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。企业的货物交易一般通过表单作为商品交易的记录凭证,传统的表单需要存档时,需要员工对着表单的每个单元格的内容进行人工录入,但是传统的人工录入表单耗时较长,效率不高。
[0004]在医学领域,也有很多信息采集需要用到OCR技术,如病历信息、检查结果、影像学检查结果。目前电子病历的信息都是自然语句形式,无法直接用作科研分析。因此,研究者在做科研分析时,需要逐一录入结构化系统或者转化为结构化数据,费时费力,而且容易出错。虽然OCR技术已经广泛应用,但也存在缺点,如识别错误、无法识别表格信息和图片信息等,仍然需要人工核对。

技术实现思路

[0005]本专利技术提供一种表单录入方法、表单录入装置、电子设备和计算机可读介质,其能够快速且准确地自动录入表单中所包含的信息。
[0006]根据本专利技术实施例的一个方面,提出一种表单录入方法,包括:步骤S1:扫描待录入表单以获取表单图像,待录入表单具有高度方向和宽度方向;步骤S2:将表单图像划分为多个单元格,并将每一个单元格的文本块图像区切割成至少一个单独的文本图像;步骤S3:对多个单独的文本图像分别识别,以获取文本图像中的文字;和步骤S4:基于识别结果,将待录入表单录入预先存储的表单模板中。
[0007]根据本专利技术实施例的另一个方面,提出一种表单录入装置,包括:表单扫描模块,所述表单扫描模块扫描待录入表单以获取表单图像,待录入表单具有高度方向和宽度方向;图像处理模块,所述图像处理模块将表单图像划分为多个单元格,并将每一个单元格的文本块图像区切割成至少一个单独的文本图像;识别模块,所述识别模块对多个单独的文本图像分别识别,以获取文本图像中的文字;和录入模块,所述录入模块基于识别结果将待录入表单录入预先存储的表单模板中。
[0008]根据本专利技术实施例的又一个方面,提出一种电子设备,包括一个或多个处理器和用于存储一个或多个程序的存储装置。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述的表单录入方法。
[0009]根据本专利技术实施例的另外一个方面,提出一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述的表单录入方法。
附图说明
[0010]本专利技术的上述及其它方面和特征将从以下结合附图对实施例的说明清楚呈现,其中:
[0011]图1是本专利技术的实施例的表单录入方法的示意性流程图;
[0012]图2是本专利技术的实施例的表单录入装置的框结构图;以及
[0013]图3A

图3D是根据本专利技术的示例性实施例的表单录入示意图。
具体实施方式
[0014]下面参照附图详细描述本专利技术的说明性、非限制性实施例,对根据本专利技术的表单录入方法及装置、电子设备和计算机可读介质进行进一步说明。
[0015]在对患者就医信息的采集过程中,病历信息不仅繁多而且复杂,因此需要将采集的患者信息进行分模块填写,便于在使用过程中随时填写,随时自动记录。在本专利技术中,通过对包含大量信息的纸质或电子的图像(例如,B超、电子病例、处方等)进行扫描,获取表单图像或大段自然语句(如电子病例信息、处方信息等)。然后,对该表单图像的每个单元格的连续文字块进行切割获得单个文字图像,再利用OCR技术对文字进行识别,并基于识别结果将待录入表单中的信息自动填写至该表单的电子模板内,以便解决人工录入表单耗时高的问题。
[0016]在本专利技术中,文字识别技术不限于OCR,也可以是其他的文字识别技术。
[0017]图1显示本专利技术的实施例的表单录入方法的示意性流程图。所述表单录入方法包括:步骤S1:扫描待录入表单以获取表单图像,所述待录入表单具有高度方向和宽度方向;步骤S2:将表单图像划分为多个单元格,并将每一个单元格的文本块图像区切割成至少一个单独的文本图像;步骤S3:对多个单独的文本图像分别识别,以获取文本图像中的文字;和步骤S4:基于所述识别结果,将待录入表单录入预先存储的表单模板中。本专利技术的表单录入方法能够将表单中的信息自动录入预先存储的表单模板中,与传统的人工录入表单相比能够降低所需的时间,从而提高效率并节省成本。另外,本专利技术的表单录入方法由于从信息采集开始即分成单独区块分别识别文字信息,并自动录入表单模板中,因此与传统的OCR识别技术相比,能够准确地录入表单中的信息而无需人工核对。
[0018]进一步地,所述步骤S2包括:步骤S21:选定待录入表单的顶点和边线并执行矩形变换,以获得表单轮廓;步骤S22:选定分割线以将表单图像划分为多个单元格,每个单元格的边与高度方向或宽度方向平行;步骤S23:对划分后的每一个单元格进行矩形变换以获得矩形单元格;和步骤S24:切割每一个矩形单元格中的文本块图像区,以获得多个单独的文本图像。
[0019]在一个实施例中,所述步骤S22包括:确定相邻单元格之间在高度方向或宽度方向
上的分割线,在相邻单元格在高度方向上相邻的情况下,分割线平行于宽度方向,在相邻单元格在宽度方向上相邻的情况下,分割线平行于高度方向;和以分割线划分相邻的单元格。
[0020]在一个实施例中,所述步骤S24包括:对于每一个矩形单元格中的文本块图像区,确定连续的文本块图像;和将文本块图像切割成至少一个单独的文本图像。可选地,所述确定连续的文本块图像的步骤可以包括将连续的文本块图像中每一个的长度与设定值相比较,并在判定文本块图像的长度大于所述设定值时将文本块图像切割成单独的文本图像。当判定文本块图像的长度大于所述设定值时,文本块图像包括至少两个字符。
[0021]此外,在本专利技术的一个实施例的表单录入方法中,在步骤S2中确定每一个文本图像在待录入表单中的位置,且在步骤S4中,以所述确定的位置将在步骤S3中获取的文字放置到表单模板中的对应位置。
[0022]进一步地,在一个实施例中,在步骤S2中可以基于确定的位置为每一个文本图像编号,并在步骤S4中,以所述文本图像编号将步骤S3中获取的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表单录入方法,包括:步骤S1:扫描待录入表单以获取表单图像,所述待录入表单具有高度方向和宽度方向;步骤S2:将所述表单图像划分为多个单元格,并将每一个单元格的文本块图像区切割成至少一个单独的文本图像;步骤S3:对所述多个单独的文本图像分别识别,以获取所述文本图像中的文字;和步骤S4:基于所述识别结果,将所述待录入表单录入预先存储的表单模板中。2.根据权利要求1所述的表单录入方法,其中,所述步骤S2包括:步骤S21:选定所述待录入表单的顶点和边线并执行矩形变换,以获得表单轮廓;步骤S22:选定分割线以将所述表单图像划分为所述多个单元格,每个单元格的边与所述高度方向或所述宽度方向平行;步骤S23:对划分后的每一个单元格进行矩形变换以获得矩形单元格;和步骤S24:切割每一个矩形单元格中的文本块图像区,以获得所述多个单独的文本图像。3.根据权利要求2所述的表单录入方法,其中,所述步骤S22包括:确定相邻单元格之间在所述高度方向或所述宽度方向上的分割线,在相邻单元格在所述高度方向上相邻的情况下,所述分割线平行于所述宽度方向,在相邻单元格在所述宽度方向上相邻的情况下,所述分割线平行于所述高度方向;和以所述分割线划分相邻的单元格。4.根据权利要求2所述的表单录入方法,其中,所述步骤S24包括:对于每一个矩形单元格中的所述文本块图像区,确定连续的文本块图像;和将所述文本块图像切割成至少一个单独的文本图像。5.根据权利要求4所述的表单录入方法,其中,所述确定连续的文本块图像的步骤包括:将连续的文本块图像中每一个的长度与设定值相比较,并在判定文本块图像的长度大于所述设定值时将所述文本块图像切割成单独的文本图像。6.根据权利要求5所述的表单录入方法,其中,当判定文本块图像的长度大于所述设定值时,所述文本块图像包括至少两个字符。7.根据权利要求1所述的表单录入方法,其中:在所述步骤S2中,确定每一个文本图像在所述待录入表单中的位置;以及在所述步骤S4中,以所述确定的位置,将在所述步骤S3中获取的文字放置到所述表单模板中的对应位置。8.根据权利要求7所述的表单录入方法,其中:在所述步骤S2中,基于所述位置为每一个文本图像编号;以及在所述步骤S4中,以所述文本图像编号将步骤S3中获取的文字放置到所述表单模板中的对应位置。9.根据权利要求8所述的表单录入方法,其中,在所述步骤S4中,对编号的每一个文本图像分配关键词,并基于所述关键词将所述文本图像放置到所述表单模板中的对应位置。10.根据权利要求1所述的表单录入方法,其中,所述步骤S3包括:对所述多个文本图像进行文字识别;
将识别后的文字导入文字库并与所述文字库中的字符比对;和基于所述比对结果,选取与所述待录入表单中的文字相符的字符。11.根据权利要求10所述的表单录入方法,其中,在所述步骤S4中,将选取的所述字符录入所述表单模板中。12.根据权利要求1

11中任一项所述的表单录入方法,其中,在所述步骤S1之后且在所述步骤S2之前,所述表单录入方法还包括:对所述表单图像进行二值化处理,以获得二值化的表单图像。13.一种表单录入装置,包括:表单扫描模块,所述表单扫描模块扫描待录入表单以获取表单图像,所述待录入表单具有高度方向和宽度方向;图像处理模块,所述图像处理模块将所述表单图像划分为多个单元格,并将每一个单元格的文本块图像区切割成至少一个单独的文本图像;识别模块,所述识别模块对所述多个单独的...

【专利技术属性】
技术研发人员:韩东燃窦智丽马一跃郭凤英刘一星
申请(专利权)人:北京中医药大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1