根据硬拷贝表单自动生成表单定义制造技术

技术编号:5455724 阅读:270 留言:0更新日期:2012-04-11 18:40
一种用于表单生成的计算机实现的方法,包括:捕获硬拷贝表单图像,以及自动地处理所述图像,以标识所述图像中的表单字段以及与每个所述表单字段相关联的文本字符。确定定义各个填写区域的表单字段的几何坐标,所述填写区域用于向所述表单中输入信息。对文本字符应用光学字符识别(OCR),以标识表单字段名称。确定所述表单字段名称与对应的数据对象的对象名称之间的关联。将所述表单字段的所述填写区域的所述几何坐标与对应于所述表单字段的所述数据对象的所述对象名称相结合,以生成表单定义。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及表单处理系统,并且具体涉及用于自动生成 表单定义的方法和系统。
技术介绍
很多机构和企业将表单用作其业务过程的部分。在自动处理表单的领域中,多种方法和系统是公知的。例如,美国专利5,228,100 描述了一种用于接受对表单显示的输入数据的系统。该系统使用扫 描仪来扫描表单文档的图像,并产生表单图像。处理器识别表单图 像中的字符和线图案,并产生文档的物理和逻辑结构数据。处理器 基于逻辑结构数据自动地产生用于向表单显示输入数据的程序。系 统包括用于呈现由物理结构数据定义的表单显示的屏幕、数据输 入装置、以及用于基于填有数据的表单显示来产生打印文档的打印
技术实现思路
因此,根据本专利技术的一个方面,提供了一种用于表单生成的计 算机实现的方法。该方法包括自动地处理捕获的硬拷贝表单图像, 以标识图像中的表单字段以及与每个表单字段相关联的文本字符。向字段中输入信息。对文本字符应用光学字符识别(OCR),以标 识表单字段名称。确定表单字段名称与对应的数据对象的对象名称段的数据对象的对象名称相结合,以生成表单定义。5根据本专利技术的一个实施方式,该方法进一步包括响应于所确 定的表单定义中的关联,自动地从数据存储库读取数据对象的值; 以及输出已经将值填入表单字段的填写区域的表单副本。根据本专利技术的另一实施方式,输出表单副本包括以下至少一个 打印副本,通过传真发送副本,'以及通过电子邮件发送副本。根据本专利技术的又 一 实施方式,数据存储库包括企业资源规划 (ERP)系统的数据库。根据本专利技术的一个实施方式,由第一ERP系统产生硬拷贝的表 单,并且表单定义是替代第一 ERP系统的第二 ERP系统的部分。根据本专利技术的另一实施方式,自动处理图像包括提取硬拷贝 表单的与布局有关的特征,并将该特征包括在表单定义中。根据本专利技术的该实施方式,与布局有关的特征包括以下至少一 个标志、标题、边框、角、浓淡模式(shading pattern)以及线。根据本专利技术的一个实施方式,填写区域包括以下至少一个文 字填写区域以及复选框。根据本专利技术的另一实施方式,确定关联包括自动地对表单字 段名称与数据对象的对象名称进行匹配。根据本专利技术的第二方面,提供一种表单生成系统。该系统包括 处理器,其被布置用于自动地处理从硬拷贝表单捕获的图像,以 标识图像中的表单字段以及与每个表单字段相关联的文本字符;确 定定义各个填写区域的表单字段的几何坐标,所述填写区域用于向 表单字段中输入信息;对文本字符应用光学字符识别(OCR),以 标识表单字段名称;确定表单字段名称与对应的数据对象的对象名表单字段的数据对象的对象名称相结合,以生成表单定义。该表单 生成系统还可以包括图像捕获设备,其被布置用于捕获硬拷贝表单 的图像。根据本专利技术的第三方面,提供一种用于表单生成的计算机软件 产品。该产品包括其中存储有程序指令的计算机可读介质,当计算机读取该指令时,其使得计算机接受硬拷贝表单的捕获图像;自动地处理图像,以标识图像中的表单字段以及与每个表单字段相关述填写区域用于向表单字段中输入信息;对文本字符应用光学字符 识别(OCR),以标识表单字段名称;确定表单字段名称与对应的 数据对象的对象名称之间的关联;以及将表单字段的填写区域的几 何坐标与对应于该表单字段的数据对象的对象名称相结合,以生成 表单定义。根据下文结合附图对本专利技术实施方式的详细描述,将更为全面 地理解本专利技术,其中附图说明图1是示意性地示出了根据本专利技术中一个实施方式的表单处理 系统的框图2是示意性地示出了根据本专利技术中一个实施方式的用于根据 硬拷贝表单生成表单定义的方法的流程图3是示意性地示出了根据本专利技术中一个实施方式的用于打印 已填写表单的方法的流程图4A是示出了根据本专利技术中一个实施方式的硬拷贝表单的摘 录(excerpt)的图示;图4B是示出了根据本专利技术中一个实施方式的打印的硬拷贝表单 的摘录的图示;图5A是示出了根据本专利技术中一个实施方式的硬拷贝表单的另 一摘录的图示;以及图5B是示出了根据本专利技术中一个实施方式的打印的已填写表单 的另一摘录的图示。具体实施例方式本专利技术的实施方式提供了用于基于已有的硬拷贝表单来自动生成表单定义的方法和系统。这些方法和系统例如可以在从一个企业资源规划(ERP)系统切换到另一个时使用,或者在其他数据处理应 用中使用,这将在下文进一步描述。在改变ERP系统时,需要在新的ERP系统中定义机构所使用的 表单。对表单内容和布局进行人工定义(有时在图形编辑器的辅助 下)是枯燥、耗时、易错的过程,尤其是在机构使用大量的复杂表 单时。因此,期望将表单定义过程自动化,以便最小化人工参与, 并降低定义时间。在多数情况下,先前ERP系统的硬拷贝表单是可获得的。本发 明的实施方式使用可获得的硬拷贝表单来定义可以在新ERP系统中 使用的等同表单。在一些实施方式中,首先扫描已有的硬拷贝表单,以产生计算 机可读的图像。表单生成器分析图像的布局,并标识表单的字段。 对于每个表单字段,通常使用光学字符识别(OCR)过程来提取字 段名称。而且,对字段的填写区域(也即,输入信息的空白区域) 的几何坐标加以标识。在一些实施方式中,还从图像中提取与布局 有关的表单特征,诸如标志、边框和其他对象。表单生成器继而将已标识的表单字段与适当的数据对象进行链 接,诸如与ERP数据库中的字段链接。例如,表单生成器可以尝试 在数据库中找到与从图像中提取的表单字段名称相匹配的对象名称。附加地或者备选地,用户可以在表单字段与数据对象之间人工 执行关联。用户可以验证自动关联的结果和/或在表单生成器定位匹 配对象名称失败时被要求手动执行关联。在关联过程结束后,每个 表单字段与ERP数据库中的相应数据对象相关联。表单生成器产生表单定义,其包括已标识的表单字段名称和 填写区域位置、以及在每个表单字段与对应的数据对象之间找到的可以通过根据表单定义从数据库的适当数据字段获取数据来填入和 打印表单。8图1是示意性地示出了根据本专利技术中一个实施方式的表单处理系统20的框图。系统20包括企业资源规划(ERP)系统24,其特 别地处理信息并打印出已填写的表单(也即,已经填入了信息的表如发票、收据、订单、报价表和报告。尽管下文的描述涉及对一种 类型表单的处理,但系统20通常支持多种表单类型。可以填入表单的信息存储于数据存储库,例如ERP数据库28。 要填写和打印的每个表单例如对应于数据库28中保存多个数据对象 的记录,或者对应于保存在不同记录中的数据对象的结合。数据对 象包含将出现在不同表单字段中的信息。数据库28中的每个数据对 象具有对象名称,其可以附加地包括简短文字描述和/或描述数据字 段的一个或多个关键词。ERP系统根据表单定义或模板来产生和打印表单。在一些实施 方式中,表单定义规定了表单的物理布局和表单内容二者。表单定 义规定了不同的表单字段。定义通常规定了每个表单字段与布局有 关的属性,诸如表单上字段标题和填写区域的位置坐标和/或将用于 打印字段标题和内容的字体。定义还可以规定与字段有关的图形对 象(诸如边框、角、浓淡模式和线)以及整个表单的属性(诸如标 志和表单标识符)。特别地,表单定义规定了将表单字段链接至ERP 数据库28中的相应数据对象(其保本文档来自技高网...

【技术保护点】
一种用于表单生成的计算机实现的方法,包括: 自动地处理捕获的硬拷贝表单图像,以标识所述图像中的表单字段以及与每个所述表单字段相关联的文本字符; 确定定义各个填写区域的所述表单字段的几何坐标,所述填写区域用于向所述字段中输入信息;  对所述文本字符应用光学字符识别(OCR),以标识表单字段名称; 确定所述表单字段名称与对应的数据对象的对象名称之间的关联; 将所述表单字段的所述填写区域的所述几何坐标与对应于所述表单字段的所述数据对象的所述对象名称相结合 ,以生成表单定义。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:Y纳冯A肖特兰德
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1