一种文档处理系统和方法技术方案

技术编号:2837927 阅读:186 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种文档处理系统和方法,该系统包括:模板存储模块,用于存储输入模板和输出模板;模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块选取相应的输入和/或输出模板;文档自动处理模块,用于根据模板匹配模块选择的输入模板提取输入文档的信息,并用于将提取出的输入文档的信息利用输出模板进行保存。本发明专利技术可以把指定的输入文档单元以指定的格式输出,很大地方便了文档处理的个性化需求;通过将输入文档每个单元的位置和属性记录在输入模板中,极大的提高了文档自动处理效率,同时也可以用来文档的分类。

【技术实现步骤摘要】

本专利技术涉及文档处理系统和方法,特别是对文档进行识别并对识别后的文档进行处理的系统和方法。
技术介绍
文档格式的识别一直是文档自动处理中的一个难题,因为文档的格式变化多样,没有固定的形式可言。现实工作生活中却常常遇到要对同一种格式的文档反复进行处理的情况,因为同一种格式的文档往往被不同的人在不同的时间反复使用,比如某公司的职位申请表,不同的应聘者总是在不同的时间填写相同格式的申请表。对于同一种格式文档(如上面提到的申请表)的反复处理,可以预先把需要处理的文档的格式保存起来,通过保存文档的格式信息可极大的提高同一格式文档自动处理的效率并且用户还可以通过指定该类型文档的输出格式完成用户的特定需求。专利号为US6,886,136,专利技术名称为“在表格处理中模板的自动生成和区域定义(Automatic template and field definition in form processing)”的专利技术专利中给出了一种模板自动生成的方法,目的是通过对图像文档的分析把相似的文档聚为一组,并为类似的文档创建模板。通过自动创建模板的方式虽然可以提高模板创建的效率,这种处理其主要对象是图像文件,同时其自动创建的模板信息非常有限,对文档自动处理的帮助非常有限,也无法完成用户指定的输出格式。专利号为US6,785,420,专利技术名称为“表格识别、字符识别的方法、设备和计算机产品(Method and apparatus for table recognition,apparatus forcharacter recognition,and computer product)”中公开了一种表格处理的方法,通过连通域分析找出表格,字符串和线条的位置,然后通过这些信息做表格识别,然而该方法中没有用到文档的模板信息。
技术实现思路
本专利技术的目的在于提供,对输入文档进行识别,并对识别后的文档进行自动处理,提高文档处理的效率,方便用户,同时满足特定的文档处理的输出要求。为了实现上述目的,本专利技术提供了一种文档处理系统,包括模板存储模块,用于存储输入模板和输出模板,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块选取输入模板;文档自动处理模块,用于根据模板匹配模块选择的模板进行输入文档的自动处理。上述的系统,其中,文档自动处理模块还用于输出利用输出模板保存的输出文档。上述的系统,其中,文档自动处理模块具体用于利用输入模板提取输入文档的信息,并用于将提取出的输入文档的信息利用输出模板进行保存,和/或用于根据模板匹配模块选择的模板对输入文档进行分类。上述的系统,其中,还包括一用户界面模块,用于提供用户对输入模板或输出模板进行管理操作的界面,还用于提供用户对模板匹配模块进行管理操作的界面。上述的系统,其中,用户界面模块具体包括模板手动生成模块,用于根据用户输入生成输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或模板自动生成模块,用于通过对输入文档和/或输出模板进行分析并产生相应的输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或模板编辑校正模块,用于提供对输入模板或输出模板进行编辑校正的界面,并将编辑校正后的输入模板或输出模板存储到模板存储模块;和/或模板添加删除模块,用于根据用户指示添加、删除输入模板或输出模板;和/或可视化模块,用于将模板、文档及对模板和/或文档的处理以图形或图象形式显示;和/或模板匹配运行管理模块,用于在模板匹配模块无法为当前输入文档匹配到相应的输入模板、找到多个相应输入模板或无法获取输入模板对应的输出模板时,提供用户选择输入模板或输出模板的界面,并将用户选择结果发送给模板匹配模块;和/或文档处理编辑模块,用于提供用户对文档处理结果进行校正和/或对中间结果进行编辑,和/或对系统的参数进行修正的界面。为了更好的实现上述目的,本专利技术还提供了一种文档处理方法,包括步骤A,将输入模板和输出模板保存到模板存储模块,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;步骤B,模板匹配模块接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块中选取对应的输入模板;步骤C,文档自动处理模块根据模板匹配模块选择的模板进行输入文档的自动处理。上述的方法,其中,还包括步骤D,文档自动处理模块输出利用输出模板保存的输出文档。上述的方法,其中,所述步骤C具体为步骤C1,文档自动处理模块利用输入模板提取输入文档的信息,并将提取出的输入文档的信息利用输出模板进行保存;和/或步骤C2,文档自动处理模块根据模板匹配模块选择的模板对输入文档进行分类。上述的方法,其中,步骤A具体包括步骤A11,创建输入模板,记录输入文档的格式信息;步骤A12,创建输出模板,记录输出文档的格式信息,同时记录输出模板单元和输入模板单元之间的对应关系;步骤A13,将输入模板和输出模板保存到模板存储模块。上述的方法,其中,步骤A还可以是具体包括 步骤A21,模板匹配模块接收到输入文档;步骤A22,模板匹配模块根据该输入文档的格式信息和/或模板的特定信息无法从模板存储模块中选取匹配的输入模板;步骤A23,模板匹配模块指示模板自动生成模块根据该输入文档的格式信息创建输入模板,并保存到模板存储模块。上述的方法,其中,步骤B具体包括步骤B1,模板匹配模块接收输入文档,并根据输入文档的格式信息和/或模板的特定信息从模板存储模块查找匹配的输入模板;步骤B2,模板匹配模块判断是否有匹配的输入模板,如果否进入步骤B3,否则进入步骤B4;步骤B3,模板匹配模块指示模板自动生成模块根据该输入文档的格式信息创建输入模板,并保存到模板存储模块并返回步骤B1;步骤B4,模板匹配模块判断是否有多个匹配的输入模板,如果是进入步骤B5,否则进入步骤C;步骤B5,由用户通过模板匹配运行管理模块选择一个输入模板作为匹配的输入模板后进入步骤C,或由模板匹配模块产生候选输入模板后由用户通过模板匹配运行管理模块选择一个输入模板作为匹配的输入模板后进入步骤C。上述的方法,其中,步骤C具体包括步骤C1,文档自动处理模块分析输入文档找出输入文档对应于输入模板的每个单元,并提取输入文档对应单元的信息;步骤C2,文档自动处理模块根据输入模板单元和输出模板单元的对应关系,将从输入文档中提取的信息保存在由输出模板定义的输出文档中。本专利技术的文档处理系统和方法通过在模板存储模块存储输入模板和输出模板,并利用模板匹配模块对输入文档和模板之间进行匹配,然后由文档自动处理模块基于匹配模板进行自动处理,通过建立输入模板单元与输出模板单元的对应关系,可以把指定的输入文档以指定的格式输出,很大地方便了文档处理的个性化需求;通过建立输入模板,将输入文档每个单元的位置和属性记录在系统中,极大的提高了该类型文档自动处理效率,同时也为该类文档的分类提供了依据。附图说明图1为本专利技术的文档处理系统的结构示意图;图2a为输入模板的具体实例示意图;图2b为对应于图2a所示输入模板的输出模板的具体实例示意图;图3为本发本文档来自技高网
...

【技术保护点】
一种文档处理系统,其特征在于,包括:模板存储模块,用于存储输入模板和输出模板,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和 /或输入模板的特定信息从模板存储模块选取相应的输入模板和/或输出模板;文档自动处理模块,用于根据模板匹配模块选择的模板进行输入文档的自动处理。

【技术特征摘要】
1.一种文档处理系统,其特征在于,包括模板存储模块,用于存储输入模板和输出模板,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块选取相应的输入模板和/或输出模板;文档自动处理模块,用于根据模板匹配模块选择的模板进行输入文档的自动处理。2.根据权利要求1所述的系统,其特征在于,文档自动处理模块具体用于利用输入模板提取输入文档的信息,并用于将提取出的输入文档的信息利用输出模板进行保存,和/或用于根据模板匹配模块选择的模板对输入文档进行分类。3.根据权利要求2所述的系统,其特征在于,所述文档自动处理模块还用于输出利用输出模板保存的输出文档。4.根据权利要求1所述的系统,其特征在于,还包括一用户界面模块,用于提供用户对输入模板或输出模板进行管理操作的界面,还用于提供用户对模板匹配模块进行管理操作的界面。5.根据权利要求4所述的系统,其特征在于,所述用户界面模块具体包括模板手动生成模块,用于根据用户输入生成输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或模板自动生成模块,用于通过对输入文档和/或输出模板进行分析并产生相应的输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或模板编辑校正模块,用于提供对输入模板或输出模板进行编辑校正的界面,并将编辑校正后的输入模板或输出模板存储到模板存储模块;和/或模板添加删除模块,用于根据用户指示添加、删除输入模板或输出模板;和/或可视化模块,用于将模板、文档及对模板和/或文档的处理以图形或图象形式显示;和/或模板匹配运行管理模块,用于在模板匹配模块无法为当前输入文档匹配到相应的输入模板、找到多个相应输入模板或无法获取输入模板对应的输出模板时,提供用户选择输入模板或输出模板的界面,并将用户选择结果发送给模板匹配模块;和/或文档处理编辑模块,用于提供用户对文档处理结果进行校正和/或对中间结果进行编辑,和/或对系统的参数进行修正的界面。6.根据权利要求1所述的系统,其特征在于,所述模板匹配模块,还用于根据用户指示从模板库存储模块选取输入模板。7.根据权利要求1所述的系统,其特征在于,所述格式信息包括文档单元的数量、每个文档单元的相对位置和文档单元的属性。8.根据权利要求7所述的系统,其特征在于,输入模板和输出模板通过文档单元属性中的标识建立输入模板单元与输出模板单元之间的对应关系。9.一种文档处理方法,包括如下步骤步骤A,将输入模板和输出模板保存到模板存储模块,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;步骤B,模板匹配模块接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块中选取对应的输入模板;步骤C,文档自动处理模块根据模板匹配模块选择的模板进行输入文档的自动处理。10.根据权利要求9所述的方法,其特征在于,所述步骤C具体为步骤C1,文档自动处理模块利用输入模板提取输入文档的...

【专利技术属性】
技术研发人员:欧文武张睿杜成李滔
申请(专利权)人:株式会社理光
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1