【技术实现步骤摘要】
本专利技术涉及文档处理系统和方法,特别是对文档进行识别并对识别后的文档进行处理的系统和方法。
技术介绍
文档格式的识别一直是文档自动处理中的一个难题,因为文档的格式变化多样,没有固定的形式可言。现实工作生活中却常常遇到要对同一种格式的文档反复进行处理的情况,因为同一种格式的文档往往被不同的人在不同的时间反复使用,比如某公司的职位申请表,不同的应聘者总是在不同的时间填写相同格式的申请表。对于同一种格式文档(如上面提到的申请表)的反复处理,可以预先把需要处理的文档的格式保存起来,通过保存文档的格式信息可极大的提高同一格式文档自动处理的效率并且用户还可以通过指定该类型文档的输出格式完成用户的特定需求。专利号为US6,886,136,专利技术名称为“在表格处理中模板的自动生成和区域定义(Automatic template and field definition in form processing)”的专利技术专利中给出了一种模板自动生成的方法,目的是通过对图像文档的分析把相似的文档聚为一组,并为类似的文档创建模板。通过自动创建模板的方式虽然可以提高模板创建的效率,这种处理其主要对象是图像文件,同时其自动创建的模板信息非常有限,对文档自动处理的帮助非常有限,也无法完成用户指定的输出格式。专利号为US6,785,420,专利技术名称为“表格识别、字符识别的方法、设备和计算机产品(Method and apparatus for table recognition,apparatus forcharacter recognition,and computer ...
【技术保护点】
一种文档处理系统,其特征在于,包括:模板存储模块,用于存储输入模板和输出模板,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和 /或输入模板的特定信息从模板存储模块选取相应的输入模板和/或输出模板;文档自动处理模块,用于根据模板匹配模块选择的模板进行输入文档的自动处理。
【技术特征摘要】
1.一种文档处理系统,其特征在于,包括模板存储模块,用于存储输入模板和输出模板,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块选取相应的输入模板和/或输出模板;文档自动处理模块,用于根据模板匹配模块选择的模板进行输入文档的自动处理。2.根据权利要求1所述的系统,其特征在于,文档自动处理模块具体用于利用输入模板提取输入文档的信息,并用于将提取出的输入文档的信息利用输出模板进行保存,和/或用于根据模板匹配模块选择的模板对输入文档进行分类。3.根据权利要求2所述的系统,其特征在于,所述文档自动处理模块还用于输出利用输出模板保存的输出文档。4.根据权利要求1所述的系统,其特征在于,还包括一用户界面模块,用于提供用户对输入模板或输出模板进行管理操作的界面,还用于提供用户对模板匹配模块进行管理操作的界面。5.根据权利要求4所述的系统,其特征在于,所述用户界面模块具体包括模板手动生成模块,用于根据用户输入生成输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或模板自动生成模块,用于通过对输入文档和/或输出模板进行分析并产生相应的输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或模板编辑校正模块,用于提供对输入模板或输出模板进行编辑校正的界面,并将编辑校正后的输入模板或输出模板存储到模板存储模块;和/或模板添加删除模块,用于根据用户指示添加、删除输入模板或输出模板;和/或可视化模块,用于将模板、文档及对模板和/或文档的处理以图形或图象形式显示;和/或模板匹配运行管理模块,用于在模板匹配模块无法为当前输入文档匹配到相应的输入模板、找到多个相应输入模板或无法获取输入模板对应的输出模板时,提供用户选择输入模板或输出模板的界面,并将用户选择结果发送给模板匹配模块;和/或文档处理编辑模块,用于提供用户对文档处理结果进行校正和/或对中间结果进行编辑,和/或对系统的参数进行修正的界面。6.根据权利要求1所述的系统,其特征在于,所述模板匹配模块,还用于根据用户指示从模板库存储模块选取输入模板。7.根据权利要求1所述的系统,其特征在于,所述格式信息包括文档单元的数量、每个文档单元的相对位置和文档单元的属性。8.根据权利要求7所述的系统,其特征在于,输入模板和输出模板通过文档单元属性中的标识建立输入模板单元与输出模板单元之间的对应关系。9.一种文档处理方法,包括如下步骤步骤A,将输入模板和输出模板保存到模板存储模块,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;步骤B,模板匹配模块接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块中选取对应的输入模板;步骤C,文档自动处理模块根据模板匹配模块选择的模板进行输入文档的自动处理。10.根据权利要求9所述的方法,其特征在于,所述步骤C具体为步骤C1,文档自动处理模块利用输入模板提取输入文档的...
【专利技术属性】
技术研发人员:欧文武,张睿,杜成,李滔,
申请(专利权)人:株式会社理光,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。