【技术实现步骤摘要】
一种基于OCR文字识别提取公文要素的方法及装置
本专利技术涉及文件智能处理
,尤其涉及一种基于OCR文字识别提取公文要素的方法及装置。
技术介绍
目前,传统的收发文主要是通过扫描仪将文件扫描成电子档,再上传到相关信息系统进行文件办理,而在文件办理过程中经常需要提取文件中的公文要素,而目前办公业务中公文要素识别主要是以人工方式为主,通过人为识别文件中的公文要素,并将公文内容要素手动输入业务信息处理系统中。人为别公文要素并手动输入业务信息处理系统中,这种方式工作量大,而且容易出错,重复性工作高,若处理的文件业务量增大,所耗费的人力和时间成本是巨大的。对公文内容,特别公文要素信息要求准确率很高,因此,不能有半点的信息录入错误情况出现。
技术实现思路
鉴于上述的分析,本专利技术实施例旨在提供一种基于OCR文字识别提取公文要素的方法及装置,用以解决现有的方法浪费人力和时间且效率较低的问题。一方面,本专利技术实施例提供了一种基于OCR文字识别提取公文要素的方法,包括如下步骤:扫描包含公文要素信息 ...
【技术保护点】
1.一种基于OCR文字识别提取公文要素的方法,其特征在于,包括如下步骤:/n扫描包含公文要素信息的纸质公文文件,得到电子公文文件;/n基于所述电子公文文件动态生成算法选择框,基于所述算法选择框获取相应的算法;基于所述算法获取电子公文文件中的公文要素信息;/n将获取的所述公文要素信息保存至业务信息处理系统中公文要素表单的相应字段位置。/n
【技术特征摘要】
1.一种基于OCR文字识别提取公文要素的方法,其特征在于,包括如下步骤:
扫描包含公文要素信息的纸质公文文件,得到电子公文文件;
基于所述电子公文文件动态生成算法选择框,基于所述算法选择框获取相应的算法;基于所述算法获取电子公文文件中的公文要素信息;
将获取的所述公文要素信息保存至业务信息处理系统中公文要素表单的相应字段位置。
2.根据权利要求1所述的基于OCR文字识别提取公文要素的方法,其特征在于,所述算法包括坐标区域定位法和文本规则定位法;所述基于所述算法获取电子公文文件中的公文要素,包括:
基于获取的所述坐标区域定位法动态生成坐标区域定位模板规则选择框,基于所述坐标区域定位模板规则选择框获取相应的坐标区域定位模板规则,并根据所述坐标区域定位模板规则获取电子公文文件中的公文要素;或者,
基于获取的所述文本规则定位法动态生成文本模板规则选择框,基于所述文本模板规则选择框获取相应的文本模板规则,并根据所述文本模板规则获取电子公文文件中的公文要素。
3.根据权利要求2所述的基于OCR文字识别提取公文要素的方法,其特征在于,通过下述方式获得所述坐标区域定位模板规则:
扫描纸质公文模板,得到对应的多种电子公文模板;其中,所述纸质公文模板为多种不同类别的纸质公文;
选取每一所述电子公文模板中包含公文要素的矩形区域,并采用OCR技术提取所述矩形区域中所有公文要素的坐标范围值、页号和字体信息;
基于每一所述电子公文模板中所有公文要素的坐标范围值、页号和字体信息,得到多种坐标区域定位模板规则,并将所述坐标区域定位模板规则保存至数据库。
4.根据权利要求2所述的基于OCR文字识别提取公文要素的方法,其特征在于,通过下述方式获得所述文本模板规则:
基于每一纸质公文模板,得到公文要素提取规则;
基于所述公文要素的提取规则生成文本模板规则,并将所述文本模板规则保存至数据库。
5.根据权利要求4所述的基于OCR文字识别提取公文要素的方法,其特征在于,所述公文要素包括主送、标题、密级、主题词、抄送、签发、承办单位、联系人和联系电话;其中,所述公文要素的提取规则包括:
基于电子公文文件中第一个含有“:”结尾的段落,获取“主送”要素;
基于电子公文文件中“主送”要素所在段落的前一个段落,获取“标题”要素;
基于电子公文文件中含有“主题词:”的段落,获取“主题词”要素;
基于电子公文文件中含有“抄送:”且以“。”结尾的段落,获取“抄送”要素;
基于电子公文文件中含有“签发”的段落,获取“签发”要素;
基于电子公文文件的最后一个段落,获取“承办单位”、“联系人”及“联系电话”要素。
6.一种基于OCR文字识别提...
【专利技术属性】
技术研发人员:张朝壹,李志芳,侯文君,邓倩楠,李旭明,陈毅彬,
申请(专利权)人:北京中宏立达信创科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。