一种基于数字化档案图像定位及识别方法技术

技术编号:38158656 阅读:14 留言:0更新日期:2023-07-13 09:29
本发明专利技术公开了一种基于数字化档案图像定位及识别方法,包括获取纸质档案图像,对纸质档案图像进行预处理;对纸质档案图像中的归档章图形特征进行定位并识别,若识别出所述归档章,则进行下一步骤,若未识别,则返回上一步骤;采用OCR识别技术提取分析归档章文字特征,并根据档号规则自动生成档号,并对档号进行匹配校验;根据归档章居档案首页这一特性合并纸质档案图像,并通过档号信息与档案管理系统中条目档号关联,完成纸质档案图像挂接的自动化处理。本发明专利技术通过对纸质档案归档章信息的识别和提取,并根据档号规则生成唯一档号,可实现档案图像合并、档案挂接操作实现全面自动化,提高了档案挂接的效率,节约了时间及人力成本。本。本。

【技术实现步骤摘要】
一种基于数字化档案图像定位及识别方法


[0001]本专利技术涉及一种基于数字化档案图像定位及识别方法,属于数字化档案管理系统。

技术介绍

[0002]归档章是印制于文件上表示鉴定、签署或归档的文具,也是档案管理专用章之一。一般是将其蘸上颜料或印油,加盖在文件上以留下印记,表示接收各种档案进馆并分类存档时所使用的专用章。归档章作为证明文件编目收录的依据,它包含全宗号、年度、保管期限、件号、机构、页码六项内容。
[0003]档案的数字化加工过程是通过采用专业的扫描仪、高拍仪或者数码相机等数码设备,将纸质档案转化为能被计算机识别的图像文件。档案数字化加工业务总体步骤包括:档案调卷、整理及著录、拆卷、档案扫描、图像处理、图像质检、图像合并、档案挂接等,其中有很多步骤都需要人工介入,人工识别主要是通过人工检查、定位和识别归档章区域,人工方式需要耗费大量的人力成本来进行这种重复操作。而数字化加工的数据量一般都比较大,如能使一些步骤通过一定的方法实现自动化,将大大提高生产效率。

技术实现思路

[0004]本专利技术的技术任务是针对上述存在的问题,提供一种能够节约时间及人力成本,以高效优良的方式实现纸质档案录入数据库的基于数字化档案图像定位及识别方法。
[0005]本专利技术提供了一种基于数字化档案图像定位及识别方法,包括以下步骤:
[0006]S1.获取纸质档案图像,对所述纸质档案图像进行预处理;
[0007]S2.定位、识别所述预处理后的纸质档案图像中的归档章图形特征,若识别出所述归档章图形,则进行下一步骤,否则,则返回步骤S1;
[0008]S3.采用OCR识别技术提取分析所述归档章图形中的文字特征,根据档号编制规则自动生成档号,并通过档案管理系统中条目档号对该生成档号进行匹配校验;
[0009]S4.根据归档章的位置属性自动合并位于两个归档章之间的纸质档案图像,并将归档章生成的档号信息与档案管理系统中条目档号相关联,完成纸质档案图像挂接的自动化处理。
[0010]在本专利技术的一实施方式中,所述纸质档案图像进行预处理具体包括,将所述纸质档案图像依次进行降噪处理、灰度化处理、二值化处理。
[0011]在本专利技术的一实施方式中,所述降噪处理通过构建降噪模型进行,所述降噪模型为:
[0012][0013]其中是梯度模值,k是梯度模阈值,η表示图像的梯度方向,ξ表示图像的切线方向,u
ηη
表示图像u在法线方向的二阶导数,u
ξξ
表示图像u在切线方向的二阶导数。
[0014]在本专利技术的一实施方式中,步骤S2采用霍夫变换检测法实现识别,具体步骤如下:
[0015]步骤S21,采用霍夫变换法检测所述归档章的图形特征,根据所述图形特征与周围像素灰度差异,获取归档章图形的初步提取结果;
[0016]步骤S22,对初步提取结果进行优化,获得完整的归档章图形。
[0017]在本专利技术的一实施方式中,步骤S21中,所述归档章图形样式为表格,所述图形特征为表格横线、竖线和边框,根据直线的长度确定表格的横线、竖线和边框。
[0018]在本专利技术的一实施方式中,步骤S3中提取分析所述归档章图形中的文字特征步骤前采用基于直方图的图像分割法抽取归档章图形,具体包括通过横向投影直方图统计,得到横向长直线方程,然后通过纵向投影直方图统计,得到纵向长直线方程,最后通过所述横向直线方程和纵向直线方程的交叉确定横纵坐标,实现归档章图形的分割提取。
[0019]在本专利技术的一实施方式中,步骤S3中所述文字特征包括全宗号、机构、年度、件数、保管期限和页数,所述档号规则为全宗号

档案门类
·
年度

机构

保管期限

件号。
[0020]在本专利技术的一实施方式中,所述步骤S4中归档章的位置属性为归档章居每份纸质档案首页。
[0021]在本专利技术的一实施方式中,步骤S4中合并纸质档案图像具体包括以下步骤:
[0022]S41:根据归档章位于档案首页,将两个归档章之间包含的多张单页图像进行识别和校验,若校验无误,则进入下一步,若校验有误,重新校验;
[0023]S42:将所述多张单页图像进行合并,识别和汇总页码。
[0024]一种基于数字化档案图像定位及识别系统,包括:
[0025]图像输入模块,用于获取纸质档案图像;
[0026]图像预处理模块,用于对所述纸质档案图像进行预处理,并识别出含归档章的档案图像;
[0027]归档章识别模块,用于对所述归档章进行识别定位,并对所述归档章部分进行图像分割;
[0028]归档章分析模块,用于提取并分析所述归档章图形中的文字特征,然后根据设定的档号编制规则生成档号;
[0029]档号匹配模块,用于将所述生成的档号与档案管理系统中的条目档号进行匹配核验;
[0030]档案挂接模块,用于将两个归档章之间所包含的多张单页纸质档案图像自动合并成一份档案图像,并将归档章生成的档号信息与档案管理系统中条目档号相关联,实现挂接。
[0031]与现有技术相比,本专利技术的有益效果在于:
[0032]本专利技术通过霍夫变换法和OCR识别技术对纸质档案归档章信息进行识别和提取,将提取出的归档章文字特征根据档号规则生成档号,为单份档案图像自动合并和挂接提供重要依据,同时通过归档章识别、档号匹配能够大大提高纸质档案归档的准确性;
[0033]本专利技术根据档号将档案图像与条目档号关联挂接,将现有数字化加工流程中的档案图像合并、档案挂接操作实现全面自动化,提高了档案数字化加工人员和档案挂接人员的工作效率,节约了时间及人力成本;
[0034]本专利技术中通过在图像预处理环节构建基于函数的降噪模型,可较好的平衡降噪和保边,在降噪的同时也能较好的保护纹理细节,尽可能使纸质档案图像清晰化,进而避免图像噪声对后续归档章的识别定位产生影响。
附图说明
[0035]图1为本专利技术一实施方式的一种基于数字化档案图像定位及识别方法的流程图;
[0036]图2为本专利技术一实施方式的归档章图形特征识别定位的具体流程图;
[0037]图3为本专利技术一实施方式的合并纸质档案图像的具体流程图;
[0038]图4为本专利技术一实施方式的一种基于数字化档案图像定位及识别系统示意图。
具体实施方式
[0039]为了使本领域的技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0040]本申请中术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而包括一系列要素的过程、方法、物品或系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数字化档案图像定位及识别方法,其特征在于,包括以下步骤:S1.获取纸质档案图像,对所述纸质档案图像进行预处理;S2.定位、识别所述预处理后的纸质档案图像中的归档章图形特征,若识别出所述归档章图形,则进行下一步骤,否则,则返回步骤S1;S3.采用OCR识别技术提取分析所述归档章图形中的文字特征,根据档号编制规则自动生成档号,并通过档案管理系统中条目档号对该生成档号进行匹配校验;S4.根据归档章的位置属性自动合并位于两个归档章之间的纸质档案图像,并将归档章生成的档号信息与档案管理系统中条目档号相关联,完成纸质档案图像挂接的自动化处理。2.根据权利要求1所述的一种基于数字化档案图像定位及识别方法,其特征在于,所述纸质档案图像进行预处理具体包括,将所述纸质档案图像依次进行降噪处理、灰度化处理、二值化处理。3.根据权利要求2所述的一种基于数字化档案图像定位及识别方法,其特征在于,所述降噪处理通过构建降噪模型进行,所述降噪模型为:其中是梯度模值,k是梯度模阈值,η表示图像的梯度方向,ξ表示图像的切线方向,u
ηη
表示图像u在法线方向的二阶导数,u
ζζ
表示图像u在切线方向的二阶导数。4.根据权利要求1所述的一种基于数字化档案图像定位及识别方法,其特征在于,步骤S2采用霍夫变换检测法实现识别,具体步骤如下:步骤S21,采用霍夫变换法检测所述归档章的图形特征,根据所述图形特征与周围像素灰度差异,获取归档章图形的初步提取结果;步骤S22,对初步提取结果进行优化,获得完整的归档章图形。5.根据权利要求4所述的一种基于数字化档案图像定位及识别方法,其特征在于,步骤S21中,所述归档章图形样式为表格,所述图形特征为表格横线、竖线和边框,根据直线的长度确定表格的横线、竖线和边框。6.根据权利要求1所述的一种基于数字化档案图像定位及识别方法,其特征在于,步骤S3中提取分析所述归档章图形中的文字特征步...

【专利技术属性】
技术研发人员:周海秀俞涛罗述珍
申请(专利权)人:中兴系统技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1