一种基于OCR识别算法的一键成档系统技术方案

技术编号:35055704 阅读:30 留言:0更新日期:2022-09-28 11:02
本发明专利技术属于教育管理领域,涉及OCR识别技术,用于解决现有的档案生成系统在档案调取时调取手段单一,调取效率低下的技术问题,具体是一种基于OCR识别算法的一键成档系统,包括处理器,处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块,扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像,采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果,OCR识别结果至少包括文字信息;本发明专利技术是通过特征提取模块对档案文字信息中的关键词进行提取,同时在关键词提取完成之后对关键词库进行重复分析,保证通过关键词提取档案的有效性。性。性。

【技术实现步骤摘要】
一种基于OCR识别算法的一键成档系统


[0001]本专利技术属于教育管理领域,涉及OCR识别技术,具体是一种基于OCR识别算法的一键成档系统。

技术介绍

[0002]学术界关于档案的定义还不统一,一般档案是指人们在各项社会活动中直接形成的各种形式的具有保存价值的原始记录,原始记录性是它的本质属性;且现有的档案生成系统不能够在扫描的同时对档案的特征进行调取,导致档案的调取仅能够通过输入编号完成,然而档案的编号字符数通常都很多,在输入时错误率高,导致档案调取效率低下;
[0003]针对上述技术问题,本申请提出一种可通过多种调取方式对档案进行调取的一键成档系统。

技术实现思路

[0004]本专利技术的目的在于提供一种基于OCR识别算法的一键成档系统,用于解决现有的档案生成系统在档案调取时调取手段单一,调取效率低下的技术问题;
[0005]本专利技术需要解决的技术问题为:如何提供一种可通过多种调取方式对档案进行调取的一键成档系统。
[0006]本专利技术的目的可以通过以下技术方案实现:
[0007]一种基于OCR识别算法的一键成档系统,包括处理器,所述处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块;
[0008]所述扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像,采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果,OCR识别结果至少包括文字信息;
[0009]编号生成模块用于对档案进行编号并将得到的标号与档案进行匹配;
[0010]所述特征提取模块包括关键提取单元、图形提取单元;
[0011]关键提取单元用于对文字信息进行关键词提取并将提取得到的关键词与文字信息进行匹配,在关键词提取完成后对关键词库进行重复分析;
[0012]所述图形提取单元用于通过图像处理技术对分析图像中的图形进行提取并将提取得到的图形标记为关键图形,将关键图形与文字信息进行匹配并将关键图形发送至存储模块;
[0013]将与文字信息完成匹配的关键图形与关键词的集合标记为关键特征,在档案调取时通过输入关键特征对档案进行调取;
[0014]档案调取模块用于通过关键特征对档案进行调取,档案调取模块包括特征调取单元与编号调取单元。
[0015]进一步地,编号生成模块对档案进行编号的具体过程包括:获取文字信息中的坐标信息,获取坐标信息中的省、市、县名称并将省、市、县名称的首字母建立坐标字符组,获
取档案的扫描时间并将扫描时间中的年份、月份以及日期进行提取,将扫描时间的年份、月份以及日期进行组合得到时间字符组,获取档案归属人的姓名并将档案归属人姓名的首字母进行组合得到名称字符组,由坐标字符组、时间字符组以及名称字符组进行组合得到档案的编码,将档案的编码与档案进行匹配并将档案的编码发送至存储模块。
[0016]进一步地,关键词提取的过程包括:将文字信息进行字符拆解并将拆解后的字符按照拆解顺序进行排列,将字符中的标点符号进行删除后,将得到的字符标记为i,i=1,2,

,n,n为正整数,对字符进行组词得到n

1个词组A,词组A中的第一个词语由第一个字符与第二个字符组成,词组A中的第二个词语由第二个字符与第三个字符组成,以此类推,将词组A中出现次数最多与第二多的两个词语分别标记为第一关键词与第二关键词;对字符进行组词得到n

2个词组B,词组B中的第一个词语由第一个字符、第二个字符以及第三个字符组成,词组B中的第二个词语由第二个字符、第三个字符以及第四个字符组成,以此类推,将词组B中出现次数最多与第二多的两个词语分别标记为第三关键词与第四关键词,将第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库。
[0017]进一步地,对关键词库进行重复分析的具体过程包括:通过存储模块获取重复阈值,将关键词库中重复次数不小于重复阈值的关键词进行删除,删除完成后,若文字信息中的关键词全部从关键词库中删除,则对文字信息重新进行关键词提取,将词组A中出现第三多与第四多的两个词语分别标记为第一关键词与第二关键词,将词组B中出现第三多与第四多的两个词语分别标记为第三关键词与第四关键词,将重新提取的第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库中,对关键词库再次进行重复分析,直至重复分析完成后,文字信息中的关键词还存在于关键词库中,将重复分析完成之后还存在于关键词库中的关键词与文字信息相匹配;若文字信息中的关键词没有全部从关键词库中删除,则将关键词库中剩余的文字信息的关键词与文字信息相匹配。
[0018]进一步地,特征调取单元用于通过用户输入的关键特征在存储模块或关键词库中进行查找,判定存储模块或关键词库中是否存在与用户输入的关键特征相同的关键词或关键图形,若存在,则对与关键词或关键图形相匹配的档案进行调取;若不存在,则调取失败。
[0019]进一步地,编号调取单元用于通过用户输入的编号在存储模块中进行查找,判定存储模块中是否存在与用户输入的编号相同的编号,若存在,则对与编号相匹配的档案进行调取,若不存在,则调取失败。
[0020]本专利技术具备下述有益效果:
[0021]1、通过特征提取模块可以对档案文字信息中的关键词进行提取,同时在关键词提取完成之后对关键词库进行重复分析,对提取得到的关键词关联的档案数量进行限制,避免了关键提取单元对多数档案中均存在的无效关键词进行提取,保证通过关键词提取档案的有效性;
[0022]2、通过图形提取单元可以对档案中的图形进行提取,将得到的图形与档案相匹配,因此,通过关键图形与关键词构成关键特征集合,用户在调取档案时,可输入档案编号或输入关键特征集合,由于关键词由二至三个字符组成,关键图形通过复制输入,从而大大降低了档案调取的错误率,提高了档案调取效率。
附图说明
[0023]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本专利技术原理框图。
具体实施方式
[0025]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0026]如图1所示,一种基于OCR识别算法的一键成档系统,包括处理器,处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块。
[0027]扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像,采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果,OCR文字识别软件,是一种利用O本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR识别算法的一键成档系统,包括处理器,其特征在于,所述处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块;所述扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像,采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果,OCR识别结果至少包括文字信息;编号生成模块用于对档案进行编号并将得到的标号与档案进行匹配;所述特征提取模块包括关键提取单元、图形提取单元;关键提取单元用于对文字信息进行关键词提取并将提取得到的关键词与文字信息进行匹配,在关键词提取完成后对关键词库进行重复分析;所述图形提取单元用于通过图像处理技术对分析图像中的图形进行提取并将提取得到的图形标记为关键图形,将关键图形与文字信息进行匹配并将关键图形发送至存储模块;将与文字信息完成匹配的关键图形与关键词的集合标记为关键特征,在档案调取时通过输入关键特征对档案进行调取;档案调取模块用于通过关键特征对档案进行调取,档案调取模块包括特征调取单元与编号调取单元。2.根据权利要求1所述的一种基于OCR识别算法的一键成档系统,其特征在于,编号生成模块对档案进行编号的具体过程包括:获取文字信息中的坐标信息,获取坐标信息中的省、市、县名称并将省、市、县名称的首字母建立坐标字符组,获取档案的扫描时间并将扫描时间中的年份、月份以及日期进行提取,将扫描时间的年份、月份以及日期进行组合得到时间字符组,获取档案归属人的姓名并将档案归属人姓名的首字母进行组合得到名称字符组,由坐标字符组、时间字符组以及名称字符组进行组合得到档案的编码,将档案的编码与档案进行匹配并将档案的编码发送至存储模块。3.根据权利要求1所述的一种基于OCR识别算法的一键成档系统,其特征在于,关键词提取的过程包括:将文字信息进行字符拆解并将拆解后的字符按照拆解顺序进行排列,将字符中的标点符号进行删除后,将得到的字符标记为i,i=1,2,

,n,n为正整数,对字符进行组词得到n

1个词组A,词组A中的第一个词语由第一个字符与第二个字符组成...

【专利技术属性】
技术研发人员:杨建福
申请(专利权)人:杭州京胜航星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1