【技术实现步骤摘要】
一种数字档案智能分类的装置及方法
本专利技术属于数字档案分类处理
,尤其涉及一种数字档案智能分类的装置及方法。
技术介绍
随着技术的发展,越来越多的档案开始使用数字化存储,包括天然的电子文档,以及通过扫描或照相技术把传统纸质档案转化成数字档案存储。在管理数字档案时,往往都需要按照一定的原则或规范对数字档案进行分类后存储。在档案数量巨大时,人力进行分类的成本很高,而机器自动分类的精度不足以符合实际要求,一般可以通过机器对数字档案进行预分类,再由人来做分类确认。OCR是一种对图片中的文本进行识别的技术,可以用来获得文本内容、字体大小、位置信息。随着深度学习的发展,目前的OCR技术在中英文上都已经能达到较高的准确率。目前,数字档案的分类技术大体可以分为两种:使用自然语言技术对纯文字的电子文档进行分类,又或者使用图像技术直接提取数字档案的图像特征,用图像分类的技术对其进行分类。基于图像技术的分类,通过包括深度神经网络在内的图像技术提取图像的特征,后续的分类流程和基于自然语言处理技术的分类流程相似,通过分 ...
【技术保护点】
1.一种数字档案智能分类的装置,其特征在于:包括:/n数据转换模块,其用于将目标数字档案转化成图片;/nOCR识别模块,其用于识别所述图片中的文本内容、位置和文字大小;OCR识别出的结果为文字块,一个所述文字块包含一个或多个文字,并且具备宽度和高度属性,以及文字块中心点横坐标与纵坐标属性;/nOCR后处理模块,其用于优化所述文字块中的文字内容、对优化后的文字内容进行排序、合并每一行中识别出的相邻文字块;合并的原则为:若相邻的两个文字块的文字大小一致,那么它们可以合并,否则不可以合并;/n标题提取模块,其用于根据合并后的文字块计算提取标题;/n全文提取模块,其用于根据合并后的 ...
【技术特征摘要】
1.一种数字档案智能分类的装置,其特征在于:包括:
数据转换模块,其用于将目标数字档案转化成图片;
OCR识别模块,其用于识别所述图片中的文本内容、位置和文字大小;OCR识别出的结果为文字块,一个所述文字块包含一个或多个文字,并且具备宽度和高度属性,以及文字块中心点横坐标与纵坐标属性;
OCR后处理模块,其用于优化所述文字块中的文字内容、对优化后的文字内容进行排序、合并每一行中识别出的相邻文字块;合并的原则为:若相邻的两个文字块的文字大小一致,那么它们可以合并,否则不可以合并;
标题提取模块,其用于根据合并后的文字块计算提取标题;
全文提取模块,其用于根据合并后的文字块获得目标数字档案的全文内容;
特征提取模块,其用于提取出目标数字档案的特征集;输入参数为目标数字档案的存储文件名、标题和全文内容;
分类模块,其用于将提取出的特征集转换成特征向量作为输入,输出分类结果。
2.如权利要求1所述的一种数字档案智能分类的装置,其特征在于:所述优化所述文字块中的文字内容,包括修复常见识别错误,删除文字块中的空格。
3.如权利要求2所述的一种数字档案智能分类的装置,其特征在于:所述对优化后的文字内容进行排序,具体为:
对OCR识别的结果按照每个识别出的文字块中心点纵坐标排序;
合并同一行结果,把同样纵坐标归为同一行;
对获得的每一行OCR结果,按照识别出的文字的结果的横坐标进行排序。
获得排完序的OCR结果,由从上到下的行组成,每一行由从左到右的文字块组成。
4.如权利要求3所述的一种数字档案智能分类的装置,其特征在于:所述根据合并后的文字块计算...
【专利技术属性】
技术研发人员:陈恒生,郑莹斌,叶浩,
申请(专利权)人:上海兑观信息科技技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。