一种数字档案智能分类的装置及方法制造方法及图纸

技术编号：26172775 阅读：32 留言：0更新日期：2020-10-31 13:52

本发明专利技术适用于数字档案分类处理技术领域，提供了一种数字档案智能分类的装置及方法，通过设置数据转换模块、OCR识别模块、OCR后处理模块、标题提取模块、全文提取模块和特征提取模块，本发明专利技术引入了OCR技术，利用OCR技术统一获得了图像或非图像数字档案的文本内容，提供了一种标题提取方法，通过标题提取模块从OCR的结果中提取出文档标题，作为分类的一个重要输入，利用一个高度灵活的规则引擎作为特征提取模块，可以通过配置规则，提取出目标档案的各类特征以及其组合特征，从而可以达到高精度的分类结果。

A device and method for intelligent classification of Digital Archives

全部详细技术资料下载

【技术实现步骤摘要】
一种数字档案智能分类的装置及方法
本专利技术属于数字档案分类处理
，尤其涉及一种数字档案智能分类的装置及方法。
技术介绍
随着技术的发展，越来越多的档案开始使用数字化存储，包括天然的电子文档，以及通过扫描或照相技术把传统纸质档案转化成数字档案存储。在管理数字档案时，往往都需要按照一定的原则或规范对数字档案进行分类后存储。在档案数量巨大时，人力进行分类的成本很高，而机器自动分类的精度不足以符合实际要求，一般可以通过机器对数字档案进行预分类，再由人来做分类确认。OCR是一种对图片中的文本进行识别的技术，可以用来获得文本内容、字体大小、位置信息。随着深度学习的发展，目前的OCR技术在中英文上都已经能达到较高的准确率。目前，数字档案的分类技术大体可以分为两种：使用自然语言技术对纯文字的电子文档进行分类，又或者使用图像技术直接提取数字档案的图像特征，用图像分类的技术对其进行分类。基于图像技术的分类，通过包括深度神经网络在内的图像技术提取图像的特征，后续的分类流程和基于自然语言处理技术的分类流程相似，通过分...

【技术保护点】
1.一种数字档案智能分类的装置，其特征在于：包括：/n数据转换模块，其用于将目标数字档案转化成图片；/nOCR识别模块，其用于识别所述图片中的文本内容、位置和文字大小；OCR识别出的结果为文字块，一个所述文字块包含一个或多个文字，并且具备宽度和高度属性，以及文字块中心点横坐标与纵坐标属性；/nOCR后处理模块，其用于优化所述文字块中的文字内容、对优化后的文字内容进行排序、合并每一行中识别出的相邻文字块；合并的原则为：若相邻的两个文字块的文字大小一致，那么它们可以合并，否则不可以合并；/n标题提取模块，其用于根据合并后的文字块计算提取标题；/n全文提取模块，其用于根据合并后的文字块获得目标数字档...

【技术特征摘要】
1.一种数字档案智能分类的装置，其特征在于：包括：
数据转换模块，其用于将目标数字档案转化成图片；
OCR识别模块，其用于识别所述图片中的文本内容、位置和文字大小；OCR识别出的结果为文字块，一个所述文字块包含一个或多个文字，并且具备宽度和高度属性，以及文字块中心点横坐标与纵坐标属性；
OCR后处理模块，其用于优化所述文字块中的文字内容、对优化后的文字内容进行排序、合并每一行中识别出的相邻文字块；合并的原则为：若相邻的两个文字块的文字大小一致，那么它们可以合并，否则不可以合并；
标题提取模块，其用于根据合并后的文字块计算提取标题；
全文提取模块，其用于根据合并后的文字块获得目标数字档案的全文内容；
特征提取模块，其用于提取出目标数字档案的特征集；输入参数为目标数字档案的存储文件名、标题和全文内容；
分类模块，其用于将提取出的特征集转换成特征向量作为输入，输出分类结果。

2.如权利要求1所述的一种数字档案智能分类的装置，其特征在于：所述优化所述文字块中的文字内容，包括修复常见识别错误，删除文字块中的空格。

3.如权利要求2所述的一种数字档案智能分类的装置，其特征在于：所述对优化后的文字内容进行排序，具体为：
对OCR识别的结果按照每个识别出的文字块中心点纵坐标排序；
合并同一行结果，把同样纵坐标归为同一行；
对获得的每一行OCR结果，按照识别出的文字的结果的横坐标进行排序。
获得排完序的OCR结果，由从上到下的行组成，每一行由从左到右的文字块组成。

4.如权利要求3所述的一种数字档案智能分类的装置，其特征在于：所述根据合并后的文字块计算...

【专利技术属性】
技术研发人员：陈恒生，郑莹斌，叶浩，
申请(专利权)人：上海兑观信息科技技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人