当前位置: 首页 > 专利查询>烟台大学专利>正文

一种纸件文档的数据化处理方法及装置制造方法及图纸

技术编号:32963502 阅读:62 留言:0更新日期:2022-04-09 10:58
本发明专利技术的实施例公开了一种纸件文档的数据化处理方法及装置。包括:对待分类纸件文档的内容进行处理,提取所述待分类纸件文档的关键信息;在文档类型信息库中确定与所述关键信息匹配的标准信息,将所述标准信息所属的文档类型确定为所述待分类纸件文档的文档类型;基于所述文档类型对应的结构化版式以及所述待分类纸件文档的内容,生成所述待分类纸件文档的结构化信息;将所述待分类纸件文档、所述待分类纸件文档的文档类型以及所述结构化信息进行关联存储。能够实现对文档的自动分类与自动文档著录,替代人工操作,具有更高的准确率与处理效率,使文档数据更为具体和细化。使文档数据更为具体和细化。使文档数据更为具体和细化。

【技术实现步骤摘要】
一种纸件文档的数据化处理方法及装置


[0001]本专利技术的实施例涉及计算机数据处理
,具体涉及一种纸 件文档的数据化处理方法及装置。

技术介绍

[0002]随着信息技术的迅猛发展,文档数字化已经逐渐成为发展趋势。 然而,政府机关、企业、学校等单位仍然存在大量的纸件文档,虽然 能够将纸质文档通过扫描、录入的方式储存到数据库中,从而实现纸 质文档的电子化,但是这些纸件文档依然需要人工对文档进行分类, 由于不同文档的属性复杂多变、数据量大,且每个人的分类标准不同, 导致文档著录和分类的效率和准确率较低,同时缺乏分类的客观性。

技术实现思路

[0003]本专利技术的内容部分用于以简要的形式介绍构思,这些构思将在后 面的具体实施方式部分被详细描述。本专利技术的内容部分并不旨在标识 要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要 求的保护的技术方案的范围。
[0004]本专利技术提出了一种纸件文档的数据化处理方法及装置,来解决以 上
技术介绍
部分提到的技术问题。
[0005]本专利技术的第一方面提供了一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种纸件文档的数据化处理方法,包括:获取待分类纸件文档的文档图像,基于光学字符对所述文档图像进行识别,从所述文档图像的识别结果中提取关键信息;在文档类型信息库中确定与所述关键信息匹配的标准信息,将所述标准信息所属的文档类型确定为所述待分类纸件文档的文档类型;基于所述文档类型对应的结构化版式以及所述待分类纸件文档的内容,生成所述待分类纸件文档的结构化信息;将所述待分类纸件文档、所述待分类纸件文档的文档类型以及所述结构化信息进行关联存储。2.根据权利要求1所述的方法,其特征在于,所述从所述文档图像的识别结果中提取所述关键信息,包括:根据内容类型将所述识别结果划分为多个子识别结果,各所述子识别结果对应的内容类型不同;基于内容类型对应的信息提取规则分别对各所述子识别结果进行信息提取,得到所述关键信息。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于已有的已分类文档确定每个文档类型的特征;根据所述每个文档类型的特征确定各所述文档类型对应的多个标准信息;将所述文档类型与所述文档类型对应的多个标准信息存储在所述文档类型信息库。4.根据权利要求3所述的方法,其特征在于,所述在文档类型信息库中确定与所述关键信息匹配的标准信息,包括:在所述文档类型信息库中的多个标准信息中,确定与所述关键信息匹配的标准信息。5.根据权利要求3所述的方法,其特征在于,在文档类型信息库中确定与所述关键信息匹配的标准信息,包括:将所述关键信息与所述标准信息输入预设的相似度模型,得到所述关键信息与所述标准信息的相似度;基于所述相似度,确定与所述关键信息匹配的标准信息。6.根据权利要求5所述的方法,其特征在于,所述预设的相似度模型为基于双向编码表示的特征向量提取模型,所述将所述关键信息与所述标准信息输入预设的相似度模型,得到所述关键信息与所述标准信息的相似度,包括:在所述关键...

【专利技术属性】
技术研发人员:余志鹏杜晓洋
申请(专利权)人:烟台大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1