【技术实现步骤摘要】
一种纸件文档的数据化处理方法及装置
[0001]本专利技术的实施例涉及计算机数据处理
,具体涉及一种纸 件文档的数据化处理方法及装置。
技术介绍
[0002]随着信息技术的迅猛发展,文档数字化已经逐渐成为发展趋势。 然而,政府机关、企业、学校等单位仍然存在大量的纸件文档,虽然 能够将纸质文档通过扫描、录入的方式储存到数据库中,从而实现纸 质文档的电子化,但是这些纸件文档依然需要人工对文档进行分类, 由于不同文档的属性复杂多变、数据量大,且每个人的分类标准不同, 导致文档著录和分类的效率和准确率较低,同时缺乏分类的客观性。
技术实现思路
[0003]本专利技术的内容部分用于以简要的形式介绍构思,这些构思将在后 面的具体实施方式部分被详细描述。本专利技术的内容部分并不旨在标识 要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要 求的保护的技术方案的范围。
[0004]本专利技术提出了一种纸件文档的数据化处理方法及装置,来解决以 上
技术介绍
部分提到的技术问题。
[0005]本专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种纸件文档的数据化处理方法,包括:获取待分类纸件文档的文档图像,基于光学字符对所述文档图像进行识别,从所述文档图像的识别结果中提取关键信息;在文档类型信息库中确定与所述关键信息匹配的标准信息,将所述标准信息所属的文档类型确定为所述待分类纸件文档的文档类型;基于所述文档类型对应的结构化版式以及所述待分类纸件文档的内容,生成所述待分类纸件文档的结构化信息;将所述待分类纸件文档、所述待分类纸件文档的文档类型以及所述结构化信息进行关联存储。2.根据权利要求1所述的方法,其特征在于,所述从所述文档图像的识别结果中提取所述关键信息,包括:根据内容类型将所述识别结果划分为多个子识别结果,各所述子识别结果对应的内容类型不同;基于内容类型对应的信息提取规则分别对各所述子识别结果进行信息提取,得到所述关键信息。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于已有的已分类文档确定每个文档类型的特征;根据所述每个文档类型的特征确定各所述文档类型对应的多个标准信息;将所述文档类型与所述文档类型对应的多个标准信息存储在所述文档类型信息库。4.根据权利要求3所述的方法,其特征在于,所述在文档类型信息库中确定与所述关键信息匹配的标准信息,包括:在所述文档类型信息库中的多个标准信息中,确定与所述关键信息匹配的标准信息。5.根据权利要求3所述的方法,其特征在于,在文档类型信息库中确定与所述关键信息匹配的标准信息,包括:将所述关键信息与所述标准信息输入预设的相似度模型,得到所述关键信息与所述标准信息的相似度;基于所述相似度,确定与所述关键信息匹配的标准信息。6.根据权利要求5所述的方法,其特征在于,所述预设的相似度模型为基于双向编码表示的特征向量提取模型,所述将所述关键信息与所述标准信息输入预设的相似度模型,得到所述关键信息与所述标准信息的相似度,包括:在所述关键...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。