一种基于模式识别的半结构文档识别方法及系统技术方案

技术编号:32279198 阅读:62 留言:0更新日期:2022-02-12 19:46
本发明专利技术提供一种基于模式识别的半结构文档识别方法,包括:将半结构文档转换为图片,获取文字信息及文字的坐标;以半结构文档的关键信息的位置作为锚点,构建锚点图;建立上下树、左右树的树数据结构,建立文档模板;进行模式匹配,对新的半结构文档用上下树、左右树中的锚点信息进行匹配;进行信息抽取,将半结构化信息转化为结构化信息。本发明专利技术结合树数据结构与模式识别方法提取文档信息,提升了文档信息提取的准确率,也提升了识别的泛化能力;具有语义泛化能力,能够提升锚点本身的语义泛化能力;能够自定义模板,提升应对不同格式文档的能力,对文档的支持速度得到了大幅度的提升。对文档的支持速度得到了大幅度的提升。对文档的支持速度得到了大幅度的提升。

【技术实现步骤摘要】
一种基于模式识别的半结构文档识别方法及系统


[0001]本专利技术涉及考试计算机信息处理
,具体而言,涉及一种基于模式识别的半结构文档识别方法及系统。

技术介绍

[0002]日常生产生活中,半结构化的文档是经常使用的一种文档,比如发票、超市小票、登记表等,这种文档由于设计人不同,其格式也是千差万别,这也导致其难以转换成结构化的数据。
[0003]随着信息技术的发展,数据是一座亟待开发的宝藏,而半结构化的文档如果不能转成结构化的数据,不能录入到计算机系统,其价值则没有得到完整开发,是一种资源的浪费。因此,如何将非结构化数据转换成结构化的数据,成为文档信息提取的热点。
[0004]目前国内外解决上述问题的主要方式为运用规则逻辑和深度学习的方式,但是其中,规则逻辑的方式存在识别准确率不高、无法应对格式变换、后期难以进行维护升级的问题;深度学习的方式具有准确率不高、可解释性不强、结果不具有确定性的问题,并且两者都具有对新类型的文档开发周期长、支持速度慢的问题。

技术实现思路

[0005]鉴于此,本专利技术的目的在于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于模式识别的半结构文档识别方法,其特征在于,包括以下步骤:S1、将半结构文档转化为图片,从图片中提取半结构文档中的文字,获取文字在图片中的空间坐标特征;S2、构建锚点图,以半结构文档的关键信息的位置作为锚点,获取锚点的四个边界形成的矩形框四个点的坐标,在所述图片上框选出关键信息的位置,形成锚点图;S3、对每种类型的半结构文档的所述锚点图建立树数据结构,都由上到下读取和存储锚点,按照上下顺序建立层次,形成上下树,由左向右读取和存储锚点,按照左右顺序建立层次,形成左右树,通过所述上下树和所述左右树的结构描述半结构文档的锚点信息,建立文档模板;S4、进行目标信息的提取,在锚点图上检索、查找决定目标信息的四个边界的锚点,用所述四个边界的锚点的位置来描述目标信息的位置,将半结构化信息转化为结构化信息。2.根据权利要求1所述的半结构文档识别方法,其特征在于,所述S4步骤之后还包括以下步骤:S5、对新的半结构文档查找锚点,用所述文档模板匹配新的半结构文档的锚点;S6、如匹配文档模板成功,用所述文档模板下的锚点描述目标信息的方式来反推目标信息...

【专利技术属性】
技术研发人员:张雷震
申请(专利权)人:上海汇航捷讯网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1