一种基于OCR引擎的智能审单方法及系统技术方案

技术编号:34751260 阅读:22 留言:0更新日期:2022-08-31 18:46
本发明专利技术提出了一种基于OCR引擎的智能审单方法及系统,包括:进行待审核单据上传;按照预审规则选择待审核单据并检验文本格式,对待审核单据进行排序和格式转化,并合并为PDF文件;基于OCR引擎对PDF文件进行识别,提取PDF文件中的贸易背景资料和合同章内容对应的文本,获取识别结果;对识别结果进行数据清洗和信息比较,对待审核单据进行审核。本发明专利技术提出一种基于OCR引擎的智能审单方法及系统,令整个审单过程无需逐个单据进行审核,可有效提高审核效率,能够将贸易背景资料及合同章内容对应的文本进行识别和提取,实现了对合同印章的识别,适用于合同等非固定格式文件的识别。适用于合同等非固定格式文件的识别。适用于合同等非固定格式文件的识别。

【技术实现步骤摘要】
一种基于OCR引擎的智能审单方法及系统


[0001]本专利技术涉及信息审核
,特别是涉及一种基于OCR引擎的智能审单方法及系统。

技术介绍

[0002]金融领域里,金单业务和供票业务运营及风险岗位人员在审核贸易背景资料合同时,仅能通过人工肉眼查看影像件,而由于合同内容种类繁多而且内容冗长,审核耗时较长也较容易出现错漏。为此,现有技术公开了一种基于规则引擎和OCR的报账及审核自动化方法,该方法通过引入OCR识别技术,可以快速识别出各类票据信息,并将识别的信息存储至数据库中,再利用预先在规则引擎中配置的校验规则匹配识别的信息,进行自动填写电子单据信息,其虽然可以有效提高单据的审核审核效率和质量,但当同一份材料对应多张图片/pdf时,该方法的识别效率很差,且其仅能针对预设的规则进行固定格式文件的识别,不适用于合同等非固定格式文件。

技术实现思路

[0003]本专利技术为了解决以上至少一种技术缺陷,提供一种基于OCR引擎的智能审单方法及系统,在实现多个图片/pdf的自动合并提高审核效率的同时,实现了对合同印章的识别,适用于合同等非固定格式文件的识别。
[0004]为解决上述技术问题,本专利技术的技术方案如下:一种基于OCR引擎的智能审单方法,包括以下步骤:S1:基于OSS对象存储服务进行待审核单据上传;S2:按照预审规则选择待审核单据并检验文本格式,对待审核单据进行排序和格式转化,并合并为PDF文件;S3:基于OCR引擎对PDF文件进行识别,提取PDF文件中的贸易背景资料和合同章内容对应的文本,获取识别结果;S4:对识别结果进行数据清洗和信息比较,根据比较结果对待审核单据进行审核,完成智能审单。
[0005]上述方案中,OSS对象存储服务(Object Storage Service

对象存储服务)作为待审核单据对象存储中心,分离了待审核单据得上传逻辑。待审核单据在对象存储服务中均采用Fileid作为命名,其信息存储在文件服务中。将待审核单据上传到OSS,则无需通过后端服务,前后端访问文件均可以直接对接OSS对象存储服务,大大降低了后端应用服务器的带宽压力。
[0006]上述方案中,通过PDF合并技术将图片/pdf格式的待审核单据进行自动合并,令整个审单过程无需逐个单据进行审核,可有效提高审核效率;同时,本方案能够将贸易背景资料及合同章内容对应的文本进行识别和提取,实现了对合同印章的识别,适用于合同等非固定格式文件的识别。
[0007]其中,在所述S2中,所述预审规则为先过滤出待审核单据中带有排序标识的字符,然后对字符转义为数字并根据数字对待审核单据进行排序;所述格式转化过程为:将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。
[0008]上述方案中,在需要合并PDF文件时,先按Fileid列表把待审核单据逐一下载,遇到webp格式的文件自动采用流处理方式转换为png格式,对于分辨率较大或者较小的图片,会自动压缩或调整分辨率,使调整后的图片更符合后续OCR识别及人工检测的视觉效果;然后采用把图片写入到PDF文件context中的方式将图片合并为PDF文件。由于采用OSS存储待审核单据及提供加速下载服务,使得整体文件合并效率非常高,操作响应快,用户体验较好。
[0009]其中,在所述S3中,OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容,再利用NLP技术对文本内容进行解析,得到贸易背景资料;所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器;其中,提取出PDF文件中的文本内容的具体过程为:S3A1:读取PDF文件内容并对每一页内容进行拆分,得到多份单页内容;S3A2:将单页内容依次输入VGG16网络层中进行特征提取,生成多份单页内容的特征图;S3A3:利用滑动卷积层对特征图进行多次滑动卷积操作,获取多个特征向量,生成新的特征图;S3A4:利用循环层对新的特征图进行重塑处理,将新的特征图重塑为LSTM网络层能够处理的大小,得到重塑特征图;S3A5:利用LSTM网络层对重塑特征图进行卷积处理并配置锚点,获取文本位置;S3A6:在Softmax层中判断文本位置中是否包含文本,对文本所在的文本位置进行中心坐标修正和高度修正,生成修正结果;S3A7:利用修正结果,由文本生成器将中心坐标、高度相近的文本位置进行合并,构造成为一个文本行;再将多个文本行进行合并,得到PDF文件的文本内容。
[0010]其中,在所述S3中,所述NLP技术包括Look

up层、BiLSTM层、CRF层和Filtrate层;利用NLP技术对文本内容进行解析,得到贸易背景资料的过程具体为:S3B1:利用Look

up层将文本内容中的每一个单词映射为一个词向量,得到多个词向量;S3B2:BiLSTM层通过学习文本内容中上下文的信息,输出每个词向量对应于每个标签的得分概率;S3B3:将BiLSTM层的输出作为CRF层的输入,通过学习标签之间的顺序依赖信息,得到每个词向量预测的序列标注;S3B4:利用Filtrate层对每个词向量预测的序列标注进行处理,将无效标注进行过滤,并将有效标注归并到一个结果集输出,即得到贸易背景资料。
[0011]上述方案中,所述词向量对应于每个标签是根据实际需要进行预先设置的,而CRF层可以有效学习到标签之间的顺序依赖信息,形成每个词向量预测的序列标注。
[0012]其中,在所述S3中,OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为:S3C1:对S3A1中得到的多份单页内容分别进行印章识别,得到包含印章的单页内
容;S3C2:基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理,剪裁处印章中环形文字区块;S3C3:将环形文字区块中的所有曲形文本拉直成水平文本行图片;S3C4:利用卷积层对水平文本行图片进行图像特征提取,得到图像特征;S3C5:通过循环层对图像特征进行序列建模,对图像特征的特征表征进行改善;S3C6:将特征表征改善后的图像特征进行线性分类,通过CTC解码获得最终的识别结果,得到合同章内容对应的文本。
[0013]上述方案中,可以将贸易背景资料进行提取并进行审核,对明显不符合规定的贸易背景资料进行提示,加快审批效率;在识别到贸易背景资料后,自动将其中的关键信息高亮加粗显示,方便审核人员快速定位找到有效信息,并根据审核清单逐项自动做出判断,有效避免人工审核出现遗漏,提升审核效率以提升工作人员的审核效率。
[0014]本方案还提出一种基于OCR引擎的智能审单系统,包括金单前端单元、单据合并单元、OCR合同识别服务单元、智能审单单元;其中:所述金单前端单元基于OSS对象存储服务将待审核单据进行上传;所述单据合并单元用于按照预审规则选择待审核单据并检验文本格式,对待审核单据进行排序和格式转化,并合并为PDF文件;所述OCR合同识别服务单元基于OCR引擎对PDF文件进行识别,提取PDF文件中的贸易背景资料和合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR引擎的智能审单方法,其特征在于,包括以下步骤:S1:基于OSS对象存储服务进行待审核单据上传;S2:按照预审规则选择待审核单据并检验文本格式,对待审核单据进行排序和格式转化,并合并为PDF文件;S3:基于OCR引擎对PDF文件进行识别,提取PDF文件中的贸易背景资料和合同章内容对应的文本,获取识别结果;S4:对识别结果进行数据清洗和信息比较,根据比较结果对待审核单据进行审核,完成智能审单;在所述S3中,OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容,再利用NLP技术对文本内容进行解析,得到贸易背景资料;所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器;其中,提取出PDF文件中的文本内容的具体过程为:S3A1:读取PDF文件内容并对每一页内容进行拆分,得到多份单页内容;S3A2:将单页内容依次输入VGG16网络层中进行特征提取,生成多份单页内容的特征图;S3A3:利用滑动卷积层对特征图进行多次滑动卷积操作,获取多个特征向量,生成新的特征图;S3A4:利用循环层对新的特征图进行重塑处理,将新的特征图重塑为LSTM网络层能够处理的大小,得到重塑特征图;S3A5:利用LSTM网络层对重塑特征图进行卷积处理并配置锚点,获取文本位置;S3A6:在Softmax层中判断文本位置中是否包含文本,对文本所在的文本位置进行中心坐标修正和高度修正,生成修正结果;S3A7:利用修正结果,由文本生成器将中心坐标、高度相近的文本位置进行合并,构造成为一个文本行;再将多个文本行进行合并,得到PDF文件的文本内容。2.根据权利要求1所述的一种基于OCR引擎的智能审单方法,其特征在于,在所述S2中,所述预审规则为先过滤出待审核单据中带有排序标识的字符,然后对字符转义为数字并根据数字对待审核单据进行排序;所述格式转化过程为:将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。3.根据权利要求1所述的一种基于OCR引擎的智能审单方法,其特征在于,在所述S3中,所述NLP技术包括Look

up层、BiLSTM层、CRF层和Filtrate层;利用NLP技术对文本内容进行解析,得到贸易背景资料的过程具体为:S3B1:利用Look

up层将文本内容中的每一个单词映射为一个词向量,得到多个词向量;S3B2:BiLSTM层通过学习文本内容中上下文的信息,输出每个词向量对应于每个标签的得分概率;S3B3:将BiLSTM层的输出作为CRF层的输入,通过学习标签之间的顺序依赖信息,得到每个词向量预测的序列标注;S3B4:利用Filtrate层对每个词向量预测的序列标注进行处理,将无效标注进行过滤,并将有效标注归并到一个结果集输出,即得到贸易背景资料。
4.根据权利要求3所述的一种基于OCR引擎的智能审单方法,其特征在于,在所述S3中,OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为:S3C1:对S3A1中得到的多份单页内容分别进行印章识别,得到包含印章的单页内容;S3C2:基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理,剪裁处印章中环形文字区块;S3C3:将环形文字区块中的所有曲形文本拉直成水平文本行图片;S3C4:利用卷积层对水平文本行图片进行图像特征提取,得到图像特征;S3C5:通过循环层对图像特征进行序列建模,对图像特征的特征表征进行改善;S3C6:将特征表征改善后的图像特征进行线性分类,通过CTC解码获得最终的识别结果,得到合同章内容对应的文本。5.一种基于OCR引擎的智能审单系统,其特征在于,包括金单前端单元、单据合并单元、OCR合同识别服务单元、智能审单单元;其中:所述金单前端单元基于OSS...

【专利技术属性】
技术研发人员:钟鸿敏容绍俊陈昕何勇孔彪
申请(专利权)人:简单汇信息科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1