【技术实现步骤摘要】
一种基于OCR引擎的智能审单方法及系统
[0001]本专利技术涉及信息审核
,特别是涉及一种基于OCR引擎的智能审单方法及系统。
技术介绍
[0002]金融领域里,金单业务和供票业务运营及风险岗位人员在审核贸易背景资料合同时,仅能通过人工肉眼查看影像件,而由于合同内容种类繁多而且内容冗长,审核耗时较长也较容易出现错漏。为此,现有技术公开了一种基于规则引擎和OCR的报账及审核自动化方法,该方法通过引入OCR识别技术,可以快速识别出各类票据信息,并将识别的信息存储至数据库中,再利用预先在规则引擎中配置的校验规则匹配识别的信息,进行自动填写电子单据信息,其虽然可以有效提高单据的审核审核效率和质量,但当同一份材料对应多张图片/pdf时,该方法的识别效率很差,且其仅能针对预设的规则进行固定格式文件的识别,不适用于合同等非固定格式文件。
技术实现思路
[0003]本专利技术为了解决以上至少一种技术缺陷,提供一种基于OCR引擎的智能审单方法及系统,在实现多个图片/pdf的自动合并提高审核效率的同时,实现了对合同印章的识别,适用于合同等非固定格式文件的识别。
[0004]为解决上述技术问题,本专利技术的技术方案如下:一种基于OCR引擎的智能审单方法,包括以下步骤:S1:基于OSS对象存储服务进行待审核单据上传;S2:按照预审规则选择待审核单据并检验文本格式,对待审核单据进行排序和格式转化,并合并为PDF文件;S3:基于OCR引擎对PDF文件进行识别,提取PDF文件中的贸易背景资料和合同章内容对应的文本, ...
【技术保护点】
【技术特征摘要】
1.一种基于OCR引擎的智能审单方法,其特征在于,包括以下步骤:S1:基于OSS对象存储服务进行待审核单据上传;S2:按照预审规则选择待审核单据并检验文本格式,对待审核单据进行排序和格式转化,并合并为PDF文件;S3:基于OCR引擎对PDF文件进行识别,提取PDF文件中的贸易背景资料和合同章内容对应的文本,获取识别结果;S4:对识别结果进行数据清洗和信息比较,根据比较结果对待审核单据进行审核,完成智能审单;在所述S3中,OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容,再利用NLP技术对文本内容进行解析,得到贸易背景资料;所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器;其中,提取出PDF文件中的文本内容的具体过程为:S3A1:读取PDF文件内容并对每一页内容进行拆分,得到多份单页内容;S3A2:将单页内容依次输入VGG16网络层中进行特征提取,生成多份单页内容的特征图;S3A3:利用滑动卷积层对特征图进行多次滑动卷积操作,获取多个特征向量,生成新的特征图;S3A4:利用循环层对新的特征图进行重塑处理,将新的特征图重塑为LSTM网络层能够处理的大小,得到重塑特征图;S3A5:利用LSTM网络层对重塑特征图进行卷积处理并配置锚点,获取文本位置;S3A6:在Softmax层中判断文本位置中是否包含文本,对文本所在的文本位置进行中心坐标修正和高度修正,生成修正结果;S3A7:利用修正结果,由文本生成器将中心坐标、高度相近的文本位置进行合并,构造成为一个文本行;再将多个文本行进行合并,得到PDF文件的文本内容。2.根据权利要求1所述的一种基于OCR引擎的智能审单方法,其特征在于,在所述S2中,所述预审规则为先过滤出待审核单据中带有排序标识的字符,然后对字符转义为数字并根据数字对待审核单据进行排序;所述格式转化过程为:将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。3.根据权利要求1所述的一种基于OCR引擎的智能审单方法,其特征在于,在所述S3中,所述NLP技术包括Look
‑
up层、BiLSTM层、CRF层和Filtrate层;利用NLP技术对文本内容进行解析,得到贸易背景资料的过程具体为:S3B1:利用Look
‑
up层将文本内容中的每一个单词映射为一个词向量,得到多个词向量;S3B2:BiLSTM层通过学习文本内容中上下文的信息,输出每个词向量对应于每个标签的得分概率;S3B3:将BiLSTM层的输出作为CRF层的输入,通过学习标签之间的顺序依赖信息,得到每个词向量预测的序列标注;S3B4:利用Filtrate层对每个词向量预测的序列标注进行处理,将无效标注进行过滤,并将有效标注归并到一个结果集输出,即得到贸易背景资料。
4.根据权利要求3所述的一种基于OCR引擎的智能审单方法,其特征在于,在所述S3中,OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为:S3C1:对S3A1中得到的多份单页内容分别进行印章识别,得到包含印章的单页内容;S3C2:基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理,剪裁处印章中环形文字区块;S3C3:将环形文字区块中的所有曲形文本拉直成水平文本行图片;S3C4:利用卷积层对水平文本行图片进行图像特征提取,得到图像特征;S3C5:通过循环层对图像特征进行序列建模,对图像特征的特征表征进行改善;S3C6:将特征表征改善后的图像特征进行线性分类,通过CTC解码获得最终的识别结果,得到合同章内容对应的文本。5.一种基于OCR引擎的智能审单系统,其特征在于,包括金单前端单元、单据合并单元、OCR合同识别服务单元、智能审单单元;其中:所述金单前端单元基于OSS...
【专利技术属性】
技术研发人员:钟鸿敏,容绍俊,陈昕,何勇,孔彪,
申请(专利权)人:简单汇信息科技广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。