一种基于OCR的智能查验方法、系统及设备技术方案

技术编号:39245862 阅读:8 留言:0更新日期:2023-10-30 11:58
本发明专利技术公开了一种基于OCR的智能查验方法、系统及设备,涉及金融信息审核技术领域,包括以下步骤:获取企业用户的登记文件信息;对登记文件信息进行预处理,得到一类字符串信息;获取企业融资信息,处理得到二类字符串信息,将二类字符串信息和一类字符串信息进行查重比对,判断是否存在同类型字符串信息,若是,输出查重比对结果和带有相同字符串信息的登记文件信息,等待人工决策;否则输出查重比对结果,结束查验;判断预处理的结果与查重比对结果是否正确,若是,输出查重比对结果,结束查验;否则将人工决策结果和查重比对结果进行数据回流。本发明专利技术提供了一个准确率高,识别速度快的查验模型与查验方法。快的查验模型与查验方法。快的查验模型与查验方法。

【技术实现步骤摘要】
一种基于OCR的智能查验方法、系统及设备


[0001]本专利技术涉及金融信息审核
,更具体地,涉及一种基于OCR的智能查验方法、系统及设备。

技术介绍

[0002]当前通过中登网查重结果主要以文件形式返回,并且无法通过发票号、合同号等关键字搜索直接返回查重是否命中的结论。需要人工下载文件比对。并且中登登记当前并没有对登记信息做强校验,因此返回的查重信息格式和内容参差不齐。比如从中登查重返回的登记证明文件:融资合同号字段为空,融资合同号被写在了转让财产描述里,而融资合同金额可能被误填到了转让财产价值中(全额质押融资时财产价值=融资合同金额)。查重结果除了统一格式的证明文件,还会返回登记时上传的附件。附件格式则完全没有数量、格式规范。人工对融资交易进行查重时,需要依次下载各文件并搜索,工作量十分巨大,很容易遗漏。
[0003]目前在审批企业应收账款是否出现有重复登记,或者核验登记文件中的信息是否正确时,都需要人工通过肉眼去辨别,有较大出错风险:举例说明,若甲为供应商,乙为购买方,甲与乙进行一笔100万的交易,甲向乙交付了商品,由此甲拥有一笔对乙的应收账款,甲需要资金周转时将该笔应收账款转让或质押给丙平台,丙平台的工作人员查询该笔交易是否被重复登记,即该笔交易应收账款对应的合同、发票等是否在中登网上被登记过,经过查询在中登网上甲公司作为出让人的登记数量为100笔,假设每笔登记包括一份登记证明文件和三份附件,那人工肉眼需要审批400份文件,极其容易造成人工失误,此外目前在审批登记文件过程中,也有不少文件存在错误填写登记信息的情况,导致需要人工查询原始合同号核对文件的正确性。而在核对的过程中也非常容易造成遗漏。
[0004]基于以上相关技术背景,现有技术中提出了一种基于登记数据的智能核验方法及装置,利用NLP(自然语言处理技术)中的NER(命名实体识别)模型从中自动抽取出财产描述部分重要的信息(即实体词),便于后续利用财产描述部分的重要信息与输入的查重信息进行文本相似度的比较。同时,在存在重复登记情况下,在进行首次查重时,只需要对目标待识别文件中的登记证明文件中的财产描述部分(根据登记类型不同又称为质押、抵押、租赁、转让财产描述)的进行PDF处理,即可发现重复交易的存在,无需对与每份登记证明文件关联的附件全部进行OCR处理,加快了查重速度并且降低了查重处理时对计算机占用的占用率。该技术的缺陷是,无法识别出错误填写登记信息的情况,不支持批量处理,也不支持查重结果返回校正识别模型,模型正确率较低。
[0005]为此,结合以上需求和现有技术的缺陷,本申请提出了一种基于OCR的智能查验方法、系统及设备。

技术实现思路

[0006]本专利技术提供了一种基于OCR的智能查验方法、系统及设备,利用中登网的登记文
件,发票文件,在预设的智能查验模型上对关键信息进行标注,同时采用查重结果中的错误样本对模型进行校正训练,从而得到一个准确率高,识别速度快的查验模型与查验方法。
[0007]本专利技术的首要目的是为解决上述技术问题,本专利技术的技术方案如下:
[0008]本专利技术第一方面提供了一种基于OCR的智能查验方法,包括以下步骤:
[0009]S1、获取企业用户完成注册或发起融资申请时的中登网登记文件信息。
[0010]S2、将对所述登记文件信息进行预处理,得到一类字符串信息,所述预处理过程包括使用OCR和NLP对登记文件进行处理。
[0011]S3、获取企业用户发起融资审批时提交的企业融资信息,对所述企业融资信息进行处理,得到二类字符串信息,将二类字符串信息和一类字符串信息进行查重比对,判断是否存在同类型的字符串信息,若是,执行步骤S4;否则,输出查重比对结果,执行步骤S6。
[0012]其中,所述登记文件信息从中登网获取,所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字。
[0013]S4、输出查重比对结果和带有相同字符串信息的登记文件信息,等待人工决策。
[0014]S5、判断预处理的结果与查重比对结果是否正确,若是,输出查重比对结果,执行步骤S6;否则,将人工决策结果和查重比对结果进行数据回流。
[0015]S6、结束查验。
[0016]进一步的,步骤S1中获取企业发起融资申请时的登记文件信息的过程具体包括:通过中间件Canal监听预设的客户中心MySQL数据库,企业用户发起融资申请时,判断MySQL数据库中的信息是否出现更改,若是,更新信息,通过网络接口向中登网发起登录查询,获取企业用户的登记文件,转存至文件系统,执行步骤S2;否则,执行步骤S2;其中,根据企业用户注册时提交的客户数据信息获取企业信息,根据所述企业信息从中登网获取登记信息,所述预设的客户中心MySQL数据库存储企业用户提交的客户数据信息和获取登记信息的记录。
[0017]所述中间件Canal监听所述客户中心MySQL数据库的过程具体为:中间件Canal定时向MySQL数据库发送监听信息,判断MySQL数据库中是否存在新的客户数据信息,若是,从新客户数据信息中获取企业信息,根据企业信息通过网络接口从中登网获取登记文件,优先处理新客户数据信息,执行步骤S2。
[0018]进一步的,对所述登记文件信息进行预处理的过程具体为:解析登记文件的主文件,解析得到主文件信息;判断登记文件是否存在贸易背景附件,若是,则使用智能查验模型对贸易背景附件进行识别,得到企业关键信息和贸易财产信息,将主文件信息、企业关键信息和贸易财产信息作为一类字符串信息存储至MongoDB数据库;否则,将主文件信息作为一类字符串信息存储至MongoDB数据库;其中,所述一类字符串信息包括:文件名称和MD5码。
[0019]其中,所述智能查验模型包括:OCR文字识别模型和NLP语义分析模型,所述OCR文字识别模型用于获取登记文件的企业关键信息和贸易财产信息,所述NLP语义分析模型用于合并相近语义的字符串信息。
[0020]所述OCR文字识别模型包括有:卷积层、递归层和解析层;所述卷积层用于识别文字内容区,所述递归层从文字内容区中抽取文字,包括有双向神经网络和长短期记忆神经网络,能够根据在先的单词预测下一个单词,所述解析层使用字符串编辑距离算法方程,并
采用动态规划方案进行逻辑计算,分析递归层提取文字的语义并输出整体结果。
[0021]其中,文字识别的过程具体为:将登记文件信息和发票信息输入至文字识别模型的卷积层,卷积层首先将登记文件信息和发票信息转化为特征图,再通过候选区生成网络和感兴趣区域池化层后,经目标区回归输出文字内容区至递归层;递归层经双向神经网络和长短期记忆神经网络从文字内容区抽取文字,输出包含字符特征的特征序列和时间序列的分类结果至解析层;解析层使用字符串编辑距离算法方程和动态规划方案进行逻辑计算,分析特征序列中字符特征的先后关系,对时间序列的分类结果进行解码,输出一类字符信息。
[0022]所述NLP语义分析模型用于解析一类字符信息中的关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的智能查验方法,其特征在于,包括以下步骤:S1、获取企业用户完成注册或发起融资申请时的中登网登记文件信息;S2、对所述登记文件信息使用预设的智能查验模型进行预处理,得到一类字符串信息;S3、获取企业用户发起融资审批时提交的企业融资信息,对所述企业融资信息进行处理,得到二类字符串信息,将二类字符串信息和一类字符串信息进行查重比对,判断是否存在同类型字符串信息,若是,执行步骤S4;否则,输出查重比对结果,执行步骤S6;S4、输出查重比对结果和带有相同字符串信息的登记文件信息,等待人工决策;S5、判断预处理的结果与查重比对结果是否正确,若是,输出查重比对结果,执行步骤S6;否则,将人工决策结果和查重比对结果进行数据回流;S6、结束查验。2.根据权利要求1所述的一种基于OCR的智能查验方法,其特征在于,步骤S1中获取企业发起融资申请时的登记文件信息的过程具体包括:通过中间件Canal监听预设的客户中心MySQL数据库,企业用户发起融资申请时,判断MySQL数据库中的信息是否出现更改,若是,更新信息,通过网络接口向中登网发起登录查询,获取企业用户的登记文件,转存至文件系统,执行步骤S2;否则,执行步骤S2;其中,根据企业用户注册时提交的客户数据信息获取企业信息,根据所述企业信息从中登网获取登记信息,所述预设的客户中心MySQL数据库存储企业用户提交的客户数据信息和获取登记信息的记录;所述中间件Canal监听所述客户中心MySQL数据库的过程具体为:中间件Canal定时向MySQL数据库发送监听信息,判断MySQL数据库中是否存在新的客户数据信息,若是,从新客户数据信息中获取企业信息,根据企业信息通过网络接口从中登网获取登记文件,优先处理新客户数据信息,执行步骤S2。3.根据权利要求2所述的一种基于OCR的智能查验方法,其特征在于,对所述登记文件信息进行预处理的过程具体为:解析登记文件的主文件,得到主文件信息;判断登记文件是否存在贸易背景附件,若是,则使用智能查验模型对贸易背景附件进行识别,得到企业关键信息和贸易财产信息,将主文件信息、企业关键信息和贸易财产信息作为一类字符串信息存储至MongoDB数据库;否则,将主文件信息作为一类字符串信息存储至MongoDB数据库;其中,所述一类字符串信息包括:文件名称和MD5码;所述智能查验模型包括:OCR文字识别模型和NLP语义分析模型,所述OCR文字识别模型用于获取登记文件的企业关键信息和贸易财产信息,所述NLP语义分析模型用于合并相近语义的字符串信息。4.根据权利要求3所述的一种基于OCR的智能查验方法,其特征在于,对所述企业融资信息进行处理的过程具体为:根据企业用户提交的融资信息得到影像文件,将影像文件上传至文件系统,文件系统返回影像文件的影像ID及影像地址,利用智能查验模型对影像文件进行识别,得到二类字符串信息,所述二类字符串信息包括:文件名称和MD5码。5.根据权利要求4所述的一种基于OCR的智能查验方法,其特征在于,查重比对的过程具体为:S31、查询查重比对对象在MySQL数据库中的登记信息记录,判断登记信息记录对应的登记文件是否全部解析完毕,若是,执行步骤S32;否则,返回执行步骤S2;S32、根据输入的查重参数对二类字符串信息进行查重,查重方式包括:关键字查重和
批量查重;所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字;S33、输出查重比对结果。6.根据权利要求5所述的一种基于OCR的智能查验方法,其特征在于,所述关键字查重包括对登记文件的主文件查重和贸易背景附件查重;所述关键字查重具体为:从MongoDB数据库中查询主文件或贸易背景附...

【专利技术属性】
技术研发人员:钟鸿敏王骏光孔彪张远航陈昕
申请(专利权)人:简单汇信息科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1