一种基于OCR的智能查验方法、系统及设备技术方案

技术编号：39245862 阅读：8 留言：0更新日期：2023-10-30 11:58

本发明专利技术公开了一种基于OCR的智能查验方法、系统及设备，涉及金融信息审核技术领域，包括以下步骤：获取企业用户的登记文件信息；对登记文件信息进行预处理，得到一类字符串信息；获取企业融资信息，处理得到二类字符串信息，将二类字符串信息和一类字符串信息进行查重比对，判断是否存在同类型字符串信息，若是，输出查重比对结果和带有相同字符串信息的登记文件信息，等待人工决策；否则输出查重比对结果，结束查验；判断预处理的结果与查重比对结果是否正确，若是，输出查重比对结果，结束查验；否则将人工决策结果和查重比对结果进行数据回流。本发明专利技术提供了一个准确率高，识别速度快的查验模型与查验方法。快的查验模型与查验方法。快的查验模型与查验方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于OCR的智能查验方法、系统及设备

[0001]本专利技术涉及金融信息审核
，更具体地，涉及一种基于OCR的智能查验方法、系统及设备。

技术介绍

[0002]当前通过中登网查重结果主要以文件形式返回，并且无法通过发票号、合同号等关键字搜索直接返回查重是否命中的结论。需要人工下载文件比对。并且中登登记当前并没有对登记信息做强校验，因此返回的查重信息格式和内容参差不齐。比如从中登查重返回的登记证明文件：融资合同号字段为空，融资合同号被写在了转让财产描述里，而融资合同金额可能被误填到了转让财产价值中(全额质押融资时财产价值＝融资合同金额)。查重结果除了统一格式的证明文件，还会返回登记时上传的附件。附件格式则完全没有数量、格式规范。人工对融资交易进行查重时，需要依次下载各文件并搜索，工作量十分巨大，很容易遗漏。
[0003]目前在审批企业应收账款是否出现有重复登记，或者核验登记文件中的信息是否正确时，都需要人工通过肉眼去辨别，有较大出错风险：举例说明，若甲为供应商，乙为购买方，甲与乙进行一笔100万的交易，甲向乙交付了商品，由此甲拥有一笔对乙的应收账款，甲需要资金周转时将该笔应收账款转让或质押给丙平台，丙平台的工作人员查询该笔交易是否被重复登记，即该笔交易应收账款对应的合同、发票等是否在中登网上被登记过，经过查询在中登网上甲公司作为出让人的登记数量为100笔，假设每笔登记包括一份登记证明文件和三份附件，那人工肉眼需要审批400份文件，极其容易造成人工失误，此外目前在审批登记文件过程中，也有不少文件存在错误...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的智能查验方法，其特征在于，包括以下步骤：S1、获取企业用户完成注册或发起融资申请时的中登网登记文件信息；S2、对所述登记文件信息使用预设的智能查验模型进行预处理，得到一类字符串信息；S3、获取企业用户发起融资审批时提交的企业融资信息，对所述企业融资信息进行处理，得到二类字符串信息，将二类字符串信息和一类字符串信息进行查重比对，判断是否存在同类型字符串信息，若是，执行步骤S4；否则，输出查重比对结果，执行步骤S6；S4、输出查重比对结果和带有相同字符串信息的登记文件信息，等待人工决策；S5、判断预处理的结果与查重比对结果是否正确，若是，输出查重比对结果，执行步骤S6；否则，将人工决策结果和查重比对结果进行数据回流；S6、结束查验。2.根据权利要求1所述的一种基于OCR的智能查验方法，其特征在于，步骤S1中获取企业发起融资申请时的登记文件信息的过程具体包括：通过中间件Canal监听预设的客户中心MySQL数据库，企业用户发起融资申请时，判断MySQL数据库中的信息是否出现更改，若是，更新信息，通过网络接口向中登网发起登录查询，获取企业用户的登记文件，转存至文件系统，执行步骤S2；否则，执行步骤S2；其中，根据企业用户注册时提交的客户数据信息获取企业信息，根据所述企业信息从中登网获取登记信息，所述预设的客户中心MySQL数据库存储企业用户提交的客户数据信息和获取登记信息的记录；所述中间件Canal监听所述客户中心MySQL数据库的过程具体为：中间件Canal定时向MySQL数据库发送监听信息，判断MySQL数据库中是否存在新的客户数据信息，若是，从新客户数据信息中获取企业信息，根据企业信息通过网络接口从中登网获取登记文件，优先处理新客户数据信息，执行步骤S2。3.根据权利要求2所述的一种基于OCR的智能查验方法，其特征在于，对所述登记文件信息进行预处理的过程具体为：解析登记文件的主文件，得到主文件信息；判断登记文件是否存在贸易背景附件，若是，则使用智能查验模型对贸易背景附件进行识别，得到企业关键信息和贸易财产信息，将主文件信息、企业关键信息和贸易财产信息作为一类字符串信息存储至MongoDB数据库；否则，将主文件信息作为一类字符串信息存储至MongoDB数据库；其中，所述一类字符串信息包括：文件名称和MD5码；所述智能查验模型包括：OCR文字识别模型和NLP语义分析模型，所述OCR文字识别模型用于获取登记文件的企业关键信息和贸易财产信息，所述NLP语义分析模型用于合并相近语义的字符串信息。4.根据权利要求3所述的一种基于OCR的智能查验方法，其特征在于，对所述企业融资信息进行处理的过程具体为：根据企业用户提交的融资信息得到影像文件，将影像文件上传至文件系统，文件系统返回影像文件的影像ID及影像地址，利用智能查验模型对影像文件进行识别，得到二类字符串信息，所述二类字符串信息包括：文件名称和MD5码。5.根据权利要求4所述的一种基于OCR的智能查验方法，其特征在于，查重比对的过程具体为：S31、查询查重比对对象在MySQL数据库中的登记信息记录，判断登记信息记录对应的登记文件是否全部解析完毕，若是，执行步骤S32；否则，返回执行步骤S2；S32、根据输入的查重参数对二类字符串信息进行查重，查重方式包括：关键字查重和
批量查重；所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字；S33、输出查重比对结果。6.根据权利要求5所述的一种基于OCR的智能查验方法，其特征在于，所述关键字查重包括对登记文件的主文件查重和贸易背景附件查重；所述关键字查重具体为：从MongoDB数据库中查询主文件或贸易背景附...

【专利技术属性】
技术研发人员：钟鸿敏，王骏光，孔彪，张远航，陈昕，
申请(专利权)人：简单汇信息科技广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人