【技术实现步骤摘要】
一种基于OCR的智能查验方法、系统及设备
[0001]本专利技术涉及金融信息审核
,更具体地,涉及一种基于OCR的智能查验方法、系统及设备。
技术介绍
[0002]当前通过中登网查重结果主要以文件形式返回,并且无法通过发票号、合同号等关键字搜索直接返回查重是否命中的结论。需要人工下载文件比对。并且中登登记当前并没有对登记信息做强校验,因此返回的查重信息格式和内容参差不齐。比如从中登查重返回的登记证明文件:融资合同号字段为空,融资合同号被写在了转让财产描述里,而融资合同金额可能被误填到了转让财产价值中(全额质押融资时财产价值=融资合同金额)。查重结果除了统一格式的证明文件,还会返回登记时上传的附件。附件格式则完全没有数量、格式规范。人工对融资交易进行查重时,需要依次下载各文件并搜索,工作量十分巨大,很容易遗漏。
[0003]目前在审批企业应收账款是否出现有重复登记,或者核验登记文件中的信息是否正确时,都需要人工通过肉眼去辨别,有较大出错风险:举例说明,若甲为供应商,乙为购买方,甲与乙进行一笔100万的交易,甲向乙交付了商品,由此甲拥有一笔对乙的应收账款,甲需要资金周转时将该笔应收账款转让或质押给丙平台,丙平台的工作人员查询该笔交易是否被重复登记,即该笔交易应收账款对应的合同、发票等是否在中登网上被登记过,经过查询在中登网上甲公司作为出让人的登记数量为100笔,假设每笔登记包括一份登记证明文件和三份附件,那人工肉眼需要审批400份文件,极其容易造成人工失误,此外目前在审批登记文件过程中,也有不少文件存在错误 ...
【技术保护点】
【技术特征摘要】
1.一种基于OCR的智能查验方法,其特征在于,包括以下步骤:S1、获取企业用户完成注册或发起融资申请时的中登网登记文件信息;S2、对所述登记文件信息使用预设的智能查验模型进行预处理,得到一类字符串信息;S3、获取企业用户发起融资审批时提交的企业融资信息,对所述企业融资信息进行处理,得到二类字符串信息,将二类字符串信息和一类字符串信息进行查重比对,判断是否存在同类型字符串信息,若是,执行步骤S4;否则,输出查重比对结果,执行步骤S6;S4、输出查重比对结果和带有相同字符串信息的登记文件信息,等待人工决策;S5、判断预处理的结果与查重比对结果是否正确,若是,输出查重比对结果,执行步骤S6;否则,将人工决策结果和查重比对结果进行数据回流;S6、结束查验。2.根据权利要求1所述的一种基于OCR的智能查验方法,其特征在于,步骤S1中获取企业发起融资申请时的登记文件信息的过程具体包括:通过中间件Canal监听预设的客户中心MySQL数据库,企业用户发起融资申请时,判断MySQL数据库中的信息是否出现更改,若是,更新信息,通过网络接口向中登网发起登录查询,获取企业用户的登记文件,转存至文件系统,执行步骤S2;否则,执行步骤S2;其中,根据企业用户注册时提交的客户数据信息获取企业信息,根据所述企业信息从中登网获取登记信息,所述预设的客户中心MySQL数据库存储企业用户提交的客户数据信息和获取登记信息的记录;所述中间件Canal监听所述客户中心MySQL数据库的过程具体为:中间件Canal定时向MySQL数据库发送监听信息,判断MySQL数据库中是否存在新的客户数据信息,若是,从新客户数据信息中获取企业信息,根据企业信息通过网络接口从中登网获取登记文件,优先处理新客户数据信息,执行步骤S2。3.根据权利要求2所述的一种基于OCR的智能查验方法,其特征在于,对所述登记文件信息进行预处理的过程具体为:解析登记文件的主文件,得到主文件信息;判断登记文件是否存在贸易背景附件,若是,则使用智能查验模型对贸易背景附件进行识别,得到企业关键信息和贸易财产信息,将主文件信息、企业关键信息和贸易财产信息作为一类字符串信息存储至MongoDB数据库;否则,将主文件信息作为一类字符串信息存储至MongoDB数据库;其中,所述一类字符串信息包括:文件名称和MD5码;所述智能查验模型包括:OCR文字识别模型和NLP语义分析模型,所述OCR文字识别模型用于获取登记文件的企业关键信息和贸易财产信息,所述NLP语义分析模型用于合并相近语义的字符串信息。4.根据权利要求3所述的一种基于OCR的智能查验方法,其特征在于,对所述企业融资信息进行处理的过程具体为:根据企业用户提交的融资信息得到影像文件,将影像文件上传至文件系统,文件系统返回影像文件的影像ID及影像地址,利用智能查验模型对影像文件进行识别,得到二类字符串信息,所述二类字符串信息包括:文件名称和MD5码。5.根据权利要求4所述的一种基于OCR的智能查验方法,其特征在于,查重比对的过程具体为:S31、查询查重比对对象在MySQL数据库中的登记信息记录,判断登记信息记录对应的登记文件是否全部解析完毕,若是,执行步骤S32;否则,返回执行步骤S2;S32、根据输入的查重参数对二类字符串信息进行查重,查重方式包括:关键字查重和
批量查重;所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字;S33、输出查重比对结果。6.根据权利要求5所述的一种基于OCR的智能查验方法,其特征在于,所述关键字查重包括对登记文件的主文件查重和贸易背景附件查重;所述关键字查重具体为:从MongoDB数据库中查询主文件或贸易背景附...
【专利技术属性】
技术研发人员:钟鸿敏,王骏光,孔彪,张远航,陈昕,
申请(专利权)人:简单汇信息科技广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。