【技术实现步骤摘要】
一种基于融合模型的质押资产智能查重方法及系统
[0001]本专利技术涉及质押资产智能查重
,特别涉及一种基于融合模型的质押资产智能查重方法及系统。
技术介绍
[0002]中登网(中国动产融资统一登记系统)通过动产与权利担保登记公示了市场主体的应收账款质押、应收账款转让和融资租赁等动产担保的详细记录,在质押融资担保业务中,为了避免市场主体的质押资产重复抵押的业务风险,需要在中登网查询市场主体的该笔质押资产是否有被重复质押担保,市场主体在中登网登记的应收账款等质押资产通常包含数以万计笔小资产,单纯靠人工从中登网搜索、查询和下载该市场主体登记过的全部质押资产并逐个跟对比标的物对比分析会非常耗费人力、物力和财力,且发生人工误判的风险也较高。
[0003]在质押融资担保审查业务中,现有技术方案是基于NLP技术和智能分类实现资产查重技术,例如专利申请号CN202111671968.3、名称为基于智能分类的资产查重方法、系统、设备及计算机可读存储介质的专利,其是按照预设的资产描述项对识别获得的内容进行预先的资产内容分类,以便 ...
【技术保护点】
【技术特征摘要】
1.一种基于融合模型的质押资产智能查重的方法,其特征在于,包括如下步骤:根据用户输入市场主体名称以及对比标的物的操作,启动中登网数据爬虫引擎;根据所述市场主体名称以及对比标的物,通过异步查询策略在中登网数据库中搜索所述市场主体名称下的有效登记记录;从中登网数据库批量下载所述有效登记记录的登记证明文件及其附件,并上传至S3对象存储协议构建的块存储访问数据模块;将所述登记证明文件及其附件中的PDF格式文件转化为JPG格式文件;将转化后的登记证明的标准PDF文件输入具有PDF解析和OCR识别功能的融合模型并抽取出登记证明表格的结构化的文本结果,将除所述标准PDF文件外的其它文件转化后输入OCR识别模型,抽取出半结构化的文本结果;通过汇总模型识别半结构化的文本结果和结构化的文本结果,并将识别得到的文本结果临时存入块存储访问数据模块;将半结构化的文本结果和结构化的文本结果与市场主体的对比标的物进行对比分析,如果发票代码、发票编号或合同代码、合同编号中任意一项与对比标的物存在重复,则返回未通过查重;如果全都不重复,判断合同名称或债务人名称是否与对比标的物存在重复,如果合同名称或债务人名称与对比标的物存在重复,则转给人工审核,如果合同名称或债务人名称与对比标的物不重复,则返回通过查重。2.根据权利要求1所述的方法,其特征在于,在所述如果合同名称或债务人名称与对比标的物不重复之后还包括利用关键词识别模型判断半结构化的文本结果和结构化的文本结果是否包含敏感关键词,如果包含敏感关键词则转给人工审核,如果没问题才返回通过查重。3.根据权利要求1所述的方法,其特征在于,所述将转化后的标准PDF文件输入具有PDF解析和OCR识别功能的融合模型并抽取出登记证明表格的结构化的文本结果,包括:通过OCR识别模型处理标准PDF文件的JPG格式的第一页,识别抽取得到结构化的文本结果;判断所述OCR识别模型识别出的文本字符串长度是否超过设定的阈值,如果超过设定的阈值,则开始调用PDF解析模型处理对应页码的标准...
【专利技术属性】
技术研发人员:申宇峰,李建斌,
申请(专利权)人:蔷薇大树科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。