一种新的征信报告PDF解析方法,处理和存储介质技术

技术编号:32528401 阅读:17 留言:0更新日期:2022-03-05 11:21
本发明专利技术属于征信数据处理技术领域,尤其为一种新的征信报告PDF解析方法,处理和存储介质,服务器响应于征信报告查询指令,获取目标征信PDF文件;将所述目标PDF文件转化为word文档,之后将word文档转化为html文档。本发明专利技术能够按照信息单元对征信报告文件进行自动解析,将解析结果解析至不同的信息单元文件中,还可以将信息单元文件自动加载至数据库的临时数据区,自动化解析和自动化加载不仅简化了征信报告的解析流程,还提高了征信报告的解析效率;本发明专利技术中通过不同文档结构类型的征信报告调用对应的解析模型进行解析,灵活应对不同格式以及不断变化的模块,提高了征信报告的解析时效,满足业务需求。满足业务需求。满足业务需求。

【技术实现步骤摘要】
一种新的征信报告PDF解析方法,处理和存储介质


[0001]本专利技术涉及征信数据处理
,尤其涉及一种新的征信报告PDF解析方法,处理和存储介质。

技术介绍

[0002]个人征信报告是反应个人信用最真实、直观的材料,通过个人征信报告获取个人的信用情况,从而决策是否给予信用贷款是国内金融信贷机构通行的做法。
[0003]然而一份征信报告的内容非常多,通常都有十多页以上,如果人工读取全部内容并录入模型,则工作量极其庞大,人工成本较高。并且对于信贷而言该征信报告中并非全部内容均有用,所以,如何快速精准地获取个人征信报告中对信贷有帮助的信息是本领域的技术人员正在研究的技术问题。
[0004]因此,我们提出了一种新的征信报告PDF解析方法,处理和存储介质用于解决上述问题。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种新的征信报告PDF解析方法,处理和存储介质。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:一种新的征信报告PDF解析方法,所述方法具体包括:
[0007]S1,服务器响应于征信报告查询指令,获取目标征信PDF文件;
[0008]S2,将所述目标PDF文件转化为word文档,之后将word文档转化为html文档;
[0009]S3,对多个所述html文档和多个所述html文档的文本内容进行训练以获得图像识别模型,以及对多个所述html文档的文本内容和解析报告进行训练以获得文本分类模型;/>[0010]S4,根据所述文本分类模型对所述目标html文档进行解析,获得用户信息。
[0011]优选的,所述征信报告PDF文件解析方法还包括:对文件接收目录进行扫描,将扫描到的征信报告文件移动至文件解析目录下;相应的,按照征信报告PDF文件中的信息单元对征信报告PDF文件进行解析,包括:在接收到源系统发送的标识文件后,按照征信报告PDF文件中的信息单元对文件解析目录下的征信报告PDF文件进行解析。
[0012]优选的,所述征信报告PDF的解析方法还包括:所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
[0013]优选的,根据所述目标分类模型对所述目标征信报告PDF进行解析,获得用户信息,具体包括:调用所述目标分类模型,对所述目标征信报告PDF进行解析,通过所述目标分类模型中的预设解析器,递归萃取所述目标内容,获得用户信息。
[0014]优选的,在解析征信报告PDF解析方法文件的同时记录征信报告PDF解析方法文件的解析处理总数;相应的,在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区,包括:当解析处理总数等于征信报告文件总数时,将信息单元文件加载至数据库的临
时数据区。
[0015]优选的,解析报告包括:提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;将所述结构化数据输入到所述文本分类模型以获得待分析的征信报告的解析报告。
[0016]优选的,所述文本分类模型包括文件接收模块,用于接收源系统发送的征信报告文件;文件解析模块,用于按照征信报告文件中的信息单元对征信报告文件进行解析;结果保存模块,用于将征信报告文件的解析结果保存至预先配置的信息单元文件中;文件加载模块,用于在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区。
[0017]一种新的征信报告PDF处理和存储介质,适用于上述任意一条所述的一种新的征信报告PDF解析方法,包括计算机可读存储介质与服务器和服务器,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求上述任一项所述的方法;所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的征信报告解析程序,所述征信报告解析程序适用于权利要求上述任一项所述的征信报告解析的方法的步骤。
[0018]优选的,所述处理器包括获取单元,用于获取多个征信报告以及多个所述征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;训练单元,用于对多个所述征信报告和多个所述征信报告的文本内容进行训练以获得图像识别模型,以及对多个所述征信报告的文本内容和解析报告进行训练以获得文本分类模型;第一解析单元,用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;第二解析单元,用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
[0019]优选的,所述存储器还包括保存单元,用于在将所述文本内容输入到所述文本分类模型以获得待分析的征信报告的解析报告之后,根据所述解析报告筛选出符合预设条件的征信报告之前,保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
[0020]与现有技术相比,本专利技术的有益效果是:
[0021]1、本专利技术能够按照信息单元对征信报告文件进行自动解析,将解析结果解析至不同的信息单元文件中,还可以将信息单元文件自动加载至数据库的临时数据区,自动化解析和自动化加载不仅简化了征信报告的解析流程,还提高了征信报告的解析效率;
[0022]2、本专利技术中通过不同文档结构类型的征信报告调用对应的解析模型进行解析,灵活应对不同格式以及不断变化的模块,提高了征信报告的解析时效,满足业务需求。
附图说明
[0023]图1为本专利技术提出的一种新的征信报告PDF解析方法流程图;
[0024]图2为本专利技术提出的一种新的征信报告PDF解析方法中文本分类模型的流程图;
[0025]图3为本专利技术提出的一种新的征信报告PDF处理和存储介质中处理器的结构示意图;
[0026]图4为本专利技术提出的一种新的征信报告PDF解析方法中分类模型的流程图;
[0027]图5为本专利技术提出的一种新的征信报告PDF解析方法,处理和存储介质的装置结构
示意图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]实施例
[0030]参考图1

5,本实施例中提出了一种新的征信报告PDF解析方法,所述方法具体包括:
[0031]S1,服务器响应于征信报告查询指令,获取目标征信PDF文件;
[0032]S2,将所述目标PDF文件转化为word文档,之后将word文档转化为html文档;
[0033]S3,对多个所述html文档和多个所述html文档的文本内容进行训练以获得图像识别模型,以及对多个所述html文档的文本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种新的征信报告PDF解析方法,其特征在于,所述方法具体包括:S1,服务器响应于征信报告查询指令,获取目标征信PDF文件;S2,将所述目标PDF文件转化为word文档,之后将word文档转化为html文档;S3,对多个所述html文档和多个所述html文档的文本内容进行训练以获得图像识别模型,以及对多个所述html文档的文本内容和解析报告进行训练以获得文本分类模型;S4,根据所述文本分类模型对所述目标html文档进行解析,获得用户信息。2.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,所述征信报告PDF文件解析方法还包括:对文件接收目录进行扫描,将扫描到的征信报告文件移动至文件解析目录下;相应的,按照征信报告PDF文件中的信息单元对征信报告PDF文件进行解析,包括:在接收到源系统发送的标识文件后,按照征信报告PDF文件中的信息单元对文件解析目录下的征信报告PDF文件进行解析。3.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,所述征信报告PDF的解析方法还包括:所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。4.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,根据所述目标分类模型对所述目标征信报告PDF进行解析,获得用户信息,具体包括:调用所述目标分类模型,对所述目标征信报告PDF进行解析,通过所述目标分类模型中的预设解析器,递归萃取所述目标内容,获得用户信息。5.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,在解析征信报告PDF解析方法文件的同时记录征信报告PDF解析方法文件的解析处理总数;相应的,在满足文件加载条件时,将信息单元文件加载至数据库的临时数据区,包括:当解析处理总数等于征信报告文件总数时,将信息单元文件加载至数据库的临时数据区。6.根据权利要求1所述的一种新的征信报告PDF解析方法,其特征在于,解析报告包括:提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;将所述结构化数据输入到所述文本分类模型以获得待分析的征信报告的解析报告。7.根据权利要求1所述的一种新的征信报告PD...

【专利技术属性】
技术研发人员:黄伟
申请(专利权)人:深圳市房帮帮互联网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1