证照内容纠错方法、装置及系统制造方法及图纸

技术编号:27361994 阅读:18 留言:0更新日期:2021-02-19 13:44
本申请实施例公开了一种证照内容纠错方法、装置及系统,其中方法包括:根据住所获得对应的目标登记管理机关行政区划码,以替换原始统一社会信用代码中的登记管理机关行政区划码,对修改后的原始统一社会信用代码进行验证;若未通过验证,根据修改后的原始统一社会信用代码在工商数据库中进行搜索,获取对应的目标证照内容信息,分别计算证照内容识别信息和目标证照内容信息中相对应的各个内容的相似度,根据相似度大小选择正确内容输出。相比现有技术,本申请能够对识别到的统一社会信用代码进行纠错,提高对统一社会信用代码识别错误的容忍度。误的容忍度。误的容忍度。

【技术实现步骤摘要】
证照内容纠错方法、装置及系统


[0001]本申请涉及计算机
,具体涉及一种证照内容纠错方法、装置及系统。

技术介绍

[0002]在金融业务,如企业向金融机构申请贷款的过程中,需要将企业提供的营业执照内容录入系统以进行后续的风险管理流程。采用机器自动化识别营业执照内容的方式替代手工录入,能极大降低录入成本并提高录入效率。
[0003]现有系统首先检测营业执照的文字内容,然后对检测到的内容进行识别。完成识别后利用空间位置和文本内容信息提取统一社会信用代码和企业名称的识别内容。接着将统一社会信用代码和企业名称作为唯一标识在工商数据库中查询证照内容信息,证照内容信息不仅包括统一社会信用代码和企业名称,还包括成立日期、营业期限、注册资本、经营范围、住所、企业类型和法定代表人,查询成功则获取工商数据库中的证照内容信息。
[0004]内容的识别错误率随着长度增加会以指数级提高,对于18位的统一社会信用代码,即使单个字符的准确率为99%,整体的准确率仅为0.99
18
=0.835,识别到的统一社会信用代码整体准确率低;另外在对统一社会信用代码进行识别时,还会由于识别错误,识别到的统一社会信用代码前面或者后面会加上错误字符,造成识别到的统一社会信用代码大于18位,上面两种情况都会导致无法根据统一社会信用代码从工商数据库中查询到证照内容信息,只能将营业执照的初始识别内容存入系统,最终造成系统中的证照内容信息是错误的。

技术实现思路

[0005]本申请提供了一种证照内容纠错方法、装置及系统,能够对识别到的统一社会信用代码进行纠错,提高对统一社会信用代码识别错误的容忍度。
[0006]本申请提供了如下方案:
[0007]第一方面提供一种证照内容纠错方法,所述方法包括:
[0008]根据证照内容识别信息中的住所获得对应的目标登记管理机关行政区划码,利用所述目标登记管理机关行政区划码替换证照内容识别信息中的原始统一社会信用代码中的登记管理机关行政区划码,对修改后的原始统一社会信用代码进行验证;
[0009]若未通过验证,根据所述修改后的原始统一社会信用代码在工商数据库中进行搜索,获取对应的目标证照内容信息,所述目标证照内容信息包括统一社会信用代码、住所、企业名称和企业基本信息;
[0010]若通过验证,根据所述修改后的原始统一社会信用代码和证照内容识别信息中的企业名称在工商数据库中进行搜索,获取对应的目标证照内容信息。
[0011]进一步地,
[0012]在所述根据证照内容识别信息中的住所获得对应的目标登记管理机关行政区划码之前,所述方法还包括:
[0013]从所述证照内容识别信息中的所述原始统一社会信用代码的第一位开始顺序选取预设位数的字符作为目标统一社会信用代码进行验证;
[0014]若未通过验证,从所述原始统一社会信用代码的第二位开始顺序选取预设位数的字符作为目标统一社会信用代码进行验证,若未通过验证,重复执行直至选取到的预设位数的字符通过验证或验证到所述原始统一社会信用代码的最后预设位数的字符。
[0015]进一步地,
[0016]所述根据证照内容识别信息中的住所获得对应的目标登记管理机关行政区划码,利用所述目标登记管理机关行政区划码替换证照内容识别信息中的原始统一社会信用代码中的登记管理机关行政区划码,对修改后的所述原始统一社会信用代码进行验证包括:
[0017]若验证到所述原始统一社会信用代码的最后预设位数的字符时,未通过验证,则从所述原始统一社会信用代码的第一位开始顺序选取预设位数的字符作为目标统一社会信用代码,根据证照内容识别信息中的住所获得对应的目标登记管理机关行政区划码,利用所述目标登记管理机关行政区划码替换所述目标统一社会信用代码中的登记管理机关行政区划码,同时将所述目标统一社会信用代码的前两位修改为预设值,对修改后的目标统一社会信用代码进行验证;
[0018]若未通过验证,从所述原始统一社会信用代码的第二位开始顺序选取预设位数的字符作为目标统一社会信用代码,利用所述目标登记管理机关行政区划码替换所述目标统一社会信用代码中的登记管理机关行政区划码,同时将所述目标统一社会信用代码的前两位修改为预设值,对修改后的目标统一社会信用代码进行验证,若未通过验证,重复执行直至修改后的目标统一社会信用代码通过验证或验证到所述原始统一社会信用代码的最后预设位数的字符所组成的修改后的目标统一社会信用代码。
[0019]进一步地,
[0020]所述若未通过验证,根据修改后的所述统一社会信用代码在工商数据库中进行搜索,获取对应的目标证照内容信息包括:
[0021]若验证到所述原始统一社会信用代码的最后预设位数的字符所组成的修改后的目标统一社会信用代码时,未通过验证,取所述原始统一社会信用代码的最后预设位数的字符作为目标统一社会信用代码,并利用所述目标登记管理机关行政区划码替换所述目标统一社会信用代码中的登记管理机关行政区划码,根据修改后的目标统一社会信用代码在工商数据库中进行精准搜索,获取对应的目标证照内容信息;
[0022]若未搜索到目标证照内容信息,利用模糊搜索引擎按照预设的编辑距离在工商数据库中进行搜索,获取对应的目标证照内容信息。
[0023]进一步地,所述方法还包括:
[0024]分别计算所述证照内容识别信息和所述目标证照内容信息中相对应的各个内容的相似度;
[0025]若相似度大于预设的阈值,选择所述目标证照内容信息中的内容使用,若相似度小于预设的阈值,选择所述证照内容识别信息中的内容使用。
[0026]进一步地,所述分别计算所述证照内容识别信息和所述目标证照内容信息中相对应的各个内容的相似度包括:
[0027]分别计算所述证照内容识别信息和所述目标证照内容信息中相对应的成立日期、
营业期限、注册资本、经营范围、住所、企业名称、企业类型和法定代表人的相似度。
[0028]进一步地,所述分别计算所述证照内容识别信息和所述目标证照内容信息中相对应的成立日期、营业期限、注册资本、经营范围、住所、企业名称、企业类型和法定代表人的相似度包括:
[0029]利用编辑距离算法分别计算所述证照内容识别信息和所述目标证照内容信息中相对应的成立日期、营业期限和注册资本的相似度;
[0030]利用杰卡德距离算法分别计算所述证照内容识别信息和所述目标证照内容信息中相对应的经营范围和住所的相似度;
[0031]将所述证照内容识别信息和所述目标证照内容信息中相对应的企业名称和企业类型中的固定字符剔除后,利用杰卡德距离算法分别计算所述证照内容识别信息和所述目标证照内容信息中相对应的企业名称和企业类型的相似度;
[0032]利用预设的字形相似度算法计算所述证照内容识别信息和所述目标证照内容信息中相对应的法定代表人的相似度。
[0033]进一步地,所述证照内容识别信息和所述目标证照内容信息中相对应的成立日期、营业期本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种证照内容纠错方法,其特征在于,所述方法包括:根据证照内容识别信息中的住所获得对应的目标登记管理机关行政区划码,利用所述目标登记管理机关行政区划码替换证照内容识别信息中的原始统一社会信用代码中的登记管理机关行政区划码,对修改后的原始统一社会信用代码进行验证;若未通过验证,根据所述修改后的原始统一社会信用代码在工商数据库中进行搜索,获取对应的目标证照内容信息,所述目标证照内容信息包括统一社会信用代码、住所、企业名称和企业基本信息;若通过验证,根据所述修改后的原始统一社会信用代码和证照内容识别信息中的企业名称在工商数据库中进行搜索,获取对应的目标证照内容信息。2.如权利要求1所述的证照内容纠错方法,其特征在于,在所述根据证照内容识别信息中的住所获得对应的目标登记管理机关行政区划码之前,所述方法还包括:从所述证照内容识别信息中的所述原始统一社会信用代码的第一位开始顺序选取预设位数的字符作为目标统一社会信用代码进行验证;若未通过验证,从所述原始统一社会信用代码的第二位开始顺序选取预设位数的字符作为目标统一社会信用代码进行验证,若未通过验证,重复执行直至选取到的预设位数的字符通过验证或验证到所述原始统一社会信用代码的最后预设位数的字符。3.如权利要求2所述的证照内容纠错方法,其特征在于,所述根据证照内容识别信息中的住所获得对应的目标登记管理机关行政区划码,利用所述目标登记管理机关行政区划码替换证照内容识别信息中的原始统一社会信用代码中的登记管理机关行政区划码,对修改后的所述原始统一社会信用代码进行验证包括:若验证到所述原始统一社会信用代码的最后预设位数的字符时,未通过验证,则从所述原始统一社会信用代码的第一位开始顺序选取预设位数的字符作为目标统一社会信用代码,根据证照内容识别信息中的住所获得对应的目标登记管理机关行政区划码,利用所述目标登记管理机关行政区划码替换所述目标统一社会信用代码中的登记管理机关行政区划码,同时将所述目标统一社会信用代码的前两位修改为预设值,对修改后的目标统一社会信用代码进行验证;若未通过验证,从所述原始统一社会信用代码的第二位开始顺序选取预设位数的字符作为目标统一社会信用代码,利用所述目标登记管理机关行政区划码替换所述目标统一社会信用代码中的登记管理机关行政区划码,同时将所述目标统一社会信用代码的前两位修改为预设值,对修改后的目标统一社会信用代码进行验证,若未通过验证,重复执行直至修改后的目标统一社会信用代码通过验证或验证到所述原始统一社会信用代码的最后预设位数的字符所组成的修改后的目标统一社会信用代码。4.如权利要求3所述的证照内容纠错方法,其特征在于,所述若未通过验证,根据修改后的所述统一社会信用代码在工商数据库中进行搜索,获取对应的目标证照内容信息包括:若验证到所述原始统一社会信用代码的最后预设位数的字符所组成的修改后的目标统一社会信用代码时,未通过验证,取所述原始统一社会信用代码的最后预设位数的字符作为目标统一社会信用代码,并利用所述目标登记管理机关行政区划码替换所述目标统一社会信用代码中的登记管理机关行政区划...

【专利技术属性】
技术研发人员:李瑜亮
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1