一种证件号处理和检索的方法技术

技术编号:33531086 阅读:16 留言:0更新日期:2022-05-19 02:02
本申请提供了一种证件号处理和检索方法,根据原始证件号进行标准化处理和变体化处理,分别获得标准证件号和变体证件号,再对所述原始证件号、标准证件号和变体证件号中的至少一个证件号进行模糊化,通过对证件号中的至少一个字符使用模糊符号进行替换、删除以及在证件号中插入模糊符号获取编辑距离小于等于第一阈值的模糊证件号,再将处理后的查询证件号与匹配信息库中处理后的名单证件号进行匹配,将匹配命中的名单证件号所对应的证件信息,作为证件信息检索的检索结果。其方案解决了在现有技术中无法避免在查询证件号信息输入不准确的情况下,检索证件号导致的漏报率较高的问题。题。题。

【技术实现步骤摘要】
一种证件号处理和检索的方法


[0001]本申请涉及信息检索
,尤其涉及一种证件号处理和检索的方法。

技术介绍

[0002]在金融行业中,各金融机构需要维持高度的合规来满足监管的需求,在风控和评级中常常能见到某些金融机构对其他主体进行制裁的情况,其中需要列明制裁名单,在制裁名单中,常常通过证件号来查询主体,比如,身份证,统一社会信用代码等,因此经常被用于制裁名单的筛查中。
[0003]但是,证件号的录入有可能存在错误,这会导致查询人员输入正确的证件号也无法查询到。错误回发生在人工收集、录入、存储、转换等各个环节。比如,美国的海外资产控制办公室OFAC发布的名单里包含多个国家的证件信息,其信息类型多而且格式不一致,如果在录入的过程中出现错误,即使输入查询的证件号正确,也无法查询到结果。另一方面,查询时手工输入的证件号也可能有误,导致即使名单里的证件号正确也无法查询到结果。证件号一般很长而且以数字为主,在查询时很容易漏掉、写错或者多写字符。
[0004]现行对证件号的处理通常是把库中的名单证件号或输入查询证件号共同转换成新的证件号。这个新的证件号在格式上更加标准,能提高双方匹配的命中率。即对于名单里的原始证件号和用户输入的查询证件号使用同样的方法处理后再将两者进行匹配,获得匹配结果。在现行的证件号匹配技术中主要是通过精确匹配,如果处理后的查询证件号出现在处理后的名单证件号库里就算命中。
[0005]但是,现行的证件号处理方法难以处理证件号信息不准确的情况。证件号信息不准确的具体表现是查询人员或者录入人员输入时出错较多,将原始证件号与查询证件号各自只生成一个新的证件号进行比对匹配处理方法难以兼容不同的出错情况。当证件号信息不准确时,如果处理时丢掉的信息太少,比如,把字母变成大写并保留数字,则会导致漏报率增加,如果处理时丢掉的信息太多,比如,只保留数字,又会导致误报率增加。
[0006]现行的模糊匹配方法用于匹配证件号在理论上可行,但是实际中很少使用。主要原因在于证件号是按照一定规律自动生成,相邻证件号之间的相似度比较高,一个证件号里出现少量错误就很容易变成另一个证件号。这使得模糊匹配的误报率显著增加,从而失去了证件号检索的意义。
[0007]所以,在现有技术中无法避免在证件号信息不准确的情况下,检索证件号导致的漏报率较高的问题。

技术实现思路

[0008]本申请的一个目的是提供一种,用以解决现有技术中无法避免在查询证件号信息不准确的情况下,检索证件号导致的漏报率较高的问题。
[0009]为实现上述目的,本申请提供了一种证件号处理方法,用于对证件信息检索时输入的查询证件号和/或匹配信息库中的名单证件号进行处理,包括:
[0010]对所述原始证件号进行标准化处理和变体化处理,分别获得标准化处理的标准证件号和变体化处理的变体证件号,其中,所述原始证件号为证件信息检索时输入的查询证件号和/或匹配信息库中的名单证件号,所述标准化包括删除原始证件号中的无关字符、统一字符格式和删除起始位置处的预设数字,所述变体化处理包括在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除至少一个字符;
[0011]对所述原始证件号、标准证件号和变体证件号中的至少一个证件号进行模糊化处理,获取编辑距离小于等于第一阈值的模糊证件号,所述模糊化处理包括对证件号中的至少一个字符使用模糊符号进行替换、删除以及在证件号中插入模糊符号;
[0012]使用所述原始证件号、标准证件号、变体证件号和模糊证件号更新证件信息检索时输入的查询证件号和/或匹配信息库中的名单证件号。
[0013]进一步地,删除原始证件号中的无关字符,包括:
[0014]删除原始证件号中除数字与英文字符之外的其它字符;
[0015]统一字符格式,包括:
[0016]将英文字符转换为大写格式;
[0017]删除起始位置处的预设数字,包括:
[0018]删除起始位置处的数字0。
[0019]进一步地,在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除至少一个字符,包括:
[0020]在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除长度超过阈值的英文字符串或删除所有英文字符。
[0021]进一步地,在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除至少一个字符,包括:
[0022]在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除至少一个非数字字符。
[0023]进一步地,所述第一阈值为1;所述模糊化处理包括:
[0024]对证件号中的任意一个字符使用模糊符号进行替换,获取N个模糊证件号,其中,N为所述证件号的长度;
[0025]删除证件号中的任意一个字符,并对删除后的结果进行去重,获取至多N个模糊证件号;
[0026]在证件号的任意两个字符之间、起始位置或末尾位置插入模糊符号,获取N+1个模糊证件号。
[0027]本申请还提供一种证件信息检索方法,其特征在于,证件信息检索时输入的查询证件号和/或匹配信息库中的名单证件号采用上述任一项所述的方法进行处理,所述方法包括:
[0028]将查询证件号与匹配信息库中的名单证件号进行匹配;
[0029]若命中至少一个名单证件号,获取命中的名单证件号所对应的证件信息,作为证件信息检索的检索结果。
[0030]进一步地,所述方法还包括:
[0031]获取命中的名单证件号所对应的证件信息的评分,所述评分与查询证件号命中名
单证件号时所基于证件号类型相关,若基于原始证件号,所述评分为第一评分,若基于标准证件号,所述评分为第二评分,若基于变体证件号,所述评分为第三评分,若基于模糊证件号,所述评分为第四评分,且所述第一评分、第二评分、第三评分、第四评分依次递减。
[0032]进一步地,若存在多种不同的变体证件号,根据所述变体证件号对应的变体化处理的方式,确定对应数量的多个第三评分。
[0033]进一步地,若命中至少一个名单证件号,获取命中的名单证件号所对应的证件信息,作为证件信息检索的检索结果,包括:
[0034]若命中至少一个名单证件号,获取命中的名单证件号所对应的证件信息;
[0035]获取评分大于等于第三阈值的证件信息,作为证件信息检索的检索结果,所述第三阈值为预设值或由用户在进行证件信息检索时输入。
[0036]进一步地,所述方法还包括:
[0037]基于评分对证件信息进行排序。
[0038]进一步地,若命中至少一个名单证件号,获取命中的名单证件号所对应的证件信息,作为证件信息检索的检索结果,包括:
[0039]若命中至少一个名单证件号,获取命中的名单证件号所对应的证件信息;
[0040]对所述证件信息进行去重,将去重后的结果作为证件信息检索的检索结果。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种证件号处理方法,用于对证件信息检索时输入的查询证件号和/或匹配信息库中的名单证件号进行处理,其特征在于,包括:对所述原始证件号进行标准化处理和变体化处理,分别获得标准化处理的标准证件号和变体化处理的变体证件号,其中,所述原始证件号为证件信息检索时输入的查询证件号和/或匹配信息库中的名单证件号,所述标准化包括删除原始证件号中的无关字符、统一字符格式和删除起始位置处的预设数字,所述变体化处理包括在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除至少一个字符;对所述原始证件号、标准证件号和变体证件号中的至少一个证件号进行模糊化处理,获取编辑距离小于等于第一阈值的模糊证件号,所述模糊化处理包括对证件号中的至少一个字符使用模糊符号进行替换、删除以及在证件号中插入模糊符号;使用所述原始证件号、标准证件号、变体证件号和模糊证件号更新证件信息检索时输入的查询证件号和/或匹配信息库中的名单证件号。2.根据权利要求1所述方法,其特征在于,删除原始证件号中的无关字符,包括:删除原始证件号中除数字与英文字符之外的其它字符;统一字符格式,包括:将英文字符转换为大写格式;删除起始位置处的预设数字,包括:删除起始位置处的数字0。3.根据权利要求2所述方法,其特征在于,在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除至少一个字符,包括:在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除长度超过阈值的英文字符串或删除所有英文字符。4.根据权利要求1所述方法,其特征在于,在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除至少一个字符,包括:在删除原始证件号中的无关字符、删除起始位置处的预设数字的基础上,进一步删除至少一个非数字字符。5.根据权利要求1所述方法,其特征在于,所述第一阈值为1;所述模糊化处理包括:对证件号中的任意一个字符使用模糊符号进行替换,获取N个模糊证件号,其中,N为所述证件号的长度;删除证件号中的任意一个字符,并对删除后的结果进行去重,获取至多N个模糊证件号;在证件号的任意两个字符之间、起始位置或末尾位置插入模糊符号,获取N+1个模糊证件号。6.一种证件信息检索方法,其特征在于,证件信息检索时输入的查询证件号和/或匹配信息库中的名单证件号采用上述权利要求1至5中任一项所述的方法进行处理,所述方法包括:将查询证件号与匹配信息库中的名单证件号进行匹配;若命中至少一个...

【专利技术属性】
技术研发人员:向桥梁
申请(专利权)人:连通杭州技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1