对混合证明材料相似比对的方法、系统、电子设备和介质技术方案

技术编号:35738418 阅读:27 留言:0更新日期:2022-11-26 18:41
本发明专利技术涉及机器学习技术领域,公开了一种对混合证明材料相似比对的方法、系统、电子设备和介质,包括:S1、收集若干客户的客户数据以形成客户名单并存储在初始数据库中;S2、将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词,并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量;S3、使用每一个所述证明文件的均值单位词向量以及对应的证明文件类型进行训练,从而构建证明材料类型分类器;S4、将需检测的各类待检测证明材料进行文字文本数据的识别,查找出与各所述待检测证明材料相似的相似文档,判别所述相似文档中是否有虚假资料。本发明专利技术加快处理人工难以归类分析的材料。本发明专利技术加快处理人工难以归类分析的材料。本发明专利技术加快处理人工难以归类分析的材料。

【技术实现步骤摘要】
对混合证明材料相似比对的方法、系统、电子设备和介质


[0001]本专利技术涉及机器学习
,具体涉及一种对混合证明材料相似比对的方法、系统、电子设备和介质。

技术介绍

[0002]现有技术的对混合证明材料进行真实性验证检测方法可以划分为三类:(1)数据比对校验,分别从提供的各类证明材料中提取比对要素,如,身份证明材料中,从图像中识别出姓名、身份证号码、头像,与相关部门提供的校验渠道进行身份校验;又如,发票证明材料查验时,提取发票号码、开票日期、开具金额(不含税)三个要素在国家税务总局全国增值税发票查验平台进行核验(2)文档真伪识别,分别对提供的某类证明材料文档本身进行真伪判别:如身份证明材料中,对身份证图片的字体、文字位置关系等,作为真伪判别的依据;又如通过图像识别算法对加盖的公章是否经过Photoshop等图像处理软件编辑过推断文件是否造假;(3)人工调查,通过人工渠道,使用灵活的人工调查手段,通过诸如网络查询、电话访问、逻辑推断校验等,针对不同材料进行综合判别。
[0003]前述三种方法的原理需要如下条件:(1)基于庞大而可信的信息库或信息平台,(2)基于特定的专家领域知识来对某方面单一的要素进行判别,(3)发挥人工灵活性,实施全面的审查。
[0004]但是上述三种方法也具有对应的如下缺陷:(1)维护一个庞大可信的信息平台,需要长久的积累和统一的规范,常见于涉及人群范围较大的公共事务;(2)特定的专家领域知识,仅对特定的场景有效,如果该场景包含的混合多类的证明材料时,可能需要针对性地挖掘多个真伪判别方法,这往往需要投入更多的资源来实现;(3)人工调查的效率、时间成本、经济成本往往高于机器成本,如果规模较大,往往需要投入更多的人员和管理成本。
[0005]在银行信贷领域涉及的证明材料包括但不限于:身份说明、银行流水证明、工作证明、收入证明、居住证明、住院证明、病历等,信贷业务过程中,客户根据实际情况提供一类或多类的相关证明材料办理业务,银行方根据客户提供的证明材料,进行核验,其中包括材料真实性核验。若单纯的单独采用上述三种方法,可能需要针对性地挖掘多个真伪判别方法,或者如果证明材料较多,往往需要投入更多的人员和管理成本。

技术实现思路

[0006]本专利技术提供一种对混合证明材料相似比对的方法、系统、电子设备和介质,结合了前两个方法各自的优点,通过提供可信平台数据核验渠道,降低对各类证明材料单独研发针对性的真伪识别方案的成本,综合实现效能优化,快速响应业务发展。
[0007]本专利技术通过下述技术方案实现:
[0008]一种对混合证明材料相似比对的方法,包括:
[0009]S1、收集若干客户的客户数据以形成客户名单并存储在初始数据库中,所述客户数据包括客户ID及其对应的证明材料类型、对应的证明材料的文字文本数据以及证明材料
的真伪标识;
[0010]S2、将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词,并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量,且将每组均值单位词向量与对应的客户ID绑定;
[0011]S3、使用每一个所述证明文件的均值单位词向量以及对应的证明文件类型进行训练,从而构建证明材料类型分类器;
[0012]S4、将需检测的各类待检测证明材料进行文字文本数据的识别,并获取识别的各文字文本数据对应的均值单位词向量,将得到的各均值单位词向量输入至证明材料类型分类器中,判断各所述待检测证明材料的类型,然后将各所述待检测证明材料与其同类型的已收集的客户数据进行向量余弦相似度对比,查找出与各所述待检测证明材料相似的相似文档,判别所述相似文档中是否有虚假资料。
[0013]作为优化,所述证明材料类型包括工作证明类、交易明细类、收入证明类、病情描述类、健康检查类、案情通告类、身份说明类、居住证明类。
[0014]作为优化,所述证明材料的文字文本数据可以通过人工或机器OCR识别的方式对原证明材料进行提取。
[0015]作为优化,所述证明材料的真伪标识可通过调查判定该证明材料的真实性,若调查发现某一类证明材料为虚假,则在该证明材料的对应位置标记虚假标识,否则标记真实标识。
[0016]作为优化,S2的具体步骤为:
[0017]S2.1、采用分词工具将每个客户的每一类证明材料的文字文本数据进行分词处理得到若干组与每一类证明材料对应的第一数据组;
[0018]S2.2、按照预设规则对分词处理后得到的若干所述第一数据组进行数据清洗以得到若干组由关键词或关键字组成的第二数据组;
[0019]S2.3、通过查询已有的word2vec向量字典,将若干组所述第二数据组中的关键词或关键字分别表示成单个的300维度的第一词向量,并将属于同一组第二数据组中的若干第一词向量进行加权平均、单位向量化,从而得到均值单位词向量;
[0020]S2.4、将每一类证明材料对应的所述均值单位词向量与对应的客户ID进行映射绑定。
[0021]作为优化,S4的具体步骤为:
[0022]S4.1通过人工或机器OCR识别的方式对各待检测证明材料的文字文本数据进行提取;
[0023]S4.2、对各所述待检测证明材料的文字文本数据进行清洗,并获取清洗后的各所述待检测证明材料的文字文本数据对应的均值单位词向量;
[0024]S4.3、将各所述待检测证明材料的均值单位词向量输入至证明材料类型分类器中,判别出各所述待检测证明材料的类型;
[0025]S4.4、将各所述待检测证明材料与其同类型的已收集的客户数据进行向量余弦相似度对比,检索出余弦相似度>0.95和/或相似度最高的10个证明材料作为所述待检测证明材料对应的相似文件;
[0026]S4.5、判断查找出来的相似文件中是否标记有虚假标识,若是,则判定该待检测证
明材料为疑似虚假材料,否则,判定该待检测证明材料为真实材料。
[0027]作为优化,还包括S5,对判定结果进行提示,具体为:
[0028]S5.1、若判定所述待检测证明材料为疑似虚假材料,则提示发现疑似虚假材料的字样,同时提示有几个虚假材料与所述待检测证明材料相似;
[0029]S5.2、若判断所述待检测证明材料为真实材料,则提示未发现虚假材料的字样。
[0030]本专利技术还公开了一种对混合证明材料相似比对的系统,包括:
[0031]后端模块,包括收集模块、文档向量表示模块以及分类器构建模块,其中,
[0032]收集模块,用于收集若干客户的客户数据以形成客户名单并存储在初始数据库中,所述客户数据包括客户ID及其对应的证明材料类型、对应的证明材料的文字文本数据以及证明材料的真伪标识;
[0033]文档向量表示模块,用于将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词,并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量,且将每组均值单位词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对混合证明材料相似比对的方法,其特征在于,包括:S1、收集若干客户的客户数据以形成客户名单并存储在初始数据库中,所述客户数据包括客户ID及其对应的证明材料类型、对应的证明材料的文字文本数据以及证明材料的真伪标识;S2、将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词,并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量,且将每组均值单位词向量与对应的客户ID绑定;S3、使用每一个所述证明文件的均值单位词向量以及对应的证明文件类型进行训练,从而构建证明材料类型分类器;S4、将需检测的各类待检测证明材料进行文字文本数据的识别,并获取识别的各文字文本数据对应的均值单位词向量,将得到的各均值单位词向量输入至证明材料类型分类器中,判断各所述待检测证明材料的类型,然后将各所述待检测证明材料与其同类型的已收集的客户数据进行向量余弦相似度对比,查找出与各所述待检测证明材料相似的相似文档,判别所述相似文档中是否有虚假资料。2.根据权利要求1所述的一种对混合证明材料相似比对的方法,其特征在于,所述证明材料类型包括工作证明类、交易明细类、收入证明类、病情描述类、健康检查类、案情通告类、身份说明类、居住证明类。3.根据权利要求1所述的一种对混合证明材料相似比对的方法,其特征在于,所述证明材料的文字文本数据可以通过人工或机器OCR识别的方式对原证明材料进行提取。4.根据权利要求1所述的一种对混合证明材料相似比对的方法,其特征在于,所述证明材料的真伪标识可通过调查判定该证明材料的真实性,若调查发现某一类证明材料为虚假,则在该证明材料的对应位置标记虚假标识,否则标记真实标识。5.根据权利要求1所述的一种对混合证明材料相似比对的方法,其特征在于,S2的具体步骤为:S2.1、采用分词工具将每个客户的每一类证明材料的文字文本数据进行分词处理得到若干组与每一类证明材料对应的第一数据组;S2.2、按照预设规则对分词处理后得到的若干所述第一数据组进行数据清洗以得到若干组由关键词或关键字组成的第二数据组;S2.3、通过查询已有的word2vec向量字典,将若干组所述第二数据组中的关键词或关键字分别表示成单个的300维度的第一词向量,并将属于同一组第二数据组中的若干第一词向量进行加权平均、单位向量化,从而得到均值单位词向量;S2.4、将每一类证明材料对应的所述均值单位词向量与对应的客户ID进行映射绑定。6.根据权利要求1所述的一种对混合证明材料相似比对的方法,其特征在于,S4的具体步骤为:S4.1通过人工或机器OCR识别的方式对各待检测证明材料的文字文本数据进行提取;S4.2、对各所述待检测证明材料的文字文本数据进行清洗,并获取清洗后的各所述待检...

【专利技术属性】
技术研发人员:周成卫浩王萍李思琪
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1