对混合证明材料相似比对的方法、系统、电子设备和介质技术方案

技术编号：35738418 阅读：27 留言：0更新日期：2022-11-26 18:41

本发明专利技术涉及机器学习技术领域，公开了一种对混合证明材料相似比对的方法、系统、电子设备和介质，包括：S1、收集若干客户的客户数据以形成客户名单并存储在初始数据库中；S2、将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词，并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量；S3、使用每一个所述证明文件的均值单位词向量以及对应的证明文件类型进行训练，从而构建证明材料类型分类器；S4、将需检测的各类待检测证明材料进行文字文本数据的识别，查找出与各所述待检测证明材料相似的相似文档，判别所述相似文档中是否有虚假资料。本发明专利技术加快处理人工难以归类分析的材料。本发明专利技术加快处理人工难以归类分析的材料。本发明专利技术加快处理人工难以归类分析的材料。

全部详细技术资料下载

【技术实现步骤摘要】
对混合证明材料相似比对的方法、系统、电子设备和介质

[0001]本专利技术涉及机器学习
，具体涉及一种对混合证明材料相似比对的方法、系统、电子设备和介质。

技术介绍

[0002]现有技术的对混合证明材料进行真实性验证检测方法可以划分为三类：(1)数据比对校验，分别从提供的各类证明材料中提取比对要素，如，身份证明材料中，从图像中识别出姓名、身份证号码、头像，与相关部门提供的校验渠道进行身份校验；又如，发票证明材料查验时，提取发票号码、开票日期、开具金额(不含税)三个要素在国家税务总局全国增值税发票查验平台进行核验(2)文档真伪识别，分别对提供的某类证明材料文档本身进行真伪判别：如身份证明材料中，对身份证图片的字体、文字位置关系等，作为真伪判别的依据；又如通过图像识别算法对加盖的公章是否经过Photoshop等图像处理软件编辑过推断文件是否造假；(3)人工调查，通过人工渠道，使用灵活的人工调查手段，通过诸如网络查询、电话访问、逻辑推断校验等，针对不同材料进行综合判别。
[0003]前述三种方法的原理需要如下条件:(1)基于庞大而可信的信息库或信息平台，(2)基于特定的专家领域知识来对某方面单一的要素进行判别，(3)发挥人工灵活性，实施全面的审查。
[0004]但是上述三种方法也具有对应的如下缺陷:(1)维护一个庞大可信的信息平台，需要长久的积累和统一的规范，常见于涉及人群范围较大的公共事务；(2)特定的专家领域知识，仅对特定的场景有效，如果该场景包含的混合多类的证明材料时，可能需要针对性地挖掘多个真...

【技术保护点】

【技术特征摘要】
1.一种对混合证明材料相似比对的方法，其特征在于，包括：S1、收集若干客户的客户数据以形成客户名单并存储在初始数据库中，所述客户数据包括客户ID及其对应的证明材料类型、对应的证明材料的文字文本数据以及证明材料的真伪标识；S2、将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词，并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量，且将每组均值单位词向量与对应的客户ID绑定；S3、使用每一个所述证明文件的均值单位词向量以及对应的证明文件类型进行训练，从而构建证明材料类型分类器；S4、将需检测的各类待检测证明材料进行文字文本数据的识别，并获取识别的各文字文本数据对应的均值单位词向量，将得到的各均值单位词向量输入至证明材料类型分类器中，判断各所述待检测证明材料的类型，然后将各所述待检测证明材料与其同类型的已收集的客户数据进行向量余弦相似度对比，查找出与各所述待检测证明材料相似的相似文档，判别所述相似文档中是否有虚假资料。2.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，所述证明材料类型包括工作证明类、交易明细类、收入证明类、病情描述类、健康检查类、案情通告类、身份说明类、居住证明类。3.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，所述证明材料的文字文本数据可以通过人工或机器OCR识别的方式对原证明材料进行提取。4.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，所述证明材料的真伪标识可通过调查判定该证明材料的真实性，若调查发现某一类证明材料为虚假，则在该证明材料的对应位置标记虚假标识，否则标记真实标识。5.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，S2的具体步骤为：S2.1、采用分词工具将每个客户的每一类证明材料的文字文本数据进行分词处理得到若干组与每一类证明材料对应的第一数据组；S2.2、按照预设规则对分词处理后得到的若干所述第一数据组进行数据清洗以得到若干组由关键词或关键字组成的第二数据组；S2.3、通过查询已有的word2vec向量字典，将若干组所述第二数据组中的关键词或关键字分别表示成单个的300维度的第一词向量，并将属于同一组第二数据组中的若干第一词向量进行加权平均、单位向量化，从而得到均值单位词向量；S2.4、将每一类证明材料对应的所述均值单位词向量与对应的客户ID进行映射绑定。6.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，S4的具体步骤为：S4.1通过人工或机器OCR识别的方式对各待检测证明材料的文字文本数据进行提取；S4.2、对各所述待检测证明材料的文字文本数据进行清洗，并获取清洗后的各所述待检...

【专利技术属性】
技术研发人员：周成，卫浩，王萍，李思琪，
申请(专利权)人：四川新网银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人