一种确定官方文件的真实性的方法,包括:从官方文件的图像提取官方文件的多个安全特征的图像数据。将经训练的神经网络应用于所述提取的图像数据,以确定官方文件的图像上的每个安全特征的清晰度;及基于多个安全特征的清晰度分类确定官方文件是否真实。训练神经网络包括:训练多标签分类模型以对多个感兴趣区域进行分类。所述多个感兴趣区域空间分布在一个带标签训练用图像上,且每个标签对应于多个感兴趣区域相应的一个感兴趣区域。训练所述神经网络还包括:将空间关注模块应用于所述神经网络的至少一层以学习每个感兴趣区域的位置和至少一个属性,以及基于在多个带标签训练用图像上优化多标签分类模型的损失,来优化所述神经网络的参数。
【技术实现步骤摘要】
用于确定官方文件的真实性的方法和系统
本文一般性地而非唯一地涉及用于确定官方文件(officialdocument)的真实性的方法、系统和设备。
技术介绍
“了解你的客户(KnowYourCustomer,KYC)”是企业在与其客户(customer/client)开展业务之前或期间为了验证其客户的真实性、身份、风险等而进行的尽职调查的一种形式。“电子化了解你的客户(eKYC)”或“数字化KYC”是企业通常通过使用计算机执行的无纸化处理,有时可能由客户启动。在eKYC处理中,典型的步骤包括扫描身份证和检测活脸。在扫描身份证的过程中,通常需要检查身份证的真实性。一种伪造身份证检测方法涉及使用相似度分数来检测安全特征(例如特征点(landmark)或全息图),以验证身份证的真实性。尽管此方法对于某些类型的身份证(例如将安全特征集中在一起的身份证)效果很好,但是已经注意到,其他类型的身份证的设计可能具有在数量、大小、分布方面有很大差异的安全特征。因此,需要提供用于确定官方文件的真实性的替代或改进的方法和设备。
技术实现思路
一个实施例提供了一种确定官方文件的真实性的方法。该方法包括从官方文件的图像提取官方文件的多个安全特征的图像数据;将经训练的神经网络应用于提取的图像数据,以确定官方文件的图像上的每个安全特征的清晰度;以及基于多个安全特征的清晰度分类确定官方文件是否真实。训练神经网络包括:训练多标签分类模型以对多个感兴趣区域进行分类,其中,所述多个感兴趣区域空间分布在带标签训练用图像上,并且每个标签对应于多个感兴趣区域中相应的一个感兴趣区域;将空间关注模块应用于神经网络的至少一层,以学习每个感兴趣区域的位置和至少一个属性;基于在多个带标签训练用图像上优化多标签分类模型的损失,来优化神经网络的参数。另一实施例提供了一种用于确定官方文件的真实性的系统。该系统包括处理器和耦接到处理器且其上存储有指令的计算机可读存储器,所述指令可由处理器执行以从官方文件的图像提取官方文件的多个安全特征的图像数据。将经训练的神经网络应用于提取的图像数据,以确定官方文件的图像上的每个安全特征的清晰度;以及基于多个安全特征的清晰度分类确定官方文件是否真实。经训练的神经网络:包括多标签分类模型,被训练以对多个感兴趣区域进行分类,其中,所述多个感兴趣区域空间分布在带标签训练用图像上,并且每个标签对应于多个感兴趣区域中相应的一个感兴趣区域;空间关注模块,应用于神经网络的至少一层,以学习每个感兴趣区域的位置和至少一个属性;以及神经网络参数,基于在多个带标签训练用图像上优化多标签分类模型的损失而被优化。另一实施例提供了一种包括输入设备和处理设备的装置。输入设备可以接收官方文件的图像。处理设备可以从官方文件的图像提取官方文件的多个安全特征的图像数据,并将提取的图像数据馈送到经训练的神经网络,以:确定图像上的每个安全特征的清晰度;以及基于多个安全特征的清晰度分类确定官方文件的真实性。经训练的神经网络包括:多标签分类模型,被训练以对多个感兴趣区域进行分类,其中,所述多个感兴趣区域空间分布在带标签训练用图像上,并且每个标签对应于多个感兴趣区域中相应的一个感兴趣区域;空间关注模块,应用于神经网络的至少一层,以学习每个感兴趣区域的位置和至少一个属性;以及神经网络参数,基于在多个带标签训练用图像上优化多标签分类模型的损失而被优化。附图说明根据以下书面描述,仅以举例的方式并结合附图,将使本领域普通技术人员更好地理解实施例,并使实施例变得更清楚。图1示出了说明根据实施例的确定官方文件的真实性的方法的流程图。图2示出了说明图1的方法的详细示例性实施方式的流程图。图3示出了适于实现图1的方法的设备的示意图。图4示出了说明适于实现图1的方法的计算机系统的示意图。技术人员将理解,图中的元件被简单和清楚地示出,并且不一定按比例描绘。例如,相对于其他元件,可能夸大了图示、框图或流程图中的一些元件的尺寸,以帮助提高对本文实施例的理解。具体实施方式本文提供了基于官方文件的图像来确定诸如身份证之类的官方文件是否真实的方法、系统和设备。简而言之,通过机器学习,开发了一种基于关注的多标签分类模型,该模型在训练过程中更加注意具有安全特征的图像上的感兴趣区域(ROI),然后将其部署用于确定官方文件的真实性。将空间关注模块应用于神经网络的至少一层,以学习每个感兴趣区域的位置和至少一个属性。本方法中的基于关注的方法可以忽略其他不相关信息对图像的影响,从而提高准确度。例如,本方法已经在新的身份证设计上得到验证,并在非常具有挑战性的数据集上达到了95%的准确度。换句话说,该方法不仅可以区分真实和伪造的官方文件,而且可以适应官方文件的不同设计或设计迭代。将仅以举例的方式参照附图描述了实施例。附图中相同的附图标记和字符表示相同的元件或等同物。以下描述的某些部分是根据对计算机存储器内数据的操作的算法以及功能或符号表示来显式或隐式呈现的。这些算法描述以及功能或符号表示是数据处理领域技术人员用来最有效地向本领域其他技术人员传达其工作实质的手段。这里,算法通常被认为是导致所需结果的一系列自洽的步骤。这些步骤是需要对诸如能够存储、传输、组合、比较和以其他方式操纵的电信号、磁信号或光信号之类的物理量进行物理操纵的步骤。除非另有特别说明,并且从下文中可以明显看出,否则将理解,在整个本文中,利用诸如“计算”、“确定”、“训练”、“应用”、“提取”、“生成”、“优化”、“输出”等的术语,指的是计算机系统或类似电子设备的动作和处理,所述计算机系统或类似电子设备将计算机系统内的以物理量表示的数据操纵和转换为计算机系统或其他信息存储、传输或显示设备内的类似以物理量表示的其他数据。本文还公开了用于执行所述方法的操作的装置。这样的装置可以被专门地构造用于所需的目的,或者可以包括计算机或由存储在计算机中的计算机程序选择性地激活或重新配置的其他设备。本文提出的算法和显示与任何特定计算机或其他装置没有固有的关联。根据本文的教导,各种机器可以与程序一起使用。可选地,用于执行所需方法步骤的更专用的装置的构造可能是合适的。常规计算机的结构将从下面的描述中显现。另外,本文还隐含地公开了一种计算机程序,因为对于本领域技术人员而言清楚的是,本文所述方法的各个步骤可以通过计算机代码来实现。计算机程序不旨在限于任何特定的编程语言及其实现。应当理解,各种编程语言及其代码可以用于实现本文所包含的公开内容的教导。而且,计算机程序不旨在限于任何特定的控制流。在不脱离本文的范围的情况下,计算机程序还有许多其他变体,其可以使用不同的控制流。此外,计算机程序的一个或多个步骤可以并行而不是顺序地执行。这样的计算机程序可以存储在任何计算机可读介质上。计算机可读介质可以包括诸如磁盘或光盘的存储设备、存储芯片、或适合于与计算机接口的其他存储设备。计算机可读介质还可以包括诸如在互联网系统中例示的硬连线介质,或者诸如在GSM、GPRS、3本文档来自技高网...
【技术保护点】
1.一种确定官方文件的真实性的方法,所述方法包括:/n从所述官方文件的图像提取所述官方文件的多个安全特征的图像数据;/n将经训练的神经网络应用于所述提取的图像数据,以确定所述官方文件的图像上的每个所述安全特征的清晰度;以及/n基于所述多个安全特征的清晰度分类确定所述官方文件是否真实,/n其中,训练所述神经网络,包括:/n训练多标签分类模型以对多个感兴趣区域进行分类,其中,所述多个感兴趣区域空间分布在带标签训练用图像上,并且每个标签对应于所述多个感兴趣区域中相应的一个感兴趣区域;/n将空间关注模块应用于所述神经网络的至少一层,以学习每个所述感兴趣区域的位置和至少一个属性;以及/n基于在多个带标签训练用图像上优化所述多标签分类模型的损失,来优化所述神经网络的参数。/n
【技术特征摘要】
20200221 SG 10202001559W1.一种确定官方文件的真实性的方法,所述方法包括:
从所述官方文件的图像提取所述官方文件的多个安全特征的图像数据;
将经训练的神经网络应用于所述提取的图像数据,以确定所述官方文件的图像上的每个所述安全特征的清晰度;以及
基于所述多个安全特征的清晰度分类确定所述官方文件是否真实,
其中,训练所述神经网络,包括:
训练多标签分类模型以对多个感兴趣区域进行分类,其中,所述多个感兴趣区域空间分布在带标签训练用图像上,并且每个标签对应于所述多个感兴趣区域中相应的一个感兴趣区域;
将空间关注模块应用于所述神经网络的至少一层,以学习每个所述感兴趣区域的位置和至少一个属性;以及
基于在多个带标签训练用图像上优化所述多标签分类模型的损失,来优化所述神经网络的参数。
2.根据权利要求1所述的方法,其中,
所述带标签训练用图像包括官方文件的带标签图像,并且
所述多个感兴趣区域包括包含所述官方文件上的所述安全特征的区域。
3.根据权利要求2所述的方法,其中,所述至少一个属性包括所述官方文件的带标签图像上的所述安全特征的清晰度。
4.根据权利要求1所述的方法,其中,所述神经网络的至少一层包括最后的全连接层。
5.根据权利要求1所述的方法,其中,
所述官方文件包括身份证,并且
如果所述官方文件的图像上的每个所述安全特征被分类为清晰的,则所述身份证被确定为真实的。
6.根据权利要求1所述的方法,其中,提取所述官方文件的多个安全特征的图像数据,包括:
从所述官方文件的单个图像提取与所述官方文件相对应的图像区域;以及
裁剪所述提取的图像区域以保留包含所述多个安全特征的多个区域。
7.一种用于确定官方文件的真实性的系统,包括:
处理器;以及
与所述处理器耦接且其上存储有指令的计算机可读存储器,所述指令能由所述处理器执行以:
从所述官方文件的图像提取所述官方文件的多个安全特征的图像数据;
将经训练的神经网络应用于所述提取的图像数据,以确定所述官方文件的图像上的每个所述安全特征的清晰度;以及
基于所述多个安全特征的清晰度分类确定所述官方文件是否真实,
其中...
【专利技术属性】
技术研发人员:徐炎,
申请(专利权)人:支付宝实验室新加坡有限公司,
类型:发明
国别省市:新加坡;SG
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。