具有可靠泛化性的图像相似度匹配方法和装置制造方法及图纸

技术编号:33433903 阅读:10 留言:0更新日期:2022-05-19 00:23
本公开的一方面涉及一种图像相似度匹配的方法,包括获取页面的截图,所述页面上包括对象序列和图片,所述对象序列包括多个对象,并且所述图片中至少包括与所述对象序列中的每个对象相对应的多个图标;在所述页面的截图上进行目标检测,以获得所述多个对象和所述多个图标;基于特征提取来确定所述多个对象和所述多个图标的特征向量;以及基于对所述特征向量之间的距离度量的比较,确定每个对象与图标的配对关系。本公开还涉及其他相关方面。本公开还涉及其他相关方面。本公开还涉及其他相关方面。

【技术实现步骤摘要】
具有可靠泛化性的图像相似度匹配方法和装置


[0001]本申请一般涉及图像匹配,尤其涉及具有可靠泛化性的图像相似度匹配方案。

技术介绍

[0002]在如今复杂的网络环境下,大量非法活动网站出现在大众视野。部分群众自制力较弱,容易踏入网络非法活动的陷阱之中,造成了大量的资金流失,对社会风气也产生不良影响。
[0003]该类风险有两个特点:一、涉及资金大,大量的资金在短时间内投入网络非法活动,一旦防控不好,可能就难以追回,非法活动网站直接或间接将网络支付平台作为交易的方式,也给网络支付平台带来了巨大的麻烦。二、非法活动网站及资金流动方式的不断变化,给巡检带来了一定难度,需要不断收集最新的非法活动网站信息,才能有效对其进行打击、监督和控制,非法活动产业也在不断提高警惕并用新技术手段反巡检,从而对巡检算法技术的要求越来越高。
[0004]由例如网络支付平台或第三方进行网络安全巡检可包括通过自动或半自动方式对使用了该网络支付平台作为交易手段的网站进行巡检以发现是否存在涉及非法活动。然而,非法活动网站通常会在注册和登录时设置验证码环节。近年来常用的验证码包括例如字符和图形验证码图像匹配环节,该环节要求用户按次序手动点击图中与字符一一对应的图形验证码图像(亦称为点字点物验证码)并依次判断用户是否是真人以及是否可允许该用户进一步访问该网站其他内容。这给巡检带来了难度并且使得巡检效率降低。
[0005]为此,本领域需要能够破解非法活动网站的验证码环节,以辅助巡检,并显著提升风险监测能力的技术。
专利技术内
[0006]本公开的一方面涉及一种图像相似度匹配的方法,包括获取页面的截图,所述页面上包括对象序列和图片,所述对象序列包括多个对象,并且所述图片中至少包括与所述对象序列中的每个对象相对应的多个图标;在所述页面的截图上进行目标检测,以获得所述多个对象和所述多个图标;基于特征提取来确定所述多个对象和所述多个图标的特征向量;以及基于对所述特征向量之间的距离度量的比较,确定每个对象与图标的配对关系。
[0007]根据一些示例性实施例,所述图片还包括以下一者或多者或任何组合:不与所述对象序列中的任何对象相对应的图标;图标的颜色、变色、旋转、翻转、和/或变形;以及所述图片的背景。
[0008]根据一些示例性实施例,基于特征提取来确定特征向量包括由基于神经网络的模型以对象或图标的图像为输入进行嵌入得到特征向量。
[0009]根据一些示例性实施例,对所述特征向量之间的距离度量的比较包括以下至少一者:将所述距离度量与阈值进行比较;或者确定与所述多个对象中的每一个对象具有最小距离度量的图形。
[0010]根据一些示例性实施例,所述基于神经网络的模型至少包括特征提取网络。
[0011]根据一些示例性实施例,所述特征提取网络包括第一特征提取网络和第二特征提取网络,并且所述基于神经网络的模型进一步包括与所述第一特征提取网络关联的第一分类模块、以及与所述第二特征提取网络关联的第二分类模块,并且所述方法进一步包括使用训练数据集作为输入以确定以下损失中的一者或多者:样本失衡损失、第一特征提取网络与第二特征提取网络之间的回归损失、以及所述第一分类模块和所述第二分类模块之间的分类损失;以及基于所确定的损失之和来优化所述特征提取网络。
[0012]根据一些示例性实施例,所述样本失衡损失包括以下一者或多者或其组合:由所述第一特征提取网络和所述第二特征提取网络分别对所述输入进行嵌入得到的特征向量的Circle loss之和;以及由所述第一分类模块和所述第二分类模块分别对所述第一特征提取网络和所述第二特征提取网络得到的特征向量进行分类得到的类别向量的Focal loss之和。
[0013]根据一些示例性实施例,所述回归损失包括MSE损失,并且所述分类损失包括KL损失。
[0014]根据一些示例性实施例,所述第一特征提取网络和所述第二特征提取网络包括单个带随机失活的主干网络。
[0015]根据一些示例性实施例,所述特征提取网络进一步包括关联于所述第一特征提取网络的第一预处理模块、和关联于所述第二特征提取网络的第二预处理模块,所述第一预处理模块和所述第二预处理模块分别用于在特征提取之前对所述输入进行不同的对抗训练。
[0016]本公开的其他方面还包括实现相应方法的功能的装置、设备和计算机可读存储介质等。
附图说明
[0017]图1示出了根据本公开的一方面的示例网站会员注册页面的示图。
[0018]图2示出了根据本公开的一方面的示例网站会员注册页面的示图。
[0019]图3示出了根据本公开的一方面的图像相似度匹配方案的示意图。
[0020]图4示出了根据本公开的一方面的图像相似度匹配方案的示意图。
[0021]图5示出了根据本公开的一方面的图像相似度匹配装置的框图。
[0022]图6示出了根据本公开一方面的训练匹配网络的方案的数据流图。
[0023]图7示出了根据本公开一方面的基于度量学习来训练匹配网络的装置的框图。
[0024]图8示出了根据本公开一方面的图像相似度匹配装置的框图。
[0025]图9示出了根据本公开的一方面的对示例网站会员注册页面的图像相似度匹配的示图。
[0026]图10示出了根据本公开的一方面的对示例网站会员注册页面的图像相似度匹配的示图。
[0027]图11示出了根据本公开的一方面的一种图像相似度匹配的方法的框图。
[0028]图12示出了根据本公开的一方面的一种图像相似度匹配的设备的框图。
具体实施方式
[0029]图1示出了根据本公开的一方面的示例网站会员注册页面100的示图。如图1中所示,在允许用户注册之前,网站要求用户在图片中所示的多个图形验证码图像中依次点击与给出的文本字符序列对应的数个图形验证码图像。
[0030]例如,在图1的示例中,网站要求用户依次在示出多个文字图形的图片中的“晃”、“昌”、“关”字。仅当用户能正确完成该点击任务时,网站才允许用户注册(或登录)并进一步访问网站上的其他内容。
[0031]一般而言,图片中的图形验证码图像可包括文字、图形、图标、或其他与所给出的文本字符序列具有对应性的图形验证码图像。另外,图片中的图形验证码图像还可包括干扰项,例如图1中的“篇”、“涌”。
[0032]图形验证码图像还可包括颜色、变色、旋转、翻转、变形等以增加识别难度。例如,图1的示例网站会员注册页面100中的图形验证码图像为文字,且其包括不同颜色、旋转和变形,从而增加了机器识别的难度。
[0033]图2示出了根据本公开的一方面的示例网站会员注册页面200的示图。如图2中所示,在允许用户注册之前,网站要求用户在图片中所示的多个图标图形验证码图像中依次点击与给出的图标序列对应的数个图标图形验证码图像。
[0034]例如,在图2的示例中,网站要求用户依次在示出多个图标图形的图片中的三个特定图标。仅当用户能正确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像相似度匹配的方法,包括:获取页面的截图,所述页面上包括对象序列和图片,所述对象序列包括多个对象,并且所述图片中至少包括与所述对象序列中的每个对象相对应的多个图标;在所述页面的截图上进行目标检测,以获得所述多个对象和所述多个图标;基于特征提取来确定所述多个对象和所述多个图标的特征向量;以及基于对所述特征向量之间的距离度量的比较,确定每个对象与图标的配对关系。2.如权利要求1所述的方法,其中,所述图片还包括以下一者或多者或任何组合:不与所述对象序列中的任何对象相对应的图标;图标的颜色、变色、旋转、翻转、和/或变形;以及所述图片的背景。3.如权利要求1所述的方法,其中,基于特征提取来确定特征向量包括:由基于神经网络的模型以对象或图标的图像为输入进行嵌入得到特征向量。4.如权利要求3所述的方法,其中,对所述特征向量之间的距离度量的比较包括以下至少一者:将所述距离度量与阈值进行比较;或者确定与所述多个对象中的每一个对象具有最小距离度量的图形。5.如权利要求3所述的方法,其中,所述基于神经网络的模型至少包括特征提取网络。6.如权利要求5所述的方法,其中,所述特征提取网络包括第一特征提取网络和第二特征提取网络,并且所述基于神经网络的模型进一步包括与所述第一特征提取网络关联的第一分类模块、以及与所述第二特征提取网络关联的第二分类模块,并且所述方法进一步包括:使用训练数据集作为输入以确定以下损失中的一者或多者:样本失衡损失、第一特征提取网络与第二特征提取网络之间的回归损失、以及所述第一分类模块和所述第二分类模块之间的分类损失;以及基于所确定的损失之和来优化所述特征提取网络。7.如权利要求6所述的方法,其中,所述样本失衡损失包括以下一者或多者或其组合:由所述第一特征提取网络和所述第二特征提取网络分别对所述输入进行嵌入得到的特征向量的Circle loss之和;以及由所述第一分类模块和所述第二分类模块分别对所述第一特征提取网络和所述第二特征提取网络得到的特征向量进行分类得到的类别向量的Focal loss之和。8.如权利要求6所述的方法,其中,所述回归损失包括MSE损失,并且所述分类损失包括KL损失。9.如权利要求6所述的方法,其中,所述第一特征提取网络和所述第二特征提取网络包括单个带随机失活的主干网络。10.如权利要求9所述的方法,其中,所述特征提取网络进一步包括关联于所述第一特征提取网络的第一预处理模块、和关联于所述第二特征提取网络的第二预处理模块,所述第一预处理模块和所述第二预处理模块分别用于在特征提取之前对所述输入进行不同的对抗训练。11.一种图像相似度匹配的装置,包括:
目标检测模...

【专利技术属性】
技术研发人员:程裕家王可兰钧孟昌华王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1