【技术实现步骤摘要】
一种基于自监督学习的验证码识别器的训练方法和装置
本说明书一个或多个实施例涉及机器学习领域和数据安全领域,尤其涉及利用机器学习和数据安全的验证码识别方法和装置。
技术介绍
验证码于2003年首次提出,旨在区分人与自动化计算机程序。验证码是一种很难用计算机求解的测试,但对于人类来说却很容易。随着Internet的发展,验证码已在Web应用程序中广泛使用,以保护安全性,防止数据被盗和密码破解。尽管已经提出了许多替代基于文本的验证码的方法,但是基于文本的验证码仍然是许多网站的首选身份验证机制。因此,对验证码方案的成功攻击将对网站造成严重破坏。验证码图像通常由三部分组成,前景层,字符层和背景层。前景层和背景层主要包含一些干扰项,例如遮挡线,噪点和噪点背景。字符层包含有用的信息,这些信息还添加了额外的安全性功能,例如字体,大小,颜色,旋转,变形和重叠。验证码的安全功能对于阻止自动攻击至关重要。在过去的十年中,已提出了多种不同的破解验证码的方法,其中许多方法需要手动调整过滤和分段以实现字符识别。但是,这些方法不再适用,因 ...
【技术保护点】
1.一种训练验证码识别器的方法,所述验证码识别器包括特征提取器和分类器,所述方法包括:/n获取无标签的第一样本集,其中包括多个第一样本,每个第一样本对应一个验证码图像;/n对于各个第一样本,将对应的验证码图像划分为多个图块;/n利用所述特征提取器分别提取各个图块的特征,得到各个图块的编码向量;/n从所述多个图块中选取连续的图块序列,利用回归网络,基于所述图块序列中前面若干图块的编码向量,确定隐含向量,基于所述隐含向量确定所述图块序列中后续图块的预测向量;/n基于所述后续图块的编码向量和预测向量,确定第一预测损失;/n根据各个第一样本对应的第一预测损失,训练所述特征提取器和所 ...
【技术特征摘要】
1.一种训练验证码识别器的方法,所述验证码识别器包括特征提取器和分类器,所述方法包括:
获取无标签的第一样本集,其中包括多个第一样本,每个第一样本对应一个验证码图像;
对于各个第一样本,将对应的验证码图像划分为多个图块;
利用所述特征提取器分别提取各个图块的特征,得到各个图块的编码向量;
从所述多个图块中选取连续的图块序列,利用回归网络,基于所述图块序列中前面若干图块的编码向量,确定隐含向量,基于所述隐含向量确定所述图块序列中后续图块的预测向量;
基于所述后续图块的编码向量和预测向量,确定第一预测损失;
根据各个第一样本对应的第一预测损失,训练所述特征提取器和所述回归网络;
基于训练好的特征提取器,训练所述分类器。
2.根据权利要求1所述的方法,其中,所述基于训练好的特征提取器,训练分类器,包括:
获取有标签的第二样本集,其中包括多个第二样本,每个第二样本对应一个验证码图像,且具有标注的真实字符;
对于各个第二样本,将对应的验证码图像输入训练好的特征提取器,得到第二样本的特征向量;
将所述特征向量输入所述分类器,预测其中的字符;
基于预测的字符和所述真实字符,确定第二预测损失;
根据第二预测损失,更新所述分类器。
3.根据权利要求1所述的方法,其中,获取无标签的第一样本集,包括:
获取真实的验证码图像作为正面示例;
基于所述正面示例的验证码图像进行破坏字符完整性的合成处理,将合成的验证码图像作为负面示例。
4.根据权利要求3所述的方法,其中,基于正面示例的验证码图像进行破坏字符完整性的合成处理,包括以下中的至少一种:
将所述正面示例的验证码图像上、下部分按照不同的间距进行合成;
将所述正面示例的验证码图像上、下部分按照不同的旋转方向进行合成;
拼接不同的正面示例的验证码图像的上、下部分。
5.根据权利要求3所述的方法,其中,所述正面示例的数目少于所述负面示例。
6.根据权利要求1所述的方法,其中,所述将所述验证码图像划分为多个图块,包括:
将所述验证码图像划分为预定大小的图块,每个所述图块与其相邻图块存在预定比例的重叠。
7.根据权利要求1所述的方法,其中,所述特征提取器通过卷积神经网络CNN实现。
8.根据权利要求1所述的方法,其中,从所述多个图块中选取连续的图块序列包括:
从所述多个图块构成的图块阵列中选取同一列的图块,将该列的图块按照从上到下的顺序,或者从下到上的顺序排成所述图块序列。
9.根据权利要求1所述的方法,其中,所述回归网络为基于时序的神经网络,所述基于所述图块序列中前面若干图块的编码向量,确定隐含向量包括:
将所述前面若干图块分别对应的若干编码向量依次输入所述基于时序的神经网络,所述基于时序的神经网络依次迭代处理所述若干编码向量,将处理所述若干编码向量中最后一个编码向量后得到的状态向量,作为所述隐含向量。
10.根据权利要求1所述的方法,其中所述验证码识别器还包括分解器,所述分解器包括背景图像提取网络、字符图像提取网络和权重掩码生成网络;所述方法还包括通过以下方式训练所述分解器:
获取无标签的第三样本集,其中包括多个第三样本,每个第三样本对应一个包含干扰图像的验证码图像;
对于各个第三样本,去除对应验证码图像中高频、不规则噪声,得到消噪图像;
将所述消噪图像分别输入背景图像提取网络、字符图像提取网络和权重掩码生成网络,分别从中得到背景图像、字符图像和权重掩码图像;其中,所述权重掩码图像的像素点数据代表背景图像、字符图像中相应像素点在重构时的比重;
根据背景图像、字符图像和权重掩码图像生成重构图像;
根据所述消噪图像、重构图像和权重掩码图像,确定第三预测损失;
根据第三预测损失,更新背景图像提取网络、字符图像提取网络和权重掩码生成网络。
11.一种训练验证码图像分解器的方法,所述验证码图像分解器用于去除包含干扰图像的验证码图像中的干扰图像,并包括,背景图像提取网络、字符图像提取网络和权重掩码生成网络,所述方法包括:
获取无标签的第三样本集,其中包括多个第三样本,每个第三样本对应一个包含干扰图像的验证码图像;
对于各个第三样本,去除对应验证码图像中高频、不规则噪声,得到消噪图像;
将所述消噪图像分别输入背景图像提取网络、字符图像提取网络和权重掩码生成网络,...
【专利技术属性】
技术研发人员:熊涛,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。