验证码数据标注处理方法及装置制造方法及图纸

技术编号:41963950 阅读:14 留言:0更新日期:2024-07-10 16:46
本发明专利技术公开了一种验证码数据标注处理方法及装置,涉及人工智能领域,其中该方法包括:在确定无法通过特征提取生成训练数据时,将验证码样本数据图片分别输入模型库中的每一特征类型的已构建数据标注模型及数据标注通用模型预测验证码内容,选择出预测准确率最高的模型作为数据标注初始模型;在确定选择出的初始模型不符合预设阈值时,根据不同模型准确率的每次训练时的预设数据追加策略,迭代训练标注初始模型,直至模型准确率达到预设阈值时,得到最终的验证码数据标注模型,该最终的验证码数据标注模型用于自动标注验证码数据,得到用于训练验证码识别模型的训练数据。本发明专利技术可以提高验证码数据标注的适用性和效率。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种验证码数据标注处理方法及装置


技术介绍

1、本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、验证码在互联网中广泛引用,为了破解验证码,实现程序自动填入验证码信息,通常需基于机器学习、ai技术构建验证码识别模型后进行验证码识别,构建验证码识别模型需要标注后的数据作为训练数据,传统的标注方法需要人工进行大量数据标注,成本较高,效率较低。

3、现有技术方案中,除人工标注外,现存通过提取验证码特征,程序模拟生成训练数据的方案,因很多验证码难以提取特征,继而无法生成训练数据,该方案适用性不足,验证码数据标注效率也低。


技术实现思路

1、本专利技术实施例提供一种验证码数据标注处理方法,用以提高验证码数据标注处理的适用性和效率,该方法包括:

2、在确定无法通过对待标注验证码数据进行特征提取生成训练数据时,将验证码样本数据图片分别输入模型库中的每一特征类型的历史已构建的验证码数据标注本文档来自技高网...

【技术保护点】

1.一种验证码数据标注处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,根据不同模型准确率对应的每次迭代训练时的预设数据追加策略,迭代训练数据标注初始模型,包括:基于不同子阈值范围设定不同的数据追加方式、数据追加增量比例,迭代训练数据标注初始模型,以提升标注初始模型的训练效率。

3.如权利要求1所述的方法,其特征在于,将验证码样本数据图片分别输入模型库中的每一特征类型的历史已构建的验证码数据标注模型,以及验证码数据标注通用模型预测验证码内容,选择出预测准确率最高的模型作为验证码数据标注初始模型,包括:

4.如权利要求1所述的方法,其...

【技术特征摘要】

1.一种验证码数据标注处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,根据不同模型准确率对应的每次迭代训练时的预设数据追加策略,迭代训练数据标注初始模型,包括:基于不同子阈值范围设定不同的数据追加方式、数据追加增量比例,迭代训练数据标注初始模型,以提升标注初始模型的训练效率。

3.如权利要求1所述的方法,其特征在于,将验证码样本数据图片分别输入模型库中的每一特征类型的历史已构建的验证码数据标注模型,以及验证码数据标注通用模型预测验证码内容,选择出预测准确率最高的模型作为验证码数据标注初始模型,包括:

4.如权利要求1所述的方法,其特征在于,还包括按照如下方法预先训练生成所述验证码数据标注通用模型:

5.如权利要求4所述的方法,其特征在于,还包括:随着新验证码出现迭代训练更新所述通用模型;所述新验证码为包含的字体类型、噪点形态、噪点位置及密度、背景与字符阈值差异特征的其中之一或任意组合未在原有混合数据集中出现的验证码。

6.如权利要求1所述的方法,其特征在于,还包括:在确定选择出的数据标注初始模型符合预设标注模型准确率阈值要求时,将选择出的数据标...

【专利技术属性】
技术研发人员:王喆
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1