【技术实现步骤摘要】
识别模型的训练方法、装置、设备及存储介质
本专利技术涉及金融科技(Fintech)的人工智能
,尤其涉及一种识别模型的训练方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,人工智能技术也不例外,但由于金融行业的安全性、实时性要求,也对人工智能技术提出的更高的要求。基于深度学习的文字识别OCR(OpticalCharacterRecognition,光学字符识别)方法依赖于大量的标注数据。在实际应用中,一方面特定领域的真实数据(比如金融证件数据)十分昂贵、稀少,有时甚至还面临隐私保护问题,故大量获取真实数据往往比较困难;另一方面,对数据进行标注耗时耗力,具有较高成本,标注数据有时也有标注错误的问题。根据Zipf定律,自然语言中的语料库中,一个词的词频和它在词频表里的排名呈反比,所以,即使拥有大量的标注数据,生僻字的占比仍远远不足。有些在OCR系统实际上线时遇到的生僻字甚至未出现训练集中。生僻字数据的稀疏性给OCR系统的准 ...
【技术保护点】
1.一种识别模型的训练方法,其特征在于,所述识别模型的训练方法包括以下步骤:/n获取待训练图像,根据所述待训练图像构造仿真图像;/n根据所述待训练图像和所述仿真图像确定训练数据集;/n基于所述训练数据集,通过预设神经网络模型中的生成对抗网络和识别网络训练得到识别模型。/n
【技术特征摘要】
1.一种识别模型的训练方法,其特征在于,所述识别模型的训练方法包括以下步骤:
获取待训练图像,根据所述待训练图像构造仿真图像;
根据所述待训练图像和所述仿真图像确定训练数据集;
基于所述训练数据集,通过预设神经网络模型中的生成对抗网络和识别网络训练得到识别模型。
2.如权利要求1所述的识别模型的训练方法,其特征在于,所述识别模型为文字识别模型,所述根据所述待训练图像构造仿真图像的步骤包括:
获取所述待训练图像对应的标签文字,根据所述标签文字生成含有生僻字的目标语料库;
获取所述待训练图像对应的背景图像,根据所述目标语料库和所述背景图像构造得到仿真图像。
3.如权利要求2所述的识别模型的训练方法,其特征在于,所述获取所述待训练图像对应的标签文字,根据所述标签文字生成含有生僻字的目标语料库的步骤包括:
获取所述待训练图像对应的标签文字,根据所述标签文字构造得到原始语料库;
确定所述原始语料库对应的生僻字,以及获取所述生僻字对应的上下文;
将所述生僻字和所述生僻字对应上下文添加至所述原始语料库中,得到目标语料库。
4.如权利要求2所述的识别模型的训练方法,其特征在于,所述确定所述原始语料库对应的生僻字的步骤之后,还包括:
将所述生僻字插入所述标签文字中,以更新所述原始语料库中的标签文字,得到目标语料库。
5.如权利要求2所述的识别模型的训练方法,其特征在于,所述获取所述待训练图像对应的背景图像,根据所述目标语料库和所述背景图像构造得到仿真图像的步骤包括:
获取所述待训练图像中无文字对应的背景图像,并在所述目标语料库中获取所述背景图像对应的目标文字串;
根据所述目标文字串对应的文字字体确定仿真图像中标签文字的仿真字体;
将所述目标文字串以所述仿真字体的形式嵌入对应的所述背景图像中,以构造得到仿真图像。
6.如权利要求5所述的识别模型的训练方法,其特征在于,所述将所述目标文字串以所述仿真字体的形式嵌入对应的所述背景图像中,以构造得到仿真图像的步骤包括:
将所述目标文字串以所述仿真字体的形式...
【专利技术属性】
技术研发人员:张杰,邹雨晗,徐倩,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。