图像识别模型的训练方法、文本图像的识别方法及装置制造方法及图纸

技术编号：39310323 阅读：10 留言：0更新日期：2023-11-12 15:56

本发明专利技术公开了一种图像识别模型的训练方法、文本图像的识别方法及装置。该方法包括：将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中，得到输出的预测文本识别数据；基于预测文本识别数据和标准文本识别数据，对初始图像识别模型的模型参数和初始向量集进行调整得到目标图像识别模型和参考向量集；其中，初始向量集中包含至少一个初始向量组合，初始向量组合中包含初始文本向量、初始位置向量和初始结构向量，预测文本识别数据包括与各初始向量组合分别对应的预测文本内容数据、预测文本位置数据和预测文本结构数据。本发明专利技术实施例解决了传统的多模型架构存在累计误差的问题，提高了模型的整体训练效率和文本识别效果。文本识别效果。文本识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
图像识别模型的训练方法、文本图像的识别方法及装置

[0001]本专利技术涉及人工智能
，尤其涉及一种图像识别模型的训练方法、文本图像的识别方法及装置。

技术介绍

[0002]光学字符识别(Optical Character Recognition，OCR)是一种可以将文本图像中的文字转换为机器编码文本的识别手段，广泛应用在证件识别、发票识别、车牌识别等文本识别场景中。
[0003]光学字符识别过程主要包括文本识别和结构化提取两个关键模块，其中，文本识别模块用于对文本图像进行文本识别，得到文本图像中的文本内容及其文本位置，结构化提取模块用于对文本图像进行结构化信息提取，得到文本图像中文本内容的结构化描述。
[0004]在实现本专利技术的过程中，发现现有技术中至少存在以下技术问题：
[0005]目前，深度学习模型是实现光学字符识别的重要手段，而传统的光学字符识别过程采用了两个独立的学习模型分别实现文本识别和结构化提取，多模型架构存在累计误差，且无法进行联合优化，导致图像识别模型的识别效果较差，且训练效率低。

技术实现思路

[0006]本专利技术实施例提供了一种图像识别模型的训练方法、文本图像的识别方法及装置，以解决传统的多模型架构的图像识别模型存在累计误差的问题，提高图像识别模型的文本识别效果和训练效率。
[0007]根据本专利技术一个实施例提供了一种图像识别模型的训练方法，该方法包括：
[0008]将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型...

【技术保护点】

【技术特征摘要】
1.一种图像识别模型的训练方法，其特征在于，包括：将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中，得到输出的预测文本识别数据；基于所述预测文本识别数据和标准文本识别数据，对所述初始图像识别模型的模型参数和所述初始向量集进行调整得到目标图像识别模型和参考向量集；其中，所述初始向量集中包含至少一个初始向量组合，所述初始向量组合中包含初始文本向量、初始位置向量和初始结构向量，所述预测文本识别数据包括与各所述初始向量组合分别对应的预测文本内容数据、预测文本位置数据和预测文本结构数据。2.根据权利要求1所述的方法，其特征在于，所述初始图像识别模型包括特征编码网络和特征解码网络，其中，所述特征编码网络，用于基于输入的训练文本图像，输出文本编码特征，所述特征解码网络，用于基于输入的初始向量集和所述特征编码网络输出的文本编码特征，输出预测文本识别数据。3.根据权利要求2所述的方法，其特征在于，所述特征编码网络包括特征提取模块和特征编码模块，其中，所述特征提取模块，用于对输入的训练文本图像进行特征提取，得到训练特征图以及所述训练特征图对应的位置编码数据，所述特征编码模块，用于基于所述特征提取模块输出的位置编码数据，对所述训练特征图进行特征编码得到文本编码特征。4.根据权利要求2所述的方法，其特征在于，所述特征解码网络包括特征解码模块和前馈网络模块，其中，所述特征解码模块，用于基于输入的初始向量集和所述特征编码网络输出的文本编码特征，输出训练解码特征，所述前馈网络模块，用于基于所述特征解码模块输出的训练解码特征，输出预测文本识别数据。5.根据权利要求1所述的方法，其特征在于，所述基于所述预测文本识别数据和标准文本识别数据，对所述初始图像识别模型的模型参数和所述初始向量集进行调整得到目标图像识别模型和参考向量集，包括：基于所述预测文本识别数据和标准文本识别数据，构建目标损失函数；基于所述目标损失函数，对所述初始图像识别模型的模型参数和所述初始向量集进行调整得到调整后的初始图像识别模型和调整后的初始向量集；基于调整后的初始图像识别模型，重复执行将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中，得到输出的预测文本识别数据的步骤；直到所述目标损失函数收敛时，将调整后的初始图像识别模型作为目标图像识别模型，并将调整后的初始向量集作为参考向量集。6.一种文本图像的识别方法，其特征在于，包括：将待测文本图像和参考向量集输入到预先训练完成的目标图像识别模型中，得到输出的参考文本识别数据；基于所述参考文本识别数据，确定所述待测文本图像对应的目标文本识别数据；其中，所述参考向量集和所述目标图像识别模型是采用权利要求1
‑
5任一项所述的图像识别模型的训练方法得到的，所述参考向量集中包含至少一个参考向量组合，所述参考向量组合中包含参考文本向量、参考位置向量和参考结构向量，所述参考文本识别数据包括与各所述参考向量组合分别对应的参考文本内容数据、参考文本位置数据和参考文本结构数据。
7.根据权利要求6所述的方...

【专利技术属性】
技术研发人员：王臣良，付靖玲，陈东，张陆，唐铭蔚，高臻，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人