图像识别模型的训练方法、文本图像的识别方法及装置制造方法及图纸

技术编号:39310323 阅读:10 留言:0更新日期:2023-11-12 15:56
本发明专利技术公开了一种图像识别模型的训练方法、文本图像的识别方法及装置。该方法包括:将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中,得到输出的预测文本识别数据;基于预测文本识别数据和标准文本识别数据,对初始图像识别模型的模型参数和初始向量集进行调整得到目标图像识别模型和参考向量集;其中,初始向量集中包含至少一个初始向量组合,初始向量组合中包含初始文本向量、初始位置向量和初始结构向量,预测文本识别数据包括与各初始向量组合分别对应的预测文本内容数据、预测文本位置数据和预测文本结构数据。本发明专利技术实施例解决了传统的多模型架构存在累计误差的问题,提高了模型的整体训练效率和文本识别效果。文本识别效果。文本识别效果。

【技术实现步骤摘要】
图像识别模型的训练方法、文本图像的识别方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种图像识别模型的训练方法、文本图像的识别方法及装置。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)是一种可以将文本图像中的文字转换为机器编码文本的识别手段,广泛应用在证件识别、发票识别、车牌识别等文本识别场景中。
[0003]光学字符识别过程主要包括文本识别和结构化提取两个关键模块,其中,文本识别模块用于对文本图像进行文本识别,得到文本图像中的文本内容及其文本位置,结构化提取模块用于对文本图像进行结构化信息提取,得到文本图像中文本内容的结构化描述。
[0004]在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:
[0005]目前,深度学习模型是实现光学字符识别的重要手段,而传统的光学字符识别过程采用了两个独立的学习模型分别实现文本识别和结构化提取,多模型架构存在累计误差,且无法进行联合优化,导致图像识别模型的识别效果较差,且训练效率低。

技术实现思路

[0006]本专利技术实施例提供了一种图像识别模型的训练方法、文本图像的识别方法及装置,以解决传统的多模型架构的图像识别模型存在累计误差的问题,提高图像识别模型的文本识别效果和训练效率。
[0007]根据本专利技术一个实施例提供了一种图像识别模型的训练方法,该方法包括:
[0008]将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中,得到输出的预测文本识别数据;
[0009]基于所述预测文本识别数据和标准文本识别数据,对所述初始图像识别模型的模型参数和所述初始向量集进行调整得到目标图像识别模型和参考向量集;
[0010]其中,所述初始向量集中包含至少一个初始向量组合,所述初始向量组合中包含初始文本向量、初始位置向量和初始结构向量,所述预测文本识别数据包括与各所述初始向量组合分别对应的预测文本内容数据、预测文本位置数据和预测文本结构数据。
[0011]根据本专利技术一个实施例提供了一种文本图像的识别方法,该方法包括:
[0012]将待测文本图像和参考向量集输入到预先训练完成的目标图像识别模型中,得到输出的参考文本识别数据;
[0013]基于所述参考文本识别数据,确定所述待测文本图像对应的目标文本识别数据;
[0014]其中,所述参考向量集和所述目标图像识别模型是采用本专利技术任一实施例所述的图像识别模型的训练方法得到的,所述参考向量集中包含至少一个参考向量组合,所述参考向量组合中包含参考文本向量、参考位置向量和参考结构向量,所述参考文本识别数据包括与各所述参考向量组合分别对应的参考文本内容数据、参考文本位置数据和参考文本
结构数据。
[0015]根据本专利技术另一个实施例提供了一种图像识别模型的训练装置,该装置包括:
[0016]训练文本图像输入模块,用于将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中,得到输出的预测文本识别数据;
[0017]目标图像识别模型确定模块,用于基于所述预测文本识别数据和标准文本识别数据,对所述初始图像识别模型的模型参数和所述初始向量集进行调整得到目标图像识别模型和参考向量集;
[0018]其中,所述初始向量集中包含至少一个初始向量组合,所述初始向量组合中包含初始文本向量、初始位置向量和初始结构向量,所述预测文本识别数据包括与各所述初始向量组合分别对应的预测文本内容数据、预测文本位置数据和预测文本结构数据。
[0019]根据本专利技术另一个实施例提供了一种文本图像的识别装置,该装置包括:
[0020]待测文本图像输入模块,用于将待测文本图像和参考向量集输入到预先训练完成的目标图像识别模型中,得到输出的参考文本识别数据;
[0021]目标文本识别数据确定模块,用于基于所述参考文本识别数据,确定所述待测文本图像对应的目标文本识别数据;
[0022]其中,所述参考向量集和所述目标图像识别模型是采用本专利技术任一实施例所述的图像识别模型的训练方法得到的,所述参考向量集中包含至少一个参考向量组合,所述参考向量组合中包含参考文本向量、参考位置向量和参考结构向量,所述参考文本识别数据包括与各所述参考向量组合分别对应的参考文本内容数据、参考文本位置数据和参考文本结构数据。
[0023]根据本专利技术另一个实施例提供了一种电子设备,该电子设备包括:
[0024]至少一个处理器;以及
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的图像识别模型的训练方法,和/或,文本图像的识别方法。
[0027]根据本专利技术另一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的图像识别模型的训练方法,和/或,文本图像的识别方法。
[0028]本专利技术实施例的技术方案,通过将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中,得到输出的预测文本识别数据,基于预测文本识别数据和标准文本识别数据,对初始图像识别模型的模型参数和初始向量集进行调整得到目标图像识别模型和参考向量集,其中,初始向量集中包含至少一个初始向量组合,初始向量组合中包含初始文本向量、初始位置向量和初始结构向量,预测文本识别数据包括与各初始向量组合分别对应的预测文本内容数据、预测文本位置数据和预测文本结构数据,本专利技术实施例训练得到的图像识别模型兼备文本识别功能和结构化提取功能,解决了传统的多模型架构的图像识别模型存在累计误差的问题,提高了图像识别模型的文本识别效果和训练效率。
[0029]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1为本专利技术一个实施例所提供的一种图像识别模型的训练方法的流程图;
[0032]图2为本专利技术一个实施例所提供的一种训练文本图像的示意图;
[0033]图3为本专利技术一个实施例所提供的一种初始图像识别模型的网络架构图;
[0034]图4为本专利技术一个实施例所提供的一种文本图像的识别方法的流程图;
[0035]图5为本专利技术一个实施例所提供的一种图像识别模型的训练装置的结构示意图;
[0036]图6为本专利技术一个实施例所提供的一种文本图像的识别装置的结构示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别模型的训练方法,其特征在于,包括:将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中,得到输出的预测文本识别数据;基于所述预测文本识别数据和标准文本识别数据,对所述初始图像识别模型的模型参数和所述初始向量集进行调整得到目标图像识别模型和参考向量集;其中,所述初始向量集中包含至少一个初始向量组合,所述初始向量组合中包含初始文本向量、初始位置向量和初始结构向量,所述预测文本识别数据包括与各所述初始向量组合分别对应的预测文本内容数据、预测文本位置数据和预测文本结构数据。2.根据权利要求1所述的方法,其特征在于,所述初始图像识别模型包括特征编码网络和特征解码网络,其中,所述特征编码网络,用于基于输入的训练文本图像,输出文本编码特征,所述特征解码网络,用于基于输入的初始向量集和所述特征编码网络输出的文本编码特征,输出预测文本识别数据。3.根据权利要求2所述的方法,其特征在于,所述特征编码网络包括特征提取模块和特征编码模块,其中,所述特征提取模块,用于对输入的训练文本图像进行特征提取,得到训练特征图以及所述训练特征图对应的位置编码数据,所述特征编码模块,用于基于所述特征提取模块输出的位置编码数据,对所述训练特征图进行特征编码得到文本编码特征。4.根据权利要求2所述的方法,其特征在于,所述特征解码网络包括特征解码模块和前馈网络模块,其中,所述特征解码模块,用于基于输入的初始向量集和所述特征编码网络输出的文本编码特征,输出训练解码特征,所述前馈网络模块,用于基于所述特征解码模块输出的训练解码特征,输出预测文本识别数据。5.根据权利要求1所述的方法,其特征在于,所述基于所述预测文本识别数据和标准文本识别数据,对所述初始图像识别模型的模型参数和所述初始向量集进行调整得到目标图像识别模型和参考向量集,包括:基于所述预测文本识别数据和标准文本识别数据,构建目标损失函数;基于所述目标损失函数,对所述初始图像识别模型的模型参数和所述初始向量集进行调整得到调整后的初始图像识别模型和调整后的初始向量集;基于调整后的初始图像识别模型,重复执行将训练文本图像和初始向量集输入到未训练完成的初始图像识别模型中,得到输出的预测文本识别数据的步骤;直到所述目标损失函数收敛时,将调整后的初始图像识别模型作为目标图像识别模型,并将调整后的初始向量集作为参考向量集。6.一种文本图像的识别方法,其特征在于,包括:将待测文本图像和参考向量集输入到预先训练完成的目标图像识别模型中,得到输出的参考文本识别数据;基于所述参考文本识别数据,确定所述待测文本图像对应的目标文本识别数据;其中,所述参考向量集和所述目标图像识别模型是采用权利要求1

5任一项所述的图像识别模型的训练方法得到的,所述参考向量集中包含至少一个参考向量组合,所述参考向量组合中包含参考文本向量、参考位置向量和参考结构向量,所述参考文本识别数据包括与各所述参考向量组合分别对应的参考文本内容数据、参考文本位置数据和参考文本结构数据。
7.根据权利要求6所述的方...

【专利技术属性】
技术研发人员:王臣良付靖玲陈东张陆唐铭蔚高臻
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1