图像处理模型的训练方法、图像处理方法及装置制造方法及图纸

技术编号：40275474 阅读：6 留言：0更新日期：2024-02-02 23:02

本发明专利技术提供了一种图像处理模型的训练方法、图像处理方法及装置。图像处理模型包括文本检测模型和文本判断模型，文本检测模型用于对图像进行文本识别，文本判断模型用于检测图像中的文本的真实性。该方法包括：获取第一图像和对应的正样本标签；利用文本生成工具，获得第二图像以及对应的负样本标签；将第一图像和第二图像均输入到文本判断模型，以由文本判断模型输出检测结果，将第二图像输入到文本检测模型，以由文本检测模型输出文本识别结果，基于正样本标签、负样本标签、文本识别结果和检测结果，计算图像处理模型的损失值，利用损失值训练图像处理模型。该方案有效地节省了工作人员的精力，加速了模型训练的速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理领域，更具体地涉及一种图像处理模型的训练方法、图像处理方法、图像处理模型的训练装置、图像处理装置、电子设备和存储介质。

技术介绍

1、随着科技的发展，图像处理技术越来越多地应用于各个领域。因为图像中的文本携载更明晰的信息，所以关于图像中的文本处理一直是大家关注的热点。相关技术中，一些人工智能模型已经应用于图像中的文本处理，其具有准确度高、速度快等优点。

2、但因为文本具有字体、字形、大小等各种变化，通常需要针对特定的应用场景训练专用的人工智能模型。在模型的训练时，常规方法是依靠人工对收集的大量图像数据进行标注，然后基于标注结果进行训练。上述人工标注的过程耗时费力，导致训练周期也较长。

技术实现思路

1、考虑到上述问题而提出了本专利技术。

2、根据本专利技术一个方面，提供了一种图像处理模型的训练方法，图像处理模型包括文本检测模型和文本判断模型，文本检测模型用于对图像进行文本识别，文本判断模型用于检测图像中的文本的真实性，所述训练方法包括：

3、步骤s110，获取第一图像和对应的正样本标签，其中，第一图像中包括第一文本，正样本标签包括第一文本的真实性的信息；

4、步骤s120，利用文本生成工具，获得第二图像以及对应的负样本标签，其中，第二图像中包括利用文本生成工具所生成的第二文本，负样本标签包括第二文本的真实性的信息和文本识别信息；

5、步骤s130，将第一图像和第二图像均输入到文本判断模型，以由文本判断

6、示例性地，损失值包括文本判断模型的第一损失值和文本检测模型的第二损失值，

7、步骤s130包括：首先，将第一图像和第二图像均输入到文本判断模型，以由文本判断模型输出检测结果，基于正样本标签、负样本标签和检测结果，计算文本判断模型的第一损失值，利用第一损失值调整文本判断模型对应的参数，以训练文本判断模型；

8、然后，将第二图像输入到文本检测模型，以由文本检测模型输出文本识别结果，基于负样本标签和文本识别结果，计算文本检测模型的第二损失值，利用第二损失值调整文本检测模型对应的参数，以训练文本检测模型。

9、示例性地，利用损失值调整图像处理模型对应的参数，以训练图像处理模型，包括：利用损失值同时调整文本判断模型对应的参数和文本检测模型对应的参数，以训练图像处理模型。

10、示例性地，基于正样本标签、负样本标签、文本识别结果和检测结果，计算图像处理模型的损失值，包括：基于正样本标签、负样本标签和检测结果，计算文本判断模型的第一损失值；基于负样本标签和文本识别结果，计算文本检测模型的第二损失值；基于第一损失值和第二损失值，计算图像处理模型的损失值。

11、示例性地，基于第一损失值和第二损失值，计算图像处理模型的损失值，包括：对第一损失值和第二损失值进行加权求和，以将所计算的和确定为图像处理模型的损失值。

12、示例性地，文本检测模型和文本判断模型具有共享权重网络。

13、示例性地，获得第二图像以及对应的负样本标签，包括：获取背景图像；利用文本生成工具，生成第二文本并获得第二文本对应的负样本标签；将第二文本映射到背景图像，以生成第二图像。

14、根据本专利技术的又一个方面，提供了一种图像处理方法，处理方法包括：获取待处理图像，待处理图像中包括文本；将待处理图像输入上述训练方法所训练的图像处理模型，以输出待处理图像的文本识别结果和/或待处理图像中的文本的真实性检测结果。

15、根据本专利技术的又一个方面，提供了一种图像处理模型的训练装置，图像处理模型包括文本检测模型和文本判断模型，文本检测模型用于对图像进行文本识别，文本判断模型用于检测图像中的文本的真实性；训练装置包括：

16、第一获取模块，用于获取第一图像和对应的正样本标签，其中，第一图像中包括第一文本，正样本标签包括第一文本的真实性的信息；

17、第二获取模块，用于利用文本生成工具，获得第二图像以及对应的负样本标签，其中，第二图像中包括利用文本生成工具所生成的第二文本，所述负样本标签包括所述第二文本的真实性的信息和文本识别信息；

18、训练模块，用于将所述第一图像和所述第二图像均输入到所述文本判断模型，以由文本判断模型输出检测结果，将第二图像输入到文本检测模型，以由文本检测模型输出文本识别结果，基于正样本标签、负样本标签、文本识别结果和检测结果，计算图像处理模型的损失值，利用损失值调整图像处理模型对应的参数，以训练图像处理模型。

19、根据本专利技术的又一个方面，提供了一种图像处理装置，处理装置包括：第三获取模块，用于获取待处理图像，待处理图像中包括文本；处理模块，用于将待处理图像输入上述训练方法所训练的图像处理模型，以输出待处理图像的文本识别结果和/或待处理图像中的文本的真实性检测结果。

20、根据本专利技术的又一个方面，提供了一种电子设备，包括处理器和存储器，存储器中存储有计算机程序指令，计算机程序指令被处理器运行时用于执行上述图像处理模型的训练方法和/或图像处理方法。

21、根据本专利技术的再一个方面，提供了一种存储介质，在存储介质上存储了程序指令，程序指令在运行时用于执行上述图像处理模型的训练方法和/或图像处理方法。

22、上述训练图像处理模型的过程中，不仅利用了包括人工字符的第二图像，也利用了包括真实字符的第一图像。如果仅利用第二图像进行模型训练，其对真实图像虽然具备一定的识别能力，但是识别精度较低。在上述实施例中，利用文本生成工具获得第二图像以及对应的负样本标签，基于第一图像和其对应的正样本标签以及第二图像以及对应的负样本标签训练图像处理模型。由此，基于文本生成工具所生成的语义标签来进行图像处理模型的训练。该方案有效地节省了工作人员的精力，加速了模型训练的速度。

23、上述说明仅是本专利技术技术方案的概述，为了能够更清楚了解本专利技术的技术手段，而可依照说明书的内容予以实施，并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种图像处理模型的训练方法，其特征在于，所述图像处理模型包括文本检测模型和文本判断模型，所述文本检测模型用于对图像进行文本识别，所述文本判断模型用于检测图像中的文本的真实性；

2.根据权利要求1所述图像处理模型的训练方法，其特征在于，所述损失值包括所述文本判断模型的第一损失值和所述文本检测模型的第二损失值，

3.根据权利要求1所述图像处理模型的训练方法，其特征在于，所述利用所述损失值调整所述图像处理模型对应的参数，以训练所述图像处理模型，包括：

4.根据权利要求3所述图像处理模型的训练方法，其特征在于，

5.根据权利要求4所述图像处理模型的训练方法，其特征在于，所述基于所述第一损失值和所述第二损失值，计算所述图像处理模型的损失值，包括：

6.根据权利要求1至5任一项所述图像处理模型的训练方法，其特征在于，所述文本检测模型和所述文本判断模型具有共享权重网络。

7.根据权利要求1至5任一项所述图像处理模型的训练方法，其特征在于，所述获得第二图像以及对应的负样本标签，包括：

8.一种图像处理方法，其

9.一种图像处理模型的训练装置，其特征在于，所述图像处理模型包括文本检测模型和文本判断模型，所述文本检测模型用于对图像进行文本识别，所述文本判断模型用于检测图像中的文本的真实性；

10.一种图像处理装置，其特征在于，所述处理装置包括：

11.一种电子设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的图像处理模型的训练方法和/或如权利要求8所述的图像处理方法。

12.一种存储介质，在所述存储介质上存储了程序指令，其特征在于，所述程序指令在运行时用于执行如权利要求1至7任一项所述的图像处理模型的训练方法和/或如权利要求8所述的图像处理方法。

...

【技术特征摘要】

2.根据权利要求1所述图像处理模型的训练方法，其特征在于，所述损失值包括所述文本判断模型的第一损失值和所述文本检测模型的第二损失值，

4.根据权利要求3所述图像处理模型的训练方法，其特征在于，

5.根据权利要求4所述图像处理模型的训练方法，其特征在于，所述基于所述第一损失值和所述第二损失值，计算所述图像处理模型的损失值，包括：

6.根据权利要求1至5任一项所述图像处理模型的训练方法，其特征在于，所述文本检测模型和所述文本判断模型具有共享权重网络。

7.根据权...

【专利技术属性】
技术研发人员：徐海俊，韩晓，
申请(专利权)人：苏州镁伽科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人