文本检测模型的训练方法、文本检测方法及装置制造方法及图纸

技术编号：40317683 阅读：8 留言：0更新日期：2024-02-07 21:00

本申请实施例提供了一种文本检测模型的训练方法、文本检测方法及装置，其中训练方法包括：若确定当前训练轮次所对应的N个第一样本图像中包括孤立文本，则对孤立文本进行动态增强处理，得到待训练的N个第二样本图像，N为大于1的整数；将N个第二样本图像输入待训练的初始文本检测网络中进行训练处理，得到训练后的初始文本检测网络、N个特征图、及第二样本图像中孤立文本与非孤立文本的目标权重；基于特征图和目标权重确定目标损失，若目标损失满足训练结束条件，则根据满足训练结束条件时的初始文本检测网络确定文本检测模型。通过本申请实施例，提升了文本检测模型对文本的检测准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种文本检测模型的训练方法、文本检测方法及装置。

技术介绍

1、近年来，深度学习逐渐成为人工智能领域的研究热点，其广泛的应用于各种场景。文本检测是深度学习的典型应用场景之一，现实生活中，待进行文本检测的目标图像中，往往包括小目标文本，如图1中虚线框内的“1、5、-”，由于小目标文本所占的区域较小，因此包含的特征较少，而这导致现有的文本检测模型对于小目标文本的检测效果较差，进而降低了文本检测模型对整体文本的检测准确性。

技术实现思路

1、本申请提供一种文本检测模型的训练方法、文本检测方法及装置，以提升文本检测模型对孤立文本的检测能力，进而提升文本检测模型对整体文本的检测准确性。

2、第一方面，本申请实施例提供了一种文本检测模型的训练方法，包括：

3、若确定当前训练轮次所对应的n个第一样本图像中包括孤立文本，则对所述孤立文本进行动态增强处理，得到待训练的n个第二样本图像；所述第一样本图像包括至少一个文本框，文本框与第一样本图像中的单位文本一一对应，所述孤立文本对应的第一文本框的第一长宽比位于第一长宽比区间；n为大于1的整数；

4、将所述n个第二样本图像输入待训练的初始文本检测网络中进行训练处理，得到训练后的初始文本检测网络、n个特征图、及所述第二样本图像中所述孤立文本与非孤立文本的目标权重；所述非孤立文本对应的第二文本框的第二长宽比位于第二长宽比区间；

5、基于所述特征图和所述目标权重确定目标损失，若所述目标损

6、可以看出，本申请实施例中，当确定当前训练轮次所对应的n个第一样本图像中包括孤立文本时，对孤立文本进行动态增强处理，得到待训练的n个第二样本图像；将n个第二样本图像输入待训练的初始文本检测网络中进行训练处理，得到训练后的初始文本检测网络、n个特征图、及第二样本图像中孤立文本与非孤立文本的目标权重；以及，基于特征图和目标权重确定目标损失，并在目标损失满足训练结束条件时，根据满足训练结束条件时的初始文本检测网络确定文本检测模型；其中，第一样本图像包括至少一个文本框，文本框与第一样本图像中的单位文本一一对应，孤立文本对应的第一文本框的第一长宽比位于第一长宽比区间，非孤立文本对应的第二文本框的第二长宽比位于第二长宽比区间。该训练方式中，通过对孤立文本进行动态增强处理，提高了孤立文本在所有文本中的比例和复杂性，使得文本检测模型在训练过程中可以学习到更多孤立文本的相关知识，从而提升文本检测模型对孤立文本的检测能力，进而提升对整体文本的检测准确性；此外，由于是动态增强、且动态增强是在没有增加样本数量的基础上进行的，因此能够在模型学习到更多孤立文本知识的情况下，避免样本数量大而导致的训练速度慢等问题；再者，通过输出孤立文本与非孤立文本的目标权重，使得文本检测模型在训练过程中，能够学习到非孤立文本的相关知识的同时，更加倾向于学习孤立文本的相关知识，因此可进一步提升模型对孤立文本的检测能力，进而提升模型对整体文本的检测准确性。

7、第二方面，本申请实施例提供了一种文本检测方法，包括：

8、获取待检测的目标图像；

9、将所述目标图像输入文本检测模型中进行文本检测处理，得到所述目标图像的特征图；所述特征图的像素点与所述目标图像的像素点一一对应，所述特征图中每个像素点的第一数值表征所述目标图像中对应的像素点为文本的概率；所述文本检测模型是根据前述第一方面提供的文本检测模型的训练方法训练得到；

10、根据所述特征图，确定所述目标图像中文本所在的目标区域。

11、可以看出，本申请实施例中，在获取到待检测的目标图像时，将目标图像输入文本检测模型中进行文本检测处理，得到目标图像的特征图；并根据特征图，确定目标图像中文本所在的目标区域。由于进行文本检测处理所使用的文本检测模型在训练过程中，对孤立文本进行了动态增强处理，提高了孤立文本在所有文本中的比例和复杂性，因此使得文本检测模型在训练过程中可以学习到更多孤立文本的相关知识，从而提升了文本检测模型对孤立文本的检测能力，进而提升了文本检测模型对整体文本的检测准确性；再者，通过输出孤立文本与非孤立文本的目标权重，使得文本检测模型在训练过程中能够学习到非孤立文本的相关知识的同时，更加倾向于学习孤立文本的相关知识，因此可进一步提升文本检测模型对孤立文本的检测能力，进而提升对整体文本的检测准确性。而基于该检测准确性高的文本检测模型对待检测的目标图像进行文本检测处理，能够降低孤立文本的漏检情况，提升整体文本的检测准确性。

12、第三方面，本申请实施例提供了一种文本检测模型的训练装置，包括：

13、增强模块，用于若确定当前训练轮次所对应的n个第一样本图像中包括孤立文本，则对所述孤立文本进行动态增强处理，得到待训练的n个第二样本图像；所述第一样本图像包括至少一个文本框，文本框与第一样本图像中的单位文本一一对应，所述孤立文本对应的第一文本框的第一长宽比位于第一长宽比区间；n为大于1的整数；

14、训练模块，用于将所述n个第二样本图像输入待训练的初始文本检测网络中进行训练处理，得到训练后的初始文本检测网络、n个特征图、及所述第二样本图像中所述孤立文本与非孤立文本的目标权重；所述非孤立文本对应的第二文本框的第二长宽比位于第二长宽比区间；

15、确定模块，用于基于所述特征图和所述目标权重确定目标损失，若所述目标损失满足训练结束条件，则根据当前的所述初始文本检测网络确定文本检测模型。

16、第四方面，本申请实施例提供了一种文本检测装置，包括：

17、获取模块，用于获取待检测的目标图像；

18、检测模块，用于将所述目标图像输入文本检测模型中，进行文本检测处理，得到所述目标图像的特征图；所述特征图的像素点与所述目标图像的像素点一一对应，所述特征图中每个像素点的第一数值表征所述目标图像中对应的像素点为文本的概率；所述文本检测模型是根据前述第一方面提供的文本检测模型的训练方法训练得到；

19、确定模块，用于根据所述特征图，确定所述目标图像中文本所在的目标区域。

20、第五方面，本申请实施例提供了一种电子设备，包括：

21、处理器；以及，被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行上述第一方面提供的文本检测模型的训练方法中的步骤，或者所述可执行指令包括用于执行上述第二方面提供的文本检测方法中的步骤。

22、第六方面，本申请实施例提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行上述第一方面提供的文本检测模型的训练方法中的步骤，或者所述可执行指令使得计算机执行上述第二方面提供的文本检测方法中的步骤。

本文档来自技高网...

【技术保护点】

1.一种文本检测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述孤立文本进行动态增强处理，得到待训练的N个第二样本图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述当前训练轮次和最大训练轮次，确定所述孤立文本在所述当前训练轮次的动态增强信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述动态增强信息，动态对所述孤立文本进行数量增强处理和样式增强处理，得到待训练的N个第二样本图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述初始文本检测网络包括特征提取模块和权重调节模块；所述将所述N个第二样本图像输入待训练的初始文本检测网络中进行训练处理，得到训练后的初始文本检测网络、N个特征图、及所述第二样本图像中所述孤立文本与非孤立文本的目标权重，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第二样本图像中的所述文本框进行权重调节处理，得到所述第二样本图像中所述孤立文本与非孤立文本的目标权重，包括：

7.根据权利要求1所述的

8.根据权利要求1所述的方法，其特征在于，所述若确定当前训练轮次所对应的N个第一样本图像中包括孤立文本，则对所述孤立文本进行动态增强处理之前，所述方法还包括：

9.一种文本检测方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述特征图，确定所述目标图像中文本所在的目标区域，包括：

11.一种文本检测模型的训练装置，其特征在于，包括：

12.一种文本检测装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如1-8任一项所述的文本检测模型的训练方法，或者所述可执行指令使得计算机执行如权利要求9-10任一项所述的文本检测方法。

...

【技术特征摘要】

1.一种文本检测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述孤立文本进行动态增强处理，得到待训练的n个第二样本图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述动态增强信息，动态对所述孤立文本进行数量增强处理和样式增强处理，得到待训练的n个第二样本图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述初始文本检测网络包括特征提取模块和权重调节模块；所述将所述n个第二样本图像输入待训练的初始文本检测网络中进行训练处理，得到训练后的初始文本检测网络、n个特征图、及所述第二样本图像中所述孤立文本与非孤立文本的目标权重，包括：

7.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员：范峻植，陆全，蒋宁，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人