模型训练方法、图像处理方法、装置、设备及存储介质制造方法及图纸

技术编号：40905086 阅读：5 留言：0更新日期：2024-04-18 14:36

本发明专利技术公开了模型训练方法、图像处理方法、装置、设备及存储介质，在本发明专利技术中，搭建出一个综合文本检测模型，在该综合文本检测模型中包括主干网络、特征融合网络、布局分析检测头和文本检测头。通过对一个文本检测模型进行文本检测训练，从而将所得的模型参数对综合文本检测模型中的主干网络、特征融合网络和文本检测头进行初始化。通过对初始化后的综合文本检测模型进行文本检测和文本布局分析训练，从而得到训练好的综合文本检测模型。训练所得的综合文本检测模型能够同时进行布局分析和文本检测。布局分析和文本检测共享综合文本检测模型中的主干网络、特征融合网络，从而实现计算资源的节约，可大大缩短模型运行时间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，特别是涉及模型训练方法、图像处理方法、装置、设备及存储介质。

技术介绍

1、阅读和理解自然场景图像以及数字文档图像中的文本及其内容是计算机视觉领域内一项重要的任务，这项技术被广泛应用于智能文档处理应用中。在智能文档分析处理领域，通常需要将文档图像进行分析识别和处理，以获取文档内容的文字信息及版面信息。即，对文档图像进行分析识别和处理包括两个方面：其一，定位文档中的文字坐标，以便于后续的文字识别和其他的自然语言处理任务，这项任务通常被定义为文本检测；其二、将文档的结构进行解析，这项任务通常被定义为文档布局分析(document layout analysis)。

2、文本检测和文档布局分析一直被视为图像处理领域中的两项独立任务。虽然，现有的文本检测算法在定位单个文本实体上取得了巨大的成功，但是，视觉文本理解，与文本检测算法相差甚远，无法直接沿用文本检测算法定位单个文本实体的方案。

3、综上所述，如何有效地解决合并图像处理领域中文本检测和文档布局分析任务等问题，是目前本领域技术人员急需解决的技术问题。

技术实现思路

1、本专利技术的目的是提供模型训练方法、图像处理方法、装置、设备及存储介质，能够训练出可同时进行文本检测和文档布局分析的综合文本检测模型，可以简化文档图像处理流程，节约计算资源。

2、为解决上述技术问题，本专利技术提供如下技术方案：

3、一种模型训练方法，包括：

4、搭建综合文本检测模型；其

5、利用文本检测数据集，对文本检测模型进行文本检测训练后，得到模型参数；

6、利用所述模型参数，初始化所述综合文本检测模型中的所述主干网络、所述特征融合网络和所述文本检测头；

7、完成模型初始化后，利用综合训练数据对所述综合文本检测模型进行文本检测和文本布局分析训练，以得到训练好的综合文本检测模型。

8、优选地，利用所述模型参数，初始化所述综合文本检测模型中的所述主干网络、所述特征融合网络和所述文本检测头，包括：

9、基于所述模型参数，对所述综合文本检测模型中的所述主干网络、所述特征融合网络和所述文本检测头的参数进行赋值；

10、随机初始化所述布局分析检测头中的参数。

11、优选地，利用综合训练数据对所述综合文本检测模型进行文本检测和文本布局分析训练，包括：

12、获取文本检测数据集和布局分析数据集；

13、拼接所述文本检测数据集和所述布局分析数据集，得到所述综合训练数据；

14、利用所述综合训练数据，训练所述综合文本检测模型。

15、优选地，拼接所述文本检测数据集和所述布局分析数据集，得到所述综合训练数据，包括：

16、按照预设比例，从分别所述文本检测数据集和所述布局分析数据集读取样本，得到每个批度的所述综合训练数据。

17、优选地，利用综合训练数据对所述综合文本检测模型进行文本检测和文本布局分析训练，包括：

18、利用所述主干网络，提取所述综合训练数据对应多个不同尺度的特征图；

19、利用所述特征融合网络，对所述多个不同尺度的特征图上采样到统一尺寸，并经过卷积操作后级联拼接为强化特征图；

20、将所述强化特征图分为文本检测特征图和布局分析特征图；

21、利用所述文本检测头，对所述文本检测特征图进行分类，得到文本检测训练结果；

22、利用所述布局分析检测头，对所述布局分析特征图进行处理，得到布局分析训练结果；

23、将所述文本检测特征图输入所述文本检测头，对所述文本检测特征图预测文本概率图和文本阈值图，通过可微分二值化算法得到文本二值图，从而实现分割，得到文本框坐标；

24、将所述布局分析特征图输入所述布局分析检测头，对所述布局分析特征图预测布局概率图和布局阈值图，通过可微分二值化算法得到布局二值图，从而实现布局分析，得到多类感兴趣区域坐标；

25、计算当前综合文本检测模型的损失值，并基于所述损失值对当前综合文本检测模型的模型参数进行调整。

26、优选地，计算当前综合文本检测模型的损失值，包括：

27、基于所述文本概率图、所述文本阈值图和所述文本二值图，计算文本检测损失；

28、基于所述布局概率图、所述布局阈值图和所述布局二值图，计算布局检测损失；

29、叠加所述文本检测损失和所述布局检测损失，得到所述损失值。

30、一种图像处理方法，包括：

31、获取文档图像；

32、利用如上述模型训练方法所训练好的综合文本检测模型，对所述文档图像进行处理，得到文本检测结果和布局分析结果。

33、一种模型训练装置，包括：

34、搭建模块，用于搭建综合文本检测模型；其中，所述综合文本检测模型包括主干网络、特征融合网络、布局分析检测头和文本检测头；

35、初始训练模块，用于利用文本检测数据集，对文本检测模型进行文本检测训练后，得到模型参数；

36、初始化模块，用于利用所述模型参数，初始化所述综合文本检测模型中的所述主干网络、所述特征融合网络和所述文本检测头；

37、训练模块，用于完成模型初始化后，利用综合训练数据对所述综合文本检测模型进行文本检测和文本布局分析训练，以得到训练好的综合文本检测模型。

38、一种图像处理装置，包括：

39、图像获取模块，用于获取文档图像；

40、分析模块，用于利用如上述模型训练方法所训练好的综合文本检测模型，对所述文档图像进行处理，得到文本检测结果和布局分析结果。

41、一种电子设备，包括：

42、存储器，用于存储计算机程序；

43、处理器，用于执行所述计算机程序时，实现如上述模型训练方法的步骤，或，实现如上述图像处理方法的步骤。

44、一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述模型训练方法的步骤，或，实现如上述图像处理方法的步骤。

45、应用本专利技术实施例所提供的方法，搭建综合文本检测模型；其中，综合文本检测模型包括主干网络、特征融合网络、布局分析检测头和文本检测头；利用文本检测数据集，对文本检测模型进行文本检测训练后，得到模型参数；利用模型参数，初始化综合文本检测模型中的主干网络、特征融合网络和文本检测头；完成模型初始化后，利用综合训练数据对综合文本检测模型进行文本检测和文本布局分析训练，以得到训练好的综合文本检测模型。

46、在本专利技术中，搭建出一个综合文本检测模型，在该综合文本检测模型中包括主干网络、特征融合网络、布局分析检测头和文本检测头。为了使得综合文本检测模型中的布局分析检测和文本检测的精度不受本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，利用所述模型参数，初始化所述综合文本检测模型中的所述主干网络、所述特征融合网络和所述文本检测头，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，利用综合训练数据对所述综合文本检测模型进行文本检测和文本布局分析训练，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，拼接所述文本检测数据集和所述布局分析数据集，得到所述综合训练数据，包括：

5.根据权利要求1至4任一项所述的模型训练方法，其特征在于，利用综合训练数据对所述综合文本检测模型进行文本检测和文本布局分析训练，包括：

6.根据权利要求5所述的模型训练方法，其特征在于，计算当前综合文本检测模型的损失值，包括：

7.一种图像处理方法，其特征在于，包括：

8.一种模型训练装置，其特征在于，包括：

9.一种图像处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

11.一种可读存储介质，其特征

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，利用综合训练数据对所述综合文本检测模型进行文本检测和文本布局分析训练，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，拼接所述文本检测数据集和所述布局分析数据集，得到所述综合训练数据，包括：

5.根据权利要求1至4任一项所述的模型训练方法，其特征在于，利用综合训练数据对所述综...

【专利技术属性】
技术研发人员：祝蕾，吴杰，
申请(专利权)人：中电科网络安全科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人