图像处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号：34948363 阅读：26 留言：0更新日期：2022-09-17 12:24

本公开涉及一种图像处理方法、装置、存储介质及电子设备。该方法包括：获取待处理图像；将待处理图像输入目标公式检测模型，获取目标公式在待处理图像中的位置信息；根据位置信息，对待处理图像进行处理，以便获取目标公式的识别结果；其中，该待处理图像中包括一个或多个目标公式；该目标公式检测模型用于通过多头注意力机制对待处理图像进行特征提取，得到多个不同尺寸的第一特征图，并根据多个第一特征图确定目标公式在待处理图像中的位置信息。这样，可以准确识别出图像中目标公式的位置信息，提高公式识别的准确性。提高公式识别的准确性。提高公式识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
图像处理方法、装置、存储介质及电子设备

[0001]本公开涉及人工智能
，具体地，涉及一种图像处理方法、装置、存储介质及电子设备。

技术介绍

[0002]随着人工智能和计算机技术的发展，基于人工智能的文本识别方法得到了广泛的应用。在文本识别场景中，除了涉及常见的文字识别外，还会涉及到公式识别的内容。但是，相关技术中的公式识别方法存在识别准确率低的问题。

技术实现思路

[0003]本公开的目的是提供一种图像处理方法、装置、存储介质及电子设备，以部分地解决相关技术中存在的上述问题。
[0004]为了实现上述目的，本公开的第一方面提供了一种图像处理方法，所述方法包括：
[0005]获取待处理图像；所述待处理图像中包括一个或多个目标公式；
[0006]将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息；
[0007]根据所述位置信息，对所述待处理图像进行处理，以便获取所述目标公式的识别结果；
[0008]其中，所述目标公式检测模型用于通过多...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法，其特征在于，所述方法包括：获取待处理图像；所述待处理图像中包括一个或多个目标公式；将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息；根据所述位置信息，对所述待处理图像进行处理，以便获取所述目标公式的识别结果；其中，所述目标公式检测模型用于通过多头注意力机制对所述待处理图像进行特征提取，得到多个第一特征图，并根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息，所述多个第一特征图的尺寸不同。2.根据权利要求1所述的方法，其特征在于，所述目标公式检测模型包括特征提取网络，所述特征提取网络包括多个特征提取子网络，每个所述特征提取子网络对应不同的尺寸，所述多个特征提取子网络按照尺寸从大到小串行级联；所述将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息包括：将所述待处理图像输入预设最大尺寸的特征提取子网络，通过多头注意力机制对所述待处理图像进行特征提取，得到所述预设最大尺寸的第一特征图；将所述预设最大尺寸的第一特征图作为第一尺寸的第一特征图，循环执行第一特征提取步骤，直至得到预设最小尺寸的第一特征图；所述第一特征提取步骤包括：将所述第一尺寸的第一特征图输入待定特征提取子网络，通过多头注意力机制对所述第一尺寸的第一特征图进行特征提取，得到第二尺寸的第一特征图；所述待定特征提取子网络用于表征与所述第一尺寸对应的特征提取子网络相连的下一级子网络，所述第二尺寸为所述待定特征提取子网络对应的尺寸；在所述第二尺寸不是预设最小尺寸的情况下，将所述第二尺寸作为新的第一尺寸；根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息。3.根据权利要求2所述的方法，其特征在于，所述特征提取子网络包括块合并PM模块和特征变换STB模块；所述将所述第一尺寸的第一特征图输入待定特征提取子网络，通过多头注意力机制对所述第一尺寸的第一特征图进行特征提取，得到第二尺寸的第一特征图包括：将所述第一尺寸的第一特征图输入所述PM模块，对所述第一特征图进行降采样和向量长度调整后得到第一向量；将所述第一向量输入所述STB模块，得到所述第二尺寸的第一特征图。4.根据权利要求3所述的方法，其特征在于，所述STB模块包括窗口多头自注意层W
‑
MSA和移位窗口多头自注意层SW
‑
MSA。5.根据权利要求2所述的方法，其特征在于，所述目标公式检测模型还包括特征融合网络和目标输出网络；所述根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息包括：将多个所述第一特征图输入所述特征融合网络，得到第二特征图；所述第二特征图包括所述第一特征图的关键特征信息；将所述第二特征图输入所述目标输出网络，确定所述目标公式在所述待处理图像中的位置信息。6.根据权利要求5所述的方法，其特征在于，所述特征融合网络包括通道注意力模块；
所述将多个所述第一特征图输入所述特征融合网络，得到第二特征图包括：将所述第一特征图输入所述通道注意力模块，确定所述第一特征图的通道注意力权重，并根据所述通道注...

【专利技术属性】
技术研发人员：刘腾龙，
申请(专利权)人：北京开拓鸿业高科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人