一种图文识别模型的构建方法技术

技术编号：39948126 阅读：13 留言：0更新日期：2024-01-08 23:05

本发明专利技术涉及一种图文识别模型的构建方法，属于图文识别技术领域，解决了现有技术中仅通过视觉特征进行文字识别而出现文字误检和漏检的问题。方法包括：构建图文识别模型的训练数据集；所述训练数据集包括：待处理图像及对应的待处理图像中的文本信息；基于所述训练数据集训练图文识别模型得到训练好的图文识别模型；其中，所述图文识别模型包括：基础特征提取模块、视觉特征处理模块、自适应多层语义融合模块和文字识别模块。实现了有效提取图像的视觉特征与语义特征，进而提升图文识别模型的识别精度和泛化性使得文字识别更加精准。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图文识别，尤其涉及一种图文识别模型的构建方法。

技术介绍

1、近年来，随着互联网技术的飞速发展和无纸化办公的兴起，人们获取图像的方式变得越来越便捷和多样化。而在一些特定应用场合与领域，图片中往往混杂有一些敏感文本信息，如果大量包含敏感文本信息的图像在网络上的传播，会对社会的稳定发展产生一定的负面影响，给网络信息监管部门带来了巨大挑战。

2、现有文本识别模型仅仅通过视觉特征来识别文本信息，而网络上的图像形式各异，不同的图像中文字字体多样、图像的背景多样、图像模糊或者分辨率较低，以及图像的排版方式多样等，由于视觉特征与文本特征之间存在巨大的语义鸿沟，导致现有文本识别模型在识别文本信息时会出现文本识别错误或者文本识别遗漏的问题。

技术实现思路

1、鉴于上述的分析，本专利技术实施例旨在提供一种图文识别模型的构建方法，用以解决现有方式建立的文本识别模型仅通过视觉特征进行文字识别，导致在进行识别时容易出现文字误检和漏检的问题。

2、本专利技术的目的主要是通过以下技术方案实现的：

3、本专利技术提供了一种图文识别模型的构建方法，其特征在于，包括：

4、步骤s1、构建图文识别模型的训练数据集；所述训练数据集包括：样本图像及对应的样本图像中的文本信息；

5、步骤s2、基于所述训练数据集训练图文识别模型得到训练好的图文识别模型；所述训练好的图文识别模型用于基于待识别图像中的图像特征和语义特征融合后得到图像中的文字信息；其中，所述

6、进一步的，所述基础特征提取模块使用vgg-16模型，用于提取图像的基础特征，获取待处理图像的初始视觉特征f0。

7、进一步的，所述视觉特征处理模块包括特征通道聚合模块、最大池化层和前向传播层；

8、所述特征通道聚合模块用于通过聚类操作融合所述初始视觉特征f0中关注区域相近的特征；

9、所述最大池化层用于对融合后的视觉特征扩大感受野和防止过拟合；

10、所述前向传播层包括两个全连接层，两层之间通过leakyrelu激活函数相连，用于对所述最大池化层输出的特征进行加权求和以及通过激活函数的处理得到更加精细的视觉特征fv。

11、进一步的，所述特征通道聚合模块包括一个卷积层和一个全连接层；其中，

12、所述卷积层，用于提取所述初始视觉特征f0的特征；

13、所述全连接层用于对所述卷积层提取的特征进行通道级聚类，其中，通道数为所述卷积层提取的特征数；其公式如下：

14、

15、f(.)＝[f1(.),…,fi(.),…,fn(.)]

16、di(x)＝fi(w×x)

17、d(x)＝[d1,…,di,…,dc]

18、其中，和为训练集中第i个特征峰值对应的位置坐标；ω为训练样本个数；f(.)为聚类操作的结果；x为输入样本；fi(.)为全连接层；n为聚类簇数；w表示模型参数；c为所获取的特征通道数；d(x)为所有通道的权重向量。

19、进一步的，所述自适应多层语义融合模块包括一个平均池化层、三个膨胀率分别为1、2、4的空洞卷积层和一个1×1的卷积层；

20、所述平均池化层用于对初始视觉特征f0从全局感知视觉信息；

21、所述膨胀率分别为1、2、4的空洞卷积用于对初始视觉特征f0提取不同尺度感受野特征；

22、所述1×1的卷积层用于将所述平均池化层和三个所述空洞卷积输出的特征通过自适应权重对特征加权求和后的特征调节特征通道数得到图像的语义特征fs。

23、进一步的，所述自适应权重，其计算公式如下：

24、

25、其中，ω1为平均池化层的权重；ω2为膨胀率为1的空洞卷积权重；ω3为膨胀率为2的空洞卷积权重；ω4为膨胀率为4的空洞卷积权重；wi是规约后的特征权重,i＝1,2,3,4。

26、进一步的，所述文字识别模块依次包括一个级联操作层、一个层级归一化模块、多头注意力模块、另一个层级归一化模块和一个前向传播层；

27、所述级联操作层用于将量化表示后的所述训练样本对应的文本信息与所述语义特征fs在通道维度进行特征拼接，使得特征相融合，得到融合后的特征值；

28、第一个层级归一化模块用于对所述融合后的特征值进行归一化操作得到归一化特征fn；

29、多头注意力模块通过融合多个自注意力子模块用于捕捉所述归一化特征fn和所述语义特征fs的不同特征和模式，使得模型捕捉到更加丰富的特征信息；

30、另一个层级归一化模块用于对所述多头注意力模块的输出特征fa与所述归一化特征fn进行无纲量化处理，得到层级归一化特征fm；

31、所述前向传播层包括两个全连接层，两层之间通过leakyrelu激活函数相连，用于对所述层级归一化特征fm进行加权求和以及通过激活函数得到所述样本图像中所含文本信息。

32、进一步的，所述多头注意力模块包括三个头的自注意力模块，其中：

33、所述语义特征fs作为第一个头的自注意力模块复制得到语义特征fs′为第二个头的自注意力模块；

34、所述第一个头的自注意力模块与第二个头的自注意力模块的转置做点乘后，除以语义特征fs的特征维度做归一化处理；

35、所述归一化后结果通过softmax函数后与所述归一化特征fn作为第三个头的自注意力模块进行矩阵相乘，得到输出特征fa。

36、进一步的，所述级联操作层还包括一个词向量映射层，用于将所述训练集对应的文本信息做量化表示。

37、进一步的，所述训练图文识别模型，包括：

38、加载所述训练数据集的待处理图片到基础特征提取模块中，经过视觉特征处理模块与自适应多层语义融合模块，得到视觉特征fv和语义特征fs；

39、加载所述训练数据集对应的文本信息作为标签与所述视觉特征fv、语义特征fs输入到图文识别模块得到图文识别结果；

40、使用交叉熵损失函数作为损失函数训练图文识别模型，通过反向传播和梯度下降优化算法，模型能够不断调整参数以最小化损失函数，训练结束后保存图文识别模型参数。

41、与现有技术相比，本专利技术至少可实现如下有益效果之一：

42、1、本专利技术在构建图文识别模型时提出了构建特征通道聚合模块，通过聚类操作将关注区域相近的特征融合为紧致、易区分的部分；该模块可以自适应地选择敏感区域进行感知识别，并使区域特征更为凸显。

43、2、本专利技术在构建图文识别模型时提出了构建自适应多层语义融合模块，通过模块中不同大小的感受野提取图像中不同语义信息，并通过训练使得模型自主学习得到相应的特征权重，从而提高语义识别的精确度。

44、3、本专利技术在构建图文识别模型时引入多头注意力机制，多本文档来自技高网...

【技术保护点】

1.一种图文识别模型的构建方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，所述基础特征提取模块使用VGG-16模型，用于提取图像的基础特征，获取待处理图像的初始视觉特征F0。

3.根据权利要求2所述方法，其特征在于，所述视觉特征处理模块包括特征通道聚合模块、最大池化层和前向传播层；

4.根据权利要求3所述方法，其特征在于，所述特征通道聚合模块包括一个卷积层和一个全连接层；其中，

5.根据权利要求3所述方法，其特征在于，所述自适应多层语义融合模块包括一个平均池化层、三个膨胀率分别为1、2、4的空洞卷积层和一个1×1的卷积层；

6.根据权利要求5所述方法，其特征在于，所述自适应权重，其计算公式如下：

7.根据权利要求5所述方法，其特征在于，所述文字识别模块依次包括一个级联操作层、一个层级归一化模块、多头注意力模块、另一个层级归一化模块和一个前向传播层；

8.根据权利要求7所述方法，其特征在于，所述多头注意力模块包括三个头的自注意力模块，其中：

9.根据权利要求7所述方法，

10.根据权利要求1所述方法，其特征在于，所述训练图文识别模型，包括：

...

【技术特征摘要】

1.一种图文识别模型的构建方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，所述基础特征提取模块使用vgg-16模型，用于提取图像的基础特征，获取待处理图像的初始视觉特征f0。

3.根据权利要求2所述方法，其特征在于，所述视觉特征处理模块包括特征通道聚合模块、最大池化层和前向传播层；

4.根据权利要求3所述方法，其特征在于，所述特征通道聚合模块包括一个卷积层和一个全连接层；其中，

5.根据权利要求3所述方法，其特征在于，所述自适应多层语义融合模块包括一个平均池化层、三个膨胀率分别为1、2、4的空洞卷积层和一个1×1的...

【专利技术属性】
技术研发人员：王东豪，柴振达，闫贯博，高晓琼，李姝，
申请(专利权)人：北京京航计算通讯研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人