一种特殊字体的互联网自动识别方法及系统技术方案

技术编号:38155843 阅读:8 留言:0更新日期:2023-07-13 09:24
本发明专利技术公开了一种特殊字体的互联网自动识别方法及系统,涉及文字识别技术领域。该方法包括:构建初始识别模型,在初始识别模型之上增加一个新的语言预测网络LPN,以得到多路复用模型;为多路复用模型构建单独的识别头去处理来自不同语言的单词,从中选择或组合预测;获取并基于多个不同语言和目标特殊字体的已标注数据集进行语言预测网络LPN和识别头的并行训练,确定多路复用模型的损失函数;利用深度学习当中的微调技术进行目标特殊字体版面数据的标注与获取,并进行版面分析模型训练,以得到目标特殊字体版面分析模型;采用目标特殊字体版面分析模型对目标特殊字体进行识别。本发明专利技术采用多路复用模型对特殊字体进行高效精准的识别。高效精准的识别。高效精准的识别。

【技术实现步骤摘要】
一种特殊字体的互联网自动识别方法及系统


[0001]本专利技术涉及文字识别
,具体而言,涉及一种特殊字体的互联网自动识别方法及系统。

技术介绍

[0002]针对一些特殊字体混合(例如蒙古文与其他多文种混合)文本识别通常可以分为三个子任务:文本检测、文种识别和文本识别。文本检测通常是理解图像中文本内容的第一阶段,期的方法通常使用由人工设计的特征或启发法组成,例如连接组件或滑动窗口,后来出现的早期的深度学习模型使用卷积网络与上述方法相结合使用。多语言场景中的文本识别通常需要文种识别来确定文本识别的语言。一旦文本通过检测被定位,该区域被认定为需要被识别的文本并进行裁剪,然后被馈送到文本识别系统以作为字符或单词序列进行识别和读取。
[0003]现有技术中一般是将上述三个子任务单独进行考虑,然后被链接在一起使用,但是这种方式存在一些不足:各个任务之间消耗的数据量过大,且容易出现对接误差;识别效率低下,识别效果不好。

技术实现思路

[0004]为了克服上述问题或者至少部分地解决上述问题,本专利技术提供一种特殊字体的互联网自动识别方法及系统,采用多路复用模型对特殊字体进行高效精准的识别。
[0005]为解决上述技术问题,本专利技术采用的技术方案为:
[0006]第一方面,本专利技术提供一种特殊字体的互联网自动识别方法,包括以下步骤:
[0007]基于Mask TextSpotter V3识别模型的检测和分割模块以及空间注意力模块构建初始识别模型,在初始识别模型之上增加一个新的语言预测网络LPN,以得到多路复用模型;
[0008]为多路复用模型构建单独的识别头去处理来自不同语言的单词,从中选择或组合预测;
[0009]获取并基于多个不同语言和目标特殊字体的已标注数据集进行语言预测网络LPN和识别头的并行训练,确定多路复用模型的损失函数;
[0010]利用深度学习当中的微调技术进行目标特殊字体版面数据的标注与获取,并进行版面分析模型训练,以得到目标特殊字体版面分析模型;
[0011]采用目标特殊字体版面分析模型对目标特殊字体进行识别。
[0012]本方法是在现有的Mask TextSpotter V3识别模型的基础上进行的进一步研发,构建一个融合了文本检测、文中识别以及文本识别为一体的多路复用模型,进而进行高效精准的特殊字体识别,该多路复用模型采用与Mask TextSpotter V3识别模型相同的检测和分割模块,并在此基础上添加了一个新的语言预测网络,该网络可确定多路复用器选择哪个脚本的识别头;该模型采用空间注意力模块进行文本识别;为了将多路复用模型从仅
一种语言扩展到多语言,构建单独的识别头来处理来自不同语言的单词,然后从中选择或组合预测,大大提高了扩展面。为了进一步提高识别准确性,基于标注数据集信息语言预测网络LPN和识别头的并行训练,确定多路复用模型的损失函数,以消除纠缠损失;在此基础上,还涉及到数据的标注与训练,利用深度学习当中的微调技术进行目标特殊字体版面数据的标注与获取,并进行训练,以得到对应的目标特殊字体版面分析模型,并基于此进行特殊字体的高效精准识别。
[0013]基于第一方面,进一步地,上述语言预测网络LPN的输入为检测和分割模块的掩码集合特征。
[0014]基于第一方面,进一步地,上述语言预测网络LPN的输出用于确定多路复用模型选择何种脚本的识别头。
[0015]基于第一方面,进一步地,上述语言预测网络LPN包括两个2
×
2卷积层加ReLU激活函数和一个2
×
2池化层。
[0016]基于第一方面,进一步地,上述利用深度学习当中的微调技术进行目标特殊字体版面数据的标注与获取,并进行版面分析模型训练,以得到目标特殊字体版面分析模型的方法包括以下步骤:
[0017]录入人工标注的目标特殊字体版面数据和预置的英文版面标注数据,进行版面分析模型训练,以得到目标版面分析模型;
[0018]采用预置的初始特殊字体版面模型对目标版面分析模型进行调整,采用调整后的目标版面分析模型对目标特殊字体版面数据进行识别,以得到识别结果;
[0019]获取并根据人工对识别结果的审核信息确定目标特殊字体版面标注数据,并对模型进行训练,以得到目标特殊字体版面分析模型。
[0020]第二方面,本专利技术提供一种特殊字体的互联网自动识别系统,包括模型构建模块、识别头构建模块、损失函数确定模块、数据标注训练模块以及字体识别模块,其中:
[0021]模型构建模块,用于基于Mask TextSpotter V3识别模型的检测和分割模块以及空间注意力模块构建初始识别模型,在初始识别模型之上增加一个新的语言预测网络LPN,以得到多路复用模型;
[0022]识别头构建模块,用于为多路复用模型构建单独的识别头去处理来自不同语言的单词,从中选择或组合预测;
[0023]损失函数确定模块,用于获取并基于多个不同语言和目标特殊字体的已标注数据集进行语言预测网络LPN和识别头的并行训练,确定多路复用模型的损失函数;
[0024]数据标注训练模块,用于利用深度学习当中的微调技术进行目标特殊字体版面数据的标注与获取,并进行版面分析模型训练,以得到目标特殊字体版面分析模型;
[0025]字体识别模块,用于采用目标特殊字体版面分析模型对目标特殊字体进行识别。
[0026]本系统通过模型构建模块、识别头构建模块、损失函数确定模块、数据标注训练模块以及字体识别模块等多个模块的配合,在现有的Mask TextSpotter V3识别模型的基础上进行的进一步研发,构建一个融合了文本检测、文中识别以及文本识别为一体的多路复用模型,进而进行高效精准的特殊字体识别,该多路复用模型采用与Mask TextSpotter V3识别模型相同的检测和分割模块,并在此基础上添加了一个新的语言预测网络,该网络可确定多路复用器选择哪个脚本的识别头;该模型采用空间注意力模块进行文本识别;为了
将多路复用模型从仅一种语言扩展到多语言,构建单独的识别头来处理来自不同语言的单词,然后从中选择或组合预测,大大提高了扩展面。为了进一步提高识别准确性,基于标注数据集信息语言预测网络LPN和识别头的并行训练,确定多路复用模型的损失函数,以消除纠缠损失;在此基础上,还涉及到数据的标注与训练,利用深度学习当中的微调技术进行目标特殊字体版面数据的标注与获取,并进行训练,以得到对应的目标特殊字体版面分析模型,并基于此进行特殊字体的高效精准识别。
[0027]第三方面,本申请提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器;当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
[0028]第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
[0029]本专利技术至少具有如下优点或有益效果:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特殊字体的互联网自动识别方法,其特征在于,包括以下步骤:基于Mask TextSpotter V3识别模型的检测和分割模块以及空间注意力模块构建初始识别模型,在初始识别模型之上增加一个新的语言预测网络LPN,以得到多路复用模型;为多路复用模型构建单独的识别头去处理来自不同语言的单词,从中选择或组合预测;获取并基于多个不同语言和目标特殊字体的已标注数据集进行语言预测网络LPN和识别头的并行训练,确定多路复用模型的损失函数;利用深度学习当中的微调技术进行目标特殊字体版面数据的标注与获取,并进行版面分析模型训练,以得到目标特殊字体版面分析模型;采用目标特殊字体版面分析模型对目标特殊字体进行识别。2.根据权利要求1所述的一种特殊字体的互联网自动识别方法,其特征在于,所述语言预测网络LPN的输入为检测和分割模块的掩码集合特征。3.根据权利要求1所述的一种特殊字体的互联网自动识别方法,其特征在于,所述语言预测网络LPN的输出用于确定多路复用模型选择何种脚本的识别头。4.根据权利要求1所述的一种特殊字体的互联网自动识别方法,其特征在于,所述语言预测网络LPN包括两个2
×
2卷积层加ReLU激活函数和一个2
×
2池化层。5.根据权利要求1所述的一种特殊字体的互联网自动识别方法,其特征在于,所述利用深度学习当中的微调技术进行目标特殊字体版面数据的标注与获取,并进行版面分析模型训练,以得到目标特殊字体版面分析模型的方法包括以下步骤:录入人工标注的目标特殊字体版面数据和预置的英文版面标注数据,进行版面分析模型训练,以得到目标版面分析模型;...

【专利技术属性】
技术研发人员:胡其吐白双成
申请(专利权)人:内蒙古自治区社会科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1