基于双向特征语言模型的自然场景文本识别方法及装置制造方法及图纸

技术编号:28296502 阅读:49 留言:0更新日期:2021-04-30 16:21
一种基于双向特征语言模型的自然场景文本识别方法及装置,方法包括将文本图像输入至视觉模型中,得到视觉特征及视觉预测结果;将视觉预测结果输入至语言模型中,进行双向特征提取,得到语言特征;迭代地执行以下操作:将语言特征和视觉特征输入至融合模型中,得到融合预测结果;确定迭代次数是否满足迭代预设阈值;在迭代次数未满足迭代预设阈值的条件下,将融合预测结果输入至语言模型中,进行双向特征提取,得到语言特征;以及在迭代次数满足迭代预设阈值的条件下,将融合预测结果作为最终结果。本发明专利技术提出的文本识别方法识别精度高且效率高。

【技术实现步骤摘要】
基于双向特征语言模型的自然场景文本识别方法及装置
本专利技术涉及文本识别
,更具体地,涉及一种基于双向特征语言模型的自然场景文本识别方法及装置。
技术介绍
拥有从自然场景图像中阅读文本的能力对实现人工智能来说至关重要。为此,早期的方法将文本识别中的字符当作没有意义的符号,并通过计算机视觉模型进行分类。然而,这样的方法在复杂的场景,如包含模糊、噪声、遮挡等的环境中效果较差。因而,不少方法尝试引入语言先验知识进行识别,并取得了较好的效果。当前基于语言模型的文本识别方法:1)其语言模型从结构上来看均为单向语言模型。尽管有些方法使用一个前向及一个反向语言模型进行集成得到双向的语言模型,但该模型从特征提取角度来说依然是单向的特征表达。然而,单向语言模型的特征表达能力较差,并且计算量较大。2)当前的文本识别方法在语言模型的建模方面均以隐性语言建模为主,导致语言模型的建模能力及可解释性较差。而传统的n-gram语言模型虽然为显性建模,但却做不到端到端训练。3)当前的语言模型难以实现迭代修正的方法。
技术实现思路
有鉴于此,本本文档来自技高网...

【技术保护点】
1.一种基于双向特征语言模型的自然场景文本识别方法,其特征在于,包括:/n将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,所述视觉预测结果表征所述文本图像中的文本信息对应的预测结果;/n将所述视觉预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征;/n迭代地执行以下操作:/n将所述语言特征和所述视觉特征输入至所述文本识别网络的融合模型中,得到融合预测结果;/n确定迭代次数是否满足迭代预设阈值;/n在所述迭代次数未满足所述迭代预设阈值的条件下,将所述融合预测结果输入至所述语言模型中,进行双向特征提取,得到所述语言特征;以及/n在所述迭代次数满足...

【技术特征摘要】
1.一种基于双向特征语言模型的自然场景文本识别方法,其特征在于,包括:
将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,所述视觉预测结果表征所述文本图像中的文本信息对应的预测结果;
将所述视觉预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征;
迭代地执行以下操作:
将所述语言特征和所述视觉特征输入至所述文本识别网络的融合模型中,得到融合预测结果;
确定迭代次数是否满足迭代预设阈值;
在所述迭代次数未满足所述迭代预设阈值的条件下,将所述融合预测结果输入至所述语言模型中,进行双向特征提取,得到所述语言特征;以及
在所述迭代次数满足所述迭代预设阈值的条件下,将所述融合预测结果作为最终结果。


2.根据权利要求1所述的方法,其特征在于,
所述语言模型包括多头注意力模块,所述多头注意力模块包括注意力掩码矩阵;
其中,所述多头注意力模块利用注意力掩码矩阵控制所述视觉预测结果或者融合预测结果的双向特征访问。


3.根据权利要求1或2所述的方法,其特征在于,
所述语言模型和所述视觉模型之间通过梯度阻塞的方式实现所述视觉模型和所述语言模型的分离;
所述视觉模型输出的所述视觉预测结果为概率向量;
所述语言模型输出的所述语言预测结果为概率向量;
所述融合模型输出的所述融合预测结果为概率向量。


4.根据权利要求2所述的方法,其特征在于,
将所述视觉预测结果或者所述融合预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征包括:
利用概率映射将所述视觉预测结果或者所述融合预测结果进行处理,得到字符特征向量;
获取所述文本图像的字符位置特征向量;
利用所述注意力掩码矩阵对所述视觉预测结果或者融合预测结果进行掩码处理,得到双向表达特征向量;
将所述字符特征向量、字符位置特征向量和所述双向表达特征向量输入至所述语言特征模型的多层堆叠的多头注意力模块中,得到语言预测结果。


5.根据权利要求1所述的方法,其特征在于,
所述文本识别网络通过以下操作训练:
获取训练样本数据集;其中,所述训练样本数据集包括有标注文本图像数据集和无标注文本图像数据集;
搭建初始文本识别网络和损失函数;其中,所述视觉模型与所述语言模型梯度阻塞;以及
利用所述训练样本数据集和所述损失函数训练所述初始文本识别网络,得到所述文本识别网络。


6.根据权利要求5所述的方法,所述利用所...

【专利技术属性】
技术研发人员:张勇东方山城谢洪涛
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1