【技术实现步骤摘要】
一种基于多层次特征选择的自然场景文本识别方法
[0001]本专利技术属于计算机视觉领域,具体涉及一种基于多层次特征选择的自然场景文本识别方法,。
技术介绍
[0002]场景文本识别作为计算机视觉领域中一个研究方向,随着深度学习的发展,在无人驾驶、智能生活等商业领域广泛应用,但是由于自然场景环境的复杂性,会存在很多模糊、弯曲、倾斜的文本内容。传统的场景文本识别算法通常是按顺序依次每个文本字符的识别,但是这个方法有很大的局限性,自然场景中的文本字符难以分割,且传统方法不依赖于上下文之间的依赖关系和字符之间的顺序建模,导致识别效果不理想。现代的场景文本识别是基于整个单词的识别,将文本图片切分成序列进行预测,避免了每个字符需要单独注释的必要,相比于传统方法能达到更高的准确率。
技术实现思路
[0003]本专利技术的目的是:当前场景文本识别方法大多数使用编码器
‑
解码器方法,并且只将视觉特征和上下文特征关联起来,而忽略了全局的语义特征,且极少挖掘多种特征之间的隐藏联系来辅助文本识别。为了实现上述目的, ...
【技术保护点】
【技术特征摘要】
1.一种基于多层次特征选择的自然场景文本识别方法,其特征在于,包括以下步骤:步骤1:将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像,通过人工标记得到每幅图像中多个文本外接矩形边框,通过每幅图像构建场景文本图像训练集,人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签;步骤2:引入多层次特征提取残差网络,将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像,且在每幅网格化处理后的图像中引入锚框,每个锚框以网格为中心用来辅助预测文本框的坐标,将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测,通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标,将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框,从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框,且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息;将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来,得到每个预测的文本外接矩形框中的文本内容所属的文字类别,将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别,及每幅图像生成的Q个网格及对应的B个锚框,将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框,构建多级特征提取残差网络的损失函数,进一步通过Adam算法优化训练得到优化后多层特征提取残差网络;步骤3:将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中,得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别,将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map
‑
sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集,场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集;最后将这三个特征序列集结合起来构建一个多层次特征序列集;步骤4:将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作,场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集,多层次特征序列集中的每一个序列都对应所属的文本类别,再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果,构建多层次注意力解码器的损失函数,进一步通过Adam算法优化训练得到优化后多层次注意力解码器。
2.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框,具体为:具体为:具体为:其中,表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标;表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标;I
j
表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量;J表示图像的数量;步骤1所场景文本图像训练集中类别为:classify
j,i
其中,classify
j,i
表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别;步骤1所述的场景文本图像训练集为:其中,data
j
(x,y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息,classify
j,i
表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。3.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成;每个卷积块由BN层、Relu激活函数层级联构成;步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定,利用网格和锚框进行预测文本的框定和分类;表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文
本外接矩形边框中第m个网格预测的右下角纵坐标;表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;步骤2所述多层特征提取残差网络损失函数模型由目标边界框损失函数和分类损失函数构成;所述目标边界框损失的定义为:其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,m表示Q中的的其中第...
【专利技术属性】
技术研发人员:李利荣,张开,陈鹏,张云良,周蕾,乐玲,熊炜,丁江,梅冰,
申请(专利权)人:湖北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。