基于基线定位与序列建模的自然场景下的藏文识别方法技术

技术编号:35072958 阅读:12 留言:0更新日期:2022-09-28 11:36
本发明专利技术属于文本识别技术领域,具体涉及一种基于基线定位与序列建模的自然场景下的藏文识别方法,本发明专利技术包括:1)构建自然场景下的藏文图像数据集并进行标注;2)扩充数据集并对数据集图像进行预处理;3)构建基线检测器,对藏文文本的基线位置进行定位;4)构建特征提取器,使用不同的特征提取方法获取横竖排文本图像的序列特征表示;5)构建基于TCN的序列建模网络,建模序列关系;6)构建CTC转录模块,将表征序列关系的输出特征送入转录层得到藏文识别的结果。本发明专利技术通过上述技术方案,极大的增强了特征提取、序列关系建模的有效性,提高了序列的并行处理能力,进而提高了自然场景下藏文识别的精度和效率。文识别的精度和效率。文识别的精度和效率。

【技术实现步骤摘要】
基于基线定位与序列建模的自然场景下的藏文识别方法


[0001]本专利技术涉及文本识别、计算机视觉和深度学习领域,特别是涉及一种基于基线定位与序列建模的自然场景下的藏文识别方法。

技术介绍

[0002]在当前数字化时代背景下,人们生活和生产中需要处理大量的文本信息,耗费大量的精力与时间。在此情况下,对文本内容的智能识别具有较高的研究价值与应用价值。自然场景下的文本识别被广泛运用于文献资料检索、阅读、信息识别、机器翻译等任务上,是计算机视觉领域的一项关键任务。藏文是一种历史悠久、应用广泛的文字,对于藏文文本的识别具有重要的研究价值与意义。然而,当前自然场景下的文本识别方法主要针对中文、英文,对藏文识别的研究较少。
[0003]目前对自然场景下藏文的识别主要基于深度学习算法,主流的方法是使用卷积循环神经网络完成藏文的识别。这类方法通过卷积神经网络提取特征之后送入循环神经网络中建模序列关系,最后转录输出识别结果。然而这类方法会将特征沿高度方向进行压缩,无法实现竖排藏文的识别,且受循环神经网络自身的序列结构特性限制,必须将按时间顺序进行逐步推理,无法进行大规模的并行处理,计算耗时耗力。此外,由于能够采集到的自然场景藏文图像有限,导致模型训练不充分,性能较差。因此,现有的自然场景下的藏文识别方法效率和精度普遍较低。

技术实现思路

[0004]针对现有技术中自然场景下的藏文图像数据不足,藏文识别精度、效率较低且无法识别竖排文字的问题,本专利技术拟提供一种基于基线定位与序列建模的自然场景下的藏文识别方法,其目的在于,提供一种合成算法扩充数据集缓解数据不足对模型训练的影响,通过基线定位、窗口划分实现竖排文本的识别,使用并列、双向的TCN网络在保证序列相关信息提取能力的同时,支持并行处理,提升藏文识别的性能,改善现有方法存在的问题。
[0005]本专利技术采用的技术方案如下:
[0006]一种基于基线定位与序列建模的自然场景下的藏文识别方法,包括:
[0007]步骤1:采集包含藏文文本的自然场景图像,裁剪出其中所有的藏文文本图像块,对藏文文本图像块进行透视变换之后进行文本基线和内容标注,得到藏文文本图像基本数据集;
[0008]步骤2:通过图像合成算法合成藏文文本图像扩充数据集,并对藏文文本图像基本数据集和藏文文本图像扩充数据集进行预处理;
[0009]步骤3:基于卷积神经网络构建文本基线检测器,利用文本基线检测器提取藏文文本图像特征,预测文本的基线高度位置并经后处理后得到基线定位结果;
[0010]步骤4:根据步骤3中的基线定位结果判断文本类型,构建对应不同文本类型的特征提取网络,获取藏文文本图像的序列特征;
[0011]步骤5:构建基于两个并列、反向的TCN网络的序列建模网络,将步骤4提取的序列特征送入两个TCN网络,得到表征序列关系的输出特征;
[0012]步骤6:基于CTC算法构建CTC转录模块,将步骤5中的输出特征送入CTC转录模块得到藏文识别结果,并基于识别结果通过联合损失函数对模型进行优化。
[0013]进一步的,步骤1的具体步骤为:
[0014]步骤1.1:从网络地图、社交软件、搜索引擎上采集包含藏文文本的自然场景图像;
[0015]步骤1.2:裁剪出其中所有的藏文文本图像块,并且透视变换至正视角图像,对其中文本的基线高度位置和内容进行标注,得到藏文文本图像基本数据集。
[0016]进一步的,步骤2中通过图像合成算法合成藏文文本图像扩充数据集的具体步骤为:
[0017]步骤2.1:从藏文网站采集藏文文本数据并去除其中的非藏文字符;
[0018]步骤2.2:将步骤2.1的文本数据随机切分成不同长度的藏文文本,构建横排文本数据库;
[0019]步骤2.3:将步骤2.1的文本数据按照藏文音节分隔符分割成单个音节,构建竖排文本数据库;
[0020]步骤2.4:采集不含文本的自然场景图像,构建自然场景背景库;
[0021]步骤2.5:合成藏文文本图像:对于横排文本,随机从横排文本数据库中选择藏文文本渲染至自然场景背景库中的自然场景图像上;对于竖排文本,随机从竖排文本数据库中选择3~5个藏文音节从上往下渲染至自然场景背景库中的的自然场景图像上;
[0022]步骤2.6:从步骤2.5中合成的藏文文本图像中裁剪出文本区域,并记录文本的基线高度和文本的内容,得到藏文文本图像扩充数据集。
[0023]进一步的,步骤2中预处理的具体步骤为:
[0024]将藏文文本图像基本数据集和藏文文本图像扩充数据集中的藏文文本图像分辨率修改为320
×
320,按照r1:r2划分训练集与测试集,对于训练集的图像,以概率p
s
随机给图像添加高斯噪声进行数据增强。
[0025]进一步的,步骤3中利用文本基线检测器提取藏文文本图像特征的具体步骤如下:
[0026]步骤3.1:对于形状为3
×
H
×
W的输入图像数据,使用文本基线检测器提取藏文文本块特征,将其形状变换至C
×
H
×
W/4,C为特征维度,H为图像高度,W为图像宽度;
[0027]步骤3.2:将藏文文本块特征通过全局平均池化层进一步压缩宽度信息,再通过全连接层经Sigmoid激活后预测基线分布在图像中某一高度的概率p,其表达式为:
[0028]p=Sigmoid(FC(GAP(X
f
)))
[0029]其中X
f
表示特征;
[0030]步骤3.3:设置概率阈值为p
thres
,若概率p的值大于p
thres
则认定该高度处存在基线,同时设置间距阈值D对相近像素进行合并,从而得到基线的数量N
L
以及位置信息P
N
,基于二元交叉熵损失对基线检测器进行优化,具体如下:
[0031][0032]其中,y
h
表示高度h处的标签值,p
h
为网络预测出的高度h处存在基线的概率。
[0033]进一步的,步骤4的具体步骤为:
[0034]步骤4.1:根据步骤3中的基线定位结果判断图像中文本的类型,若只检测出一条基线则判定为横排文本,否则判定为竖排文本;
[0035]步骤4.2:对于判定为横排文本的图像,基于MobileNetV3提取文本图像序列特征;对于判定为竖排文本的图像,首先根据基线数量将其切分成N
L
个窗口,将窗口缩放成32
×
320大小,分窗口基于MobileNetV3提取序列特征,然后将窗口特征沿序列长度方向拼接并通过全局平均池化层调整序列长度。
[0036]进一步的,步骤5中的具体步骤为:
[0037]步骤5.1:将步骤4提取出的序列特征分别送入两路并列、反向的TCN网络得到表征序列关系的输出特征和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,包括:步骤1:采集包含藏文文本的自然场景图像,裁剪出其中所有的藏文文本图像块,对藏文文本图像块进行透视变换之后进行文本基线和内容标注,得到藏文文本图像基本数据集;步骤2:通过图像合成算法合成藏文文本图像扩充数据集,并对藏文文本图像基本数据集和藏文文本图像扩充数据集进行预处理;步骤3:基于卷积神经网络构建文本基线检测器,利用文本基线检测器提取藏文文本图像特征,预测文本的基线高度位置并经后处理后得到基线定位结果;步骤4:根据步骤3中的基线定位结果判断文本类型,构建对应不同文本类型的特征提取网络,获取藏文文本图像的序列特征;步骤5:构建基于两个并列、反向的TCN网络的序列建模网络,将步骤4提取的序列特征送入两个TCN网络,得到表征序列关系的输出特征;步骤6:基于CTC算法构建CTC转录模块,将步骤5中的输出特征送入CTC转录模块得到藏文识别结果,并基于识别结果通过联合损失函数对模型进行优化。2.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤1的具体步骤为:步骤1.1:从网络地图、社交软件、搜索引擎上采集包含藏文文本的自然场景图像;步骤1.2:裁剪出其中所有的藏文文本图像块,并且透视变换至正视角图像,对其中文本的基线高度位置和内容进行标注,得到藏文文本图像基本数据集。3.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤2中通过图像合成算法合成藏文文本图像扩充数据集的具体步骤为:步骤2.1:从藏文网站采集藏文文本数据并去除其中的非藏文字符;步骤2.2:将步骤2.1的文本数据随机切分成不同长度的藏文文本,构建横排文本数据库;步骤2.3:将步骤2.1的文本数据按照藏文音节分隔符分割成单个音节,构建竖排文本数据库;步骤2.4:采集不含文本的自然场景图像,构建自然场景背景库;步骤2.5:合成藏文文本图像:对于横排文本,随机从横排文本数据库中选择藏文文本渲染至自然场景背景库中的自然场景图像上;对于竖排文本,随机从竖排文本数据库中选择3~5个藏文音节从上往下渲染至自然场景背景库中的的自然场景图像上;步骤2.6:从步骤2.5中合成的藏文文本图像中裁剪出文本区域,并记录文本的基线高度和文本的内容,得到藏文文本图像扩充数据集。4.根据权利要求3中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤2中预处理的具体步骤为:将藏文文本图像基本数据集和藏文文本图像扩充数据集中的藏文文本图像分辨率修改为320
×
320,按照r1:r2划分训练集与测试集,对于训练集的图像,以概率p
s
随机给图像添加高斯噪声进行数据增强。5.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤3中利用文本基线检测器提取藏文文本图像特征的具体步骤如下:
步骤3.1:对于形状为3
×
H
×
W的输入图像数据,使用文本基线检测器提取藏文文本块特征,将其形状变换至C
×
H
×
W/4,C为特征维度,H为图像高度,W为图像宽度;步骤3.2:将藏文文本块特征通过全局平均池化...

【专利技术属性】
技术研发人员:程建侯琴胡永祥刘思宇
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1