【技术实现步骤摘要】
基于语义相关度预测和注意力解码的场景文本识别方法
本专利技术涉及模式识别与人工智能
,具体涉及一种基于语义相关度预测和注意力解码的场景文本识别方法。
技术介绍
文本中富含大量准确而丰富的语义信息,这些信息适用于许多实际应用场景,如智能检索、自动驾驶、构建视障人士的辅助设备等。因而,场景文本识别是计算机视觉领域长期存在的研究课题之一。不同于扫描文档中的光学字符识别,场景文本识别因文本字体多样,图像分辨率低,图像易受光影变化影响而十分具有挑战性。近年来,随着深度神经网络的飞速发展,大大推动了人工智能技术的创新应用。深度神经网络模型,特别是基于注意力机制的深度神经网络模型在场景文本识别中取得了较好的性能。基于注意力机制的识别网络着重关注文本区域,同时隐式嵌入了相邻字符的高阶先验信息,为后续转录过程提供了高阶统计语言模型,因而提高了识别性能。然而,现有场景文本识别中广泛使用的注意力机制缺乏高阶先验信息的选择性。它为所有识别情况提供了同等重要的先验信息指导,这无异于削弱了具有强烈语义的字符相关性,增强了无关字符相关性。< ...
【技术保护点】
1.一种基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,包括:/nS1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;/nS2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;/nS3,深度神经网络模型训练:将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练,其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块;所述语义相关度预测模块以词根统计表为语义指导,预测得到相邻字符语义相关度参数;/nS4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度 ...
【技术特征摘要】
1.一种基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,包括:
S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;
S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;
S3,深度神经网络模型训练:将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练,其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块;所述语义相关度预测模块以词根统计表为语义指导,预测得到相邻字符语义相关度参数;
S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。
2.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于:所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上,所述合成训练数据集的文本部分包含N种不同字体风格,N≥2,所述真实评测数据集由摄像设备拍摄得到;所述常用词根统计表包含707个常用词根,词根长度范围为2~10个字符之间。
3.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于:在步骤S2中的拉伸变换的操作双线性插值或下采样操作。
4.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,步骤S3包括:
S31,构建深度神经网络模型;
S32,设定所述深度...
【专利技术属性】
技术研发人员:陈晓雪,金连文,王天玮,毛慧芸,朱远志,罗灿杰,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。