【技术实现步骤摘要】
自然场景的文本识别方法、存储装置和计算机设备
本申请涉及文本识别
,特别是涉及一种自然场景的文本识别方法、存储装置和计算机设备。
技术介绍
OCR技术发展多年来,从应用场景来看,已经在图像识别,身份证识别,包括银行保险的票据等方面都有应用,从技术层面来看,早先的传统文字识别手法基本都采用基于模板匹配的方式,对特征描述要求非常苛刻,很难满足复杂场景下的识别任务。而自从第三次人工智能浪潮兴起,在算法以及算力都有大幅度突破的情况下,深度学习抛弃了传统人工设计特征的方式,利用海量标定样本数据以及大规模GPU集群的优势让机器自动学习特征和模型参数,能一定程度上弥补底层特征与高层语义之间的不足。就在最近这几年,基于深度学习的图像识别达到了前所未有的高度,这也让OCR技术有了广阔的场景。与传统文档图像相比,场景图像中文字多语言混合、背景复杂、模糊、文字变形、文本角度不同等情况,所以与传统的文字识别相比,场景文本识别面临更多的挑战。尽管使用场景文本识别网络的结构已经存在,但仍存在很多的不足之处。目前很多文本识别方法的识 ...
【技术保护点】
1.一种自然场景的文本识别方法,其特征在于,包括:/n利用深度卷积网络对待识别图像进行特征提取,以获取多个特征向量;/n利用结合有残差模块的编码用二维递归网络对所述多个特征向量进行编码,以获得编码特征序列;/n利用解码用二维递归网络对所述编码特征序列进行解码,以获得预测标签序列;/n利用连接时间分类模型对所述预测标签序列进行校正,以形成输出文本序列。/n
【技术特征摘要】
1.一种自然场景的文本识别方法,其特征在于,包括:
利用深度卷积网络对待识别图像进行特征提取,以获取多个特征向量;
利用结合有残差模块的编码用二维递归网络对所述多个特征向量进行编码,以获得编码特征序列;
利用解码用二维递归网络对所述编码特征序列进行解码,以获得预测标签序列;
利用连接时间分类模型对所述预测标签序列进行校正,以形成输出文本序列。
2.根据权利要求1所述的方法,其特征在于,所述深度卷积网络为Yolo3网络。
3.根据权利要求1所述的方法,其特征在于,所述编码用二维递归网络为第一Bi-LSTM网络。
4.根据权利要求3所述的方法,其特征在于,所述残差模块短接于所述第一Bi-LSTM网络的输入层的输出端和输出层的输入端之间;
所述利用结合有残差模块的编码用二维递归网络对所述多个特征向量进行编码的步骤包括:
利用所述残差模块将所述输入层对所述特征向量的第一转化结果与所述输出端和输出层之间的中间层对所述特征向量的第二转化结果进行合并后输入至所述输出层。
5.根据权利要求1所述的方法,其特征在于,所述解码用二维递归网络为第二Bi-LSTM网络。
6.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:周翊民,陈鹏,吴庆甜,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。