【技术实现步骤摘要】
一种多层三值主元与双向长短期记忆融合的文本识别方法
[0001]本专利技术涉及文本识别
,具体地说,涉及一种多层三值主元与双向长短期记忆融合的文本识别方法。
技术介绍
[0002]文字的出现对于人类文明的发展和传承有着重要的现实意义和历史意义,古今中外思想的交流、文化的发展、历史的记载无不依赖于文字的出现。文字既是信息的载体,也是人类认知世界的重要手段,它不仅能够独立传递信息,也能够和其他视觉元素相互补充传递更高层次的语言含义。随着经济社会的蓬勃发展,自然场景中的文本元素随处可见,例如公交车站牌、道路指示牌、商城广告牌等等。这些文本指示能够透露给我们大量的环境信息等待我们的探索和利用。
[0003]在将深度学习应用到文本检测与识别之前,已经对文档检测有了相应的解决方案——OCR(光学字符识别)。在过去,硬件设备落后、对自然场景文本检测与识别的客观需求也较低,OCR作为当时最先进的文档识别技术为人类提供了便捷的服务。虽然OCR局限于文档识别、识别率较低以及存在需要大量人工辅助等问题,但该技术经过长时间的发展,目前 ...
【技术保护点】
【技术特征摘要】
1.一种多层三值主元与双向长短期记忆融合的文本识别方法,其特征在于:包括以下步骤:一、向场景文本模型输入一张包含文本信息的场景图像;二、经过基于多层融合的多层三值主元网TPCANet模型获得图像特征输出;三、将图像特征输入长短期记忆网BLSTM网络预测每个像素点上对应的k个锚点框的置信度;四、再输入全连接进行预测最可能的文本框坐标;五、根据文本框坐标在原图像上进行目标文本框的切割;六、将切割得到的文本框输入基于多层融合的多层三值主元网TPCANet模型提取包含更多文本信息及空间信息的特征输出;七、继续输入长短期记忆网BLSTM网络预测特征序列对应字符的概率;八、将带概率的序列输入CTC网络预测最大概率的序列,实现转录,从而输出所需要的文本序列。2.根据权利要求1所述的一种多层三值主元与双向长短期记忆融合的文本识别方法,其特征在于:多层融合的TPCANet模型算法过程为:设数据集有N个大小为m
×
n的训练样本,设置滤波器大小始终为k1×
k2,三值化邻域半径为r;Step1:输入一个包含文本形象的图像数据集I;Step2:对输入图像样本I
i
做邻域半径为r的块采样,并进行三值化运算处理;Step3:对每个Step2经过三值化处理的图像样本做去均值化处理,并将所有经过去均值化处理后的图像样本进行级联形成矩阵;Step4:对Step3中产生的矩阵进行主成分分析,获得第一阶段L1个卷积核Step5:使用第一阶段的L1个卷积核对原始图像I
i
做卷积,得到对应的L1个特征图像Step6:将整个图像数据集在第一阶段产生的特征图像进行做去均值化处理,并将所有经过去均值化处理后的特征图像进行级联形成矩阵;...
【专利技术属性】
技术研发人员:纪禄平,李真,陈香,
申请(专利权)人:成都崇瑚信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。