【技术实现步骤摘要】
一种基于显著图的不规则文本修正与识别方法及系统
本专利技术涉及一种基于显著图的不规则文本修正与识别方法及系统,属于自然场景文本识别
技术介绍
近年来,自然场景文本识别已经成为计算机视觉的研究热点,其输入是文本图片,输出是图片中的文本信息。自然场景文本识别在自动驾驶、图片检索、证件识别、集装箱箱号识别等领域都有重要的应用。自然场景文本识别主要可以分为两类:规则文本识别与不规则文本识别。规则文本为水平文本,不规则文本为倾斜文本、曲形文本、透视扭曲文本等。不规则文本在很多场景中都有出现,比如瓶盖、商标等。目前多数文本识别方法都只能对规则文本进行识别,对于不规则文本,如曲形文本、倾斜文本等,识别效果依旧很差。以前的不规则文本识别方法主要使用语义分割的方法来对不规则文本进行识别,这种方法虽然能很好的捕获文本的位置信息,但是其没有考虑字符之间的关联信息,所以识别效果比较差。还有一类方法先将不规则文本修正成规则文本,然后再对修正后的规则文本进行识别,在该种方法中,一般使用薄板样条插值来对其进行修正,但是由于其难以训练,对参数敏感,所以该种方法依旧不能很好的识别不规则文本。
技术实现思路
本专利技术所要解决的技术问题是克服目前已有的不规则文本识别方法依旧不能很好的识别不规则文本、识别准确率低的缺陷,提供一种基于显著图的不规则文本修正与识别方法及系统。为解决上述技术问题,本专利技术提供一种基于显著图的不规则文本修正与识别方法,其特征在于,将不规则文本图片输入至预先训练好的不规则文本 ...
【技术保护点】
1.一种基于显著图的不规则文本修正与识别方法,其特征在于,/n将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;/n利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;/n将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。/n
【技术特征摘要】
1.一种基于显著图的不规则文本修正与识别方法,其特征在于,
将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;
利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;
将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。
2.根据权利要求1所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述不规则文本修正网络模型的结构采用全卷积神经网络,将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征,采取U型网络结构对不同尺度、不同深度的特征进行特征融合,得到字符级别的分类显著图。
3.根据权利要求2所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述不规则文本修正网络模型的训练过程为:
对不规则文本修正网络模型的参数进行初始化;获取训练文本图片及真实分类显著图标签;将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。
4.根据权利要求1所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述条状区域变换算法的步骤为:
步骤101,输入不规则文本图片、分类显著图,不规则文本图片的宽W及高H;
步骤102,二值化分类显著图,求取分类显著图连通区域的中心点集C与平均高度havg;
步骤103,根据中心点集C拟合文本中心线L;
步骤104,初始化变换坐标集合循环变量i=1;
步骤105,根据i计算中心线当前坐标点pi以及垂线Vi;
步骤106,求取垂线Vi上点和的坐标,其中和与pi距离为havg;
步骤107,对和进行线性插值,插值数为H,得到当前位置变换坐标集合Pi,将Pi加入到G中;
步骤108,如果i≤W,则i=i+1,转步骤105,否则转步骤109;
步骤109,根据变换坐标集合G对I变换,得到修正图片;
步骤110,输出修正图片。
5.根据权利要求1所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述不规则文本识别网络模型的结构包括编码网络和解码网络;
所述编码网络包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;
所述解码网络包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;
所述解码网络将编码网络部分的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。
6.根据权利要求1所述的基于显著图的不规则文...
【专利技术属性】
技术研发人员:尤晶晶,李武军,
申请(专利权)人:南京大学,南京和光智能制造研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。