当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于显著图的不规则文本修正与识别方法及系统技术方案

技术编号:24123517 阅读:21 留言:0更新日期:2020-05-13 03:49
本发明专利技术公开了一种基于显著图的不规则文本修正与识别方法及系统,将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。优点:通过训练好的不规则文本修正网络模型,条状区域变换算法,训练好的不规则文本识别网络模型,对不规则文本图片进行处理,提高了不规则文本识别的准确率和鲁棒性。

A method and system of irregular Text Correction and recognition based on saliency graph

【技术实现步骤摘要】
一种基于显著图的不规则文本修正与识别方法及系统
本专利技术涉及一种基于显著图的不规则文本修正与识别方法及系统,属于自然场景文本识别

技术介绍
近年来,自然场景文本识别已经成为计算机视觉的研究热点,其输入是文本图片,输出是图片中的文本信息。自然场景文本识别在自动驾驶、图片检索、证件识别、集装箱箱号识别等领域都有重要的应用。自然场景文本识别主要可以分为两类:规则文本识别与不规则文本识别。规则文本为水平文本,不规则文本为倾斜文本、曲形文本、透视扭曲文本等。不规则文本在很多场景中都有出现,比如瓶盖、商标等。目前多数文本识别方法都只能对规则文本进行识别,对于不规则文本,如曲形文本、倾斜文本等,识别效果依旧很差。以前的不规则文本识别方法主要使用语义分割的方法来对不规则文本进行识别,这种方法虽然能很好的捕获文本的位置信息,但是其没有考虑字符之间的关联信息,所以识别效果比较差。还有一类方法先将不规则文本修正成规则文本,然后再对修正后的规则文本进行识别,在该种方法中,一般使用薄板样条插值来对其进行修正,但是由于其难以训练,对参数敏感,所以该种方法依旧不能很好的识别不规则文本。
技术实现思路
本专利技术所要解决的技术问题是克服目前已有的不规则文本识别方法依旧不能很好的识别不规则文本、识别准确率低的缺陷,提供一种基于显著图的不规则文本修正与识别方法及系统。为解决上述技术问题,本专利技术提供一种基于显著图的不规则文本修正与识别方法,其特征在于,将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。进一步的,所述不规则文本修正网络模型的结构采用全卷积神经网络,将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征,采取U型网络结构对不同尺度、不同深度的特征进行特征融合,得到字符级别的分类显著图。进一步的,所述不规则文本修正网络模型的训练过程为:对不规则文本修正网络模型的参数进行初始化;获取训练文本图片及真实分类显著图标签;将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。进一步的,所述条状区域变换算法的步骤为:步骤101,输入不规则文本图片、分类显著图,不规则文本图片的宽W及高H;步骤102,二值化分类显著图,求取分类显著图连通区域的中心点集C与平均高度havg;步骤103,根据中心点集C拟合文本中心线L;步骤104,初始化变换坐标集合循环变量i=1;步骤105,根据i计算中心线当前坐标点pi以及垂线Vi;步骤106,求取垂线Vi上点和的坐标,其中和与pi距离为havg;步骤107,对和进行线性插值,插值数为H,得到当前位置变换坐标集合Pi,将Pi加入到G中;步骤108,如果i≤W,则i=i+1,转步骤105,否则转步骤109;步骤109,根据变换坐标集合G对I变换,得到修正图片;步骤110,输出修正图片。进一步的,所述不规则文本识别网络模型的结构包括编码网络和解码网络;所述编码网络包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;所述解码网络包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;所述解码网络将编码网络部分的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。进一步的,所述不规则文本识别网络模型的训练过程为:将不规则文本识别网络模型的参数进行初始化;获取训练文本图片及真实字符串标签;将训练文本图片输入到不规则文本识别网络中,根据网络预测值和真实字符串标签计算网络损失,根据损失更新识别网络参数;不断重复以上过程,直到达到一定轮数,训练结束,保存识别网络参数。一种基于显著图的不规则文本修正与识别系统,包括第一输出模块、第二输出模块和第三输出模块;所述第一输出模块,用于将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;所述第二输出模块,用于利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;所述第三输出模块,用于将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。进一步的,所述第一输出模块包括第一初始化模块、第一数据获取模块、第一修正模块和第一循环模块;所述第一初始化模块,用于对不规则文本修正网络模型的参数进行初始化;所述第一数据获取模块,获取训练文本图片及真实分类显著图标签;所述第一修正模块,用于将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;所述第一循环模块,用于不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。进一步的,所述第三输出模块包括编码网络模块和解码网络模块;所述编码网络模块包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;所述解码网络模块包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;所述解码网络模块将编码网络模块的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。进一步的,所述第三输出模块包括第三初始化模块、第三数据获取模块、第三修正模块和第三循环模块;所述第三初始化模块,用于将不规则文本识别网络模型的参数进行初始化;所述第三数据获取模块,用于获取训练文本图片及真实字符串标签;所述第三修正模块,用于将训练文本图片输入到不规则文本识别网络中,根据网络预测值和真实字符串标签计算网络损失,根据损失更新识别网络参数;所述第三循环模块,用于不断重复以上过程,直到达到一定轮数,训练结束,保存识别网络参数。本专利技术所达到的有益效果:与现有技术相比,本专利技术提供的基于显著图的不规则文本修正与识别方法,通过不规则文本修正网络构建,条状区域变换算法,不规则文本识别网络构建,不规则文本修正与识别网络训练,提高了不规则文本识别的准确率和鲁棒性。附图说明图1为自然场景下不规则文本示意图;图2为本专利技术实施的基于显著图的不规则文本修正网络结构图;图3a为不规则文本图;图3b为分类显著图;图3c为字符外接四边形与中心点示意图;图3d为文本中心线示意图;图3e为变换坐标示意图;图3f为修正后的文本图;图4为本专利技术实施的基于显著图的条状区域变换算法流程图;图5为本专利技术实施的基于显著图的不规则文本修正网络训练流本文档来自技高网...

【技术保护点】
1.一种基于显著图的不规则文本修正与识别方法,其特征在于,/n将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;/n利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;/n将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。/n

【技术特征摘要】
1.一种基于显著图的不规则文本修正与识别方法,其特征在于,
将不规则文本图片输入至预先训练好的不规则文本修正网络模型,输出字符级别的分类显著图;
利用条状区域变换算法对不规则文本图片和分类显著图进行修正,输出修正图片;
将修正图片输入至预先训练好的不规则文本识别网络模型,输出文本图片识别信息。


2.根据权利要求1所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述不规则文本修正网络模型的结构采用全卷积神经网络,将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征,采取U型网络结构对不同尺度、不同深度的特征进行特征融合,得到字符级别的分类显著图。


3.根据权利要求2所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述不规则文本修正网络模型的训练过程为:
对不规则文本修正网络模型的参数进行初始化;获取训练文本图片及真实分类显著图标签;将训练文本图片输入到不规则修正网络模型中,得到预测显著图;根据预测显著图和真实分类显著图标签计算网络损失,根据损失更新修正网络参数;不断重复以上过程,直到达到一定轮数,训练结束,保存修正网络参数。


4.根据权利要求1所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述条状区域变换算法的步骤为:
步骤101,输入不规则文本图片、分类显著图,不规则文本图片的宽W及高H;
步骤102,二值化分类显著图,求取分类显著图连通区域的中心点集C与平均高度havg;
步骤103,根据中心点集C拟合文本中心线L;
步骤104,初始化变换坐标集合循环变量i=1;
步骤105,根据i计算中心线当前坐标点pi以及垂线Vi;
步骤106,求取垂线Vi上点和的坐标,其中和与pi距离为havg;
步骤107,对和进行线性插值,插值数为H,得到当前位置变换坐标集合Pi,将Pi加入到G中;
步骤108,如果i≤W,则i=i+1,转步骤105,否则转步骤109;
步骤109,根据变换坐标集合G对I变换,得到修正图片;
步骤110,输出修正图片。


5.根据权利要求1所述的基于显著图的不规则文本修正与识别方法,其特征在于,所述不规则文本识别网络模型的结构包括编码网络和解码网络;
所述编码网络包括两层卷积层,三层门控循环卷积层,两层双向长短期记忆网络和四层最大值池化层;
所述解码网络包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络;
所述解码网络将编码网络部分的输出作为输入,在每个时刻,解码网络都预测一个字符,一直到输出终止符为止。


6.根据权利要求1所述的基于显著图的不规则文...

【专利技术属性】
技术研发人员:尤晶晶李武军
申请(专利权)人:南京大学南京和光智能制造研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1