文本识别方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:27773067 阅读:30 留言:0更新日期:2021-03-23 12:57
本发明专利技术涉及文本识别技术领域,具体提供了一种文本识别方法,旨在解决如何准确识别文本中的空格的技术问题。为此目的,根据本发明专利技术实施例的方法,可以采用预设的空格识别模型获取待识别文本行图像中每一空格的空格切点位置;对待识别文本行图像进行文本识别,在识别出的文本信息中确定与每一空格切点位置左右相邻的两个字符位置;根据每一空格切点位置及其对应的左右相邻的两个字符位置,在文本信息的相应位置处插入空格,以形成识别后的文本;其中,空格切点位置是在待识别文本行图像中空格与字符交界处的位置。通过上述步骤,可以准确插入空格以形成识别后的文本,提高文本识别的精准度。

【技术实现步骤摘要】
文本识别方法、装置以及计算机可读存储介质
本专利技术涉及文本识别
,具体涉及一种文本识别方法、装置以及计算机可读存储介质。
技术介绍
图像中的文本信息作为其内容描述的一种形式,包含了十分丰富且重要的表达信息。采用文本这种高级语义形式,在对图像内容理解和索引方面,具有十分重要的价值。另外,对图像中的文字进行识别,将其转换为文本文字,从而减轻了用户输入对应文字信息的负担,方便用户存储、编辑对应的文字信息。目前传统的文本识别方法通常采用OCR(OpticalCharacterRecognition,光学字符识别)进行图像文本的识别,采用端到端的训练方式实现文本行整行识别,将单个字符作为基本元素,整行识别结果为识别字符的串接字符串,这种方法识别中文文本时的准确度较高,但是,由于英文文本中由单词构成句子时需要添加空格进行断句,而现有的文本识别方法并不能识别文本中空格的位置,导致识别后的文本没有断句或者断句不准确,文本识别的精准度低。相应地,本领域需要一种新的文本识别方案来解决上述问题。
技术实现思路
为了克服上述缺陷,提出了本专利技术,以提供解决或至少部分地解决如何准确识别文本中的空格,以提高文本识别精准度的技术问题的文本识别方法、装置以及计算机可读存储介质。第一方面,提供一种文本识别方法,所述文本识别方法包括:采用预设的空格识别模型获取待识别文本行图像中每一空格的空格切点位置;对所述待识别文本行图像进行文本识别,在识别出的文本信息中确定与每一所述空格切点位置左右相邻的两个字符位置;根据每一所述空格切点位置及其对应的左右相邻的两个字符位置,在所述文本信息的相应位置处插入空格,以形成识别后的文本;其中,所述空格切点位置是在所述待识别文本行图像中空格与字符交界处的位置。在上述文本识别方法的一个技术方案中,所述文本识别方法还包括:计算所述空格切点位置与所述两个字符位置之间的间距;根据所述间距判断所述两个字符位置之间是否存在空格;根据判断结果选择性地在所述文本信息中的相应位置处插入空格。在上述文本识别方法的一个技术方案中,所述空格切点位置包括左空格切点位置和/或右空格切点位置,所述左空格切点位置是所述空格与所述文本信息的左侧交界处的位置,所述右空格切点位置是所述空格与所述文本信息的右侧交界处的位置;“根据所述间距判断所述两个字符位置之间是否存在空格”的步骤具体包括:获取所述左空格切点位置以及与其左侧相邻的字符位置之间的第一左侧间距,获取所述左空格切点位置以及与其右侧相邻的字符位置之间的第一右侧间距;若所述第一左侧间距与所述第一右侧间距的比值大于等于预设的比值阈值,则判定所述两个字符位置之间存在空格;并且/或者,获取所述右空格切点位置以及与其右侧相邻的字符位置之间的第二右侧间距,获取所述右空格切点位置以及与其左侧相邻的字符位置之间的第二左侧间距;若所述第二右侧间距与所述第二左侧间距的比值大于等于预设的比值阈值,则判定所述两个字符位置之间存在空格。在上述文本识别方法的一个技术方案中,所述预设的空格识别模型是基于文本行图像样本以及每个文本行图像样本的标注信息训练得到的;所述文本行图像样本的标注信息包括将所述文本行图像样本均分为多个图像区域后,每个所述图像区域各自对应的区域索引号、第一标注信息和第二标注信息;每个所述第一标注信息包括按照预设顺序排列的第一子标注值、第二子标注值和第三子标注值,所述第一子标注值的取值取决于相应的图像区域内是否存在左空格切点,所述第二子标注值的取值取决于相应的图像区域内是否存在右空格切点,所述第三子标注值的取值取决于相应的图像区域内是否存在字符切点;每个所述第二标注信息包括按照所述预设顺序排序的第四子标注值、第五子标注值和第六子标注值,所述第四子标注值的取值取决于在相应的图像区域内存在的左空格切点在所述图像区域内的归一化位置,所述第五子标注值的取值取决于在相应的图像区域内存在的右空格切点在所述图像区域内的归一化位置,所述第六子标注值的取值取决于在相应的图像区域内存在的字符切点在所述图像区域内的归一化位置;其中,所述左空格切点是根据所述文本行图像样本中空格与字符的左侧交界确定的,所述右空格切点是根据所述文本行图像样本中空格与字符的右侧交界确定的,所述字符切点是根据所述文本行图像样本中字符的边界确定的。在上述文本识别方法的一个技术方案中,所述预设的空格识别模型是通过下列方式训练得到的:利用下式所示的损失函数L并且根据所述文本行图像样本以及相应的标注信息,计算所述空格识别模型的损失值:其中,所述yi表示第i个文本行图像样本的标注信息,所述表示所述空格识别模型根据所述第i个文本行图像样本及其标注信息输出的切点预测结果,i=1,2,...n;所述切点预测结果包括所述第i个文本行图像样本的每个图像区域分别被预测为存在空格切点时的空格回归值与所述空格切点的归一化位置,以及所述每个图像区域分别被预测为存在字符切点时的字符回归值与所述字符切点的归一化位置;其中,所述空格回归值与所述图像区域被预测为存在空格切点时的预测概率成正相关关系,所述字符回归值与所述图像区域被预测为存在字符切点时的预测概率成正相关关系;根据所述损失值计算所述空格识别模型中每个模型参数各自对应的梯度,并且根据所述梯度反向传播更新所述空格识别模型的模型参数进行模型优化,以完成训练。在上述文本识别方法的一个技术方案中,所述文本行图像样本以及每个文本行图像样本的标注信息是通过下列方式获取到的:随机生成文本行信息,所述文本行信息中的字符包括英文字母在所述文本行信息的字符之间随机设置预设间隔类型中任一种间隔类型的字符间隔,其中,所述预设间隔类型包括第一间隔类型和第二间隔类型,所述第一间隔类型的间隔长度小于所述第二间隔类型的间隔长度;根据所述随机设置字符间隔后的文本行信息生成初始的文本行图像样本;将所述文本行信息中的字符作为普通字符,将所述文本行信息中第二间隔类型的字符间隔作为特殊字符,分别为每个所述普通字符标注普通字符位置框,以及分别为每个所述特殊字符标注特殊字符位置框;根据标注所述普通字符位置框与所述特殊字符位置框后的文本行信息生成初始的文本行图像样本;对所述初始的文本行图像样本进行数据增强处理,以获取最终的文本行图像样本;按照预设的图像截取比例以及随机的滑动步长,在所述最终的文本行图像样本上滑动截取多个文本行图像片段;根据每个所述文本行图像片段各自对应的特殊字符位置框与普通字符位置框进行空格切点标注和字符切点标注,以生成所述最终的文本行图像样本的标注信息。在上述文本识别方法的一个技术方案中,所述方法还包括通过下列方式进行空格切点标注:获取所述文本行图像片段对应的特殊字符位置框与普通字符位置框并作为待分析特殊字符位置框与待分析普通字符位置框;获取所述待分析特殊字符位置框以及与其左本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,所述方法包括:/n采用预设的空格识别模型获取待识别文本行图像中每一空格的空格切点位置;/n对所述待识别文本行图像进行文本识别,在识别出的文本信息中确定与每一所述空格切点位置左右相邻的两个字符位置;/n根据每一所述空格切点位置及其对应的左右相邻的两个字符位置,在所述文本信息的相应位置处插入空格,以形成识别后的文本;/n其中,所述空格切点位置是在所述待识别文本行图像中空格与字符交界处的位置。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:
采用预设的空格识别模型获取待识别文本行图像中每一空格的空格切点位置;
对所述待识别文本行图像进行文本识别,在识别出的文本信息中确定与每一所述空格切点位置左右相邻的两个字符位置;
根据每一所述空格切点位置及其对应的左右相邻的两个字符位置,在所述文本信息的相应位置处插入空格,以形成识别后的文本;
其中,所述空格切点位置是在所述待识别文本行图像中空格与字符交界处的位置。


2.根据权利要求1所述的文本识别方法,其特征在于,所述文本识别方法还包括:
计算所述空格切点位置与所述两个字符位置之间的间距;
根据所述间距判断所述两个字符位置之间是否存在空格;
根据判断结果选择性地在所述文本信息中的相应位置处插入空格。


3.根据权利要求2所述的文本识别方法,其特征在于,所述空格切点位置包括左空格切点位置和/或右空格切点位置,所述左空格切点位置是所述空格与所述文本信息的左侧交界处的位置,所述右空格切点位置是所述空格与所述文本信息的右侧交界处的位置;
“根据所述间距判断所述两个字符位置之间是否存在空格”的步骤具体包括:
获取所述左空格切点位置以及与其左侧相邻的字符位置之间的第一左侧间距,获取所述左空格切点位置以及与其右侧相邻的字符位置之间的第一右侧间距;若所述第一左侧间距与所述第一右侧间距的比值大于等于预设的比值阈值,则判定所述两个字符位置之间存在空格;
并且/或者,
获取所述右空格切点位置以及与其右侧相邻的字符位置之间的第二右侧间距,获取所述右空格切点位置以及与其左侧相邻的字符位置之间的第二左侧间距;若所述第二右侧间距与所述第二左侧间距的比值大于等于预设的比值阈值,则判定所述两个字符位置之间存在空格。


4.根据权利要求1所述的文本识别方法,其特征在于,所述预设的空格识别模型是基于文本行图像样本以及每个文本行图像样本的标注信息训练得到的;
所述文本行图像样本的标注信息包括将所述文本行图像样本均分为多个图像区域后,每个所述图像区域各自对应的区域索引号、第一标注信息和第二标注信息;
每个所述第一标注信息包括按照预设顺序排列的第一子标注值、第二子标注值和第三子标注值,所述第一子标注值的取值取决于相应的图像区域内是否存在左空格切点,所述第二子标注值的取值取决于相应的图像区域内是否存在右空格切点,所述第三子标注值的取值取决于相应的图像区域内是否存在字符切点;
每个所述第二标注信息包括按照所述预设顺序排序的第四子标注值、第五子标注值和第六子标注值,所述第四子标注值的取值取决于在相应的图像区域内存在的左空格切点在所述图像区域内的归一化位置,所述第五子标注值的取值取决于在相应的图像区域内存在的右空格切点在所述图像区域内的归一化位置,所述第六子标注值的取值取决于在相应的图像区域内存在的字符切点在所述图像区域内的归一化位置;
其中,所述左空格切点是根据所述文本行图像样本中空格与字符的左侧交界确定的,所述右空格切点是根据所述文本行图像样本中空格与字符的右侧交界确定的,所述字符切点是根据所述文本行图像样本中字符的边界确定的。


5.根据权利要求4所述的文本识别方法,其特征在于,所述预设的空格识别模型是通过下列方式训练得到的:
利用下式所示的损失函数L并且根据所述文本行图像样本以及相应的标注信息,计算所述空格识别模型的损失值:



其中,所述yi表示第i个文本行图像样本的标注信息,所述表示所述空格识别模型根据所述第i个文本行图像样本及其标注信息输出的切点预测结果,i=1,2,...n;
所述切点预测结果包括所述第i个文本行图像样本的每个图像区域分别被预测为存在空格切点时的空格回归值与所述空格切点的归一化位置,以及所述每个图像区域分别被预测为存在字符切点时的字符回归值与所述字符切点的归一化位置;其中,所述空格回归值与所述图像区域被预测为存在空格切点时的预测概率成正相关关系,所述字符回归值与所述图像区域被预测为存在字符切点时的预测概率成正相关关系;
根据所述损失值计算所述空格识别模型中每个模型参数各自对应的梯度,并且根据所述梯度反向传播更新所述空格识别模型的模型参数进行模型优化,以完成训练。


6.根据权利要求4所述的文本识别方法,其特征在于,所述文本行图像样本以及每个文本行图像样本的标注信息是通过下列方式获取到的:
随机生成文本行信息,所述文本行信息中的字符包括英文字母;
在所述文本行信息的字符之间随机设置预设间隔类型中任一种间隔类型的字符间隔,其中,所述预设间隔类型包括第一间隔类型和第二间隔类型,所述第一间隔类型的间隔长度小于所述第二间隔类型的间隔长度;
将所述文本行信息中的字符作为普通字符,将所述文本行信息中第二间隔类型的字符间隔作为特殊字符,分别为每个所述普通字符标注普通字符位置框,以及分别为每个所述特殊字符标注特殊字符位置框;
根据标注所述普通字符位置框与所述特殊字符位置框后的文本行信息生成初始的文本行图像样本;
对所述初始的文本行图像样本进行数据增强处理,以获取最终的文本行图像样本;
按照预设的图像截取比例以及随机的滑动步长,在所述最终的文本行图像样本上滑动截取多个文本行图像片段;
根据每个所述文本行图像片段各自对应的特殊字符位置框与普通字符位置框进行空格切点标注和字符切点标注,以生成所述最终的文本行图像样本的标注信息。


7.根据权利要求6所述的文本识别方法,其特征在于,所述方法包括通过下列方式进行空格切点标注:
获取所述文本行图像片段对应的特殊字符位置框与普通字符位置框并作为待分析特殊字符位置框与待分析普通字符位置框;
获取所述待分析特殊字符位置框以及与其左侧相邻的待分析普通字符位置框之间的位置,在所述位置处标注初始的右空格切点;
获取所述待分析特殊字符位置框以及与其右侧相邻的待分析普通字符位置框之间的位置,在所述位置处标注初始的左空格切点;
删除与所述文本行图像片段的边界间距小于等于预设间距阈值的所述初始的右空格切点与所述初始的左空格切点,以形成最终的右空格切点与最终的左空格切点;
并且/或者,
所述方法包括通过下列方式进行字符切点标注:
获取当前待分析普通字符位置框的第一位置框长度,以及与所述当前待分析普通字符位置框相邻的其他待分析普通字符位置框的第二位置框长度;
若所述第一位置框长度与所述第二位置框长度均大于等于预设的长度阈值,则获取所述当前待分析普通字符位置框以及所述的其他待分析普通字符位置框之间的中点位置,在所述中点位置处标注字符切点;
若所述第一位置框长度与所述第二位置框长度均小于所述预设的长度阈值,则不在所述当前待分析普通字符位置框以及所述的其他待分析普通字符位置框之间标注字符切点;
若所述第一位置框长度和所述第二位置框长度中一个位置框长度大于等于所述预设的长度阈值且另一个位置框长度小于所述预设的长度阈值,则在所述当前待分析普通字符位置框以及所述的其他待分析普通字符位置框之间的交界处标注字符切点;
并且/或者,
“生成所述最终的文本行图像样本的标注信息”的步骤具体包括:
将所述最终的文本行图像样本均分为多个图像区域并且分别为每个所述图像区域分配区域索引号;
根据所述最终的右空格切点、所述最终的左空格切点与所述字符切点的位置,获取位于所述图像区域内的所述最终的右空格切点、所述最终的左空格切点与所述字符切点并作为待处理切点;
分别计算每个所述待处理切点在所述图像区域内的归一化位置;
根据所述图像区域的区域索引号以及每个所述待处理切点的归一化位置,生成所述最终的文本行图像样本的标注信息。


8.根据权利要求7所述的文本识别方法,其特征在于,“分别计算每个所述待处理切点在所述图像区域内的归一化位置”的步骤具体包括:
根据下列公式所示的方法计算每个所述待处理切点在所述图像区域内的归一化位置:
normxk=(xk-gk×gridwidth)/gridwidth
其中,所述xk表示所述最终的文本行图像样本中第k个待处理切点在所述最终的文本行图像样本上的位置,所述normxk表示所述第k个待处理切点在其落入的图像区域内的归一化位置,所述gk表示所述图像区域的区域索引号,所述gridwidth表示所述图像区域的长度;
gridwidth=imgwidth/m1,所述imgwidth表示所述最终的文本行图像样本的长度,所述m1表示将所述最终的文本行图像样本均分形成的图像区域的总数;gk=rounddown(xk/gridwidth),所述rounddown表示向下取整函数。


9.根据权利要求4所述的文本识别方法,其特征在于,“采用预设的空格识别模型获取待识别文本行图像中空格的空格切点位置”的步骤具体包括:
将所述待识别文本行图像均分形成多个图像区域;
采用所述预设的空格识别模型对每个图像区域分别进行切点识别;
根据切点识别的结果,获取识别到的所述待识别文本行图像中左空格切点和右空格切点的归一化位置;
根据所述归一化位置并且按照下式所示的方法,分别获取所述左空格切点和右空格切点在所述待识别文本行图像中的左空格切点位置与右空格切点位置:
Xj=(qj+pj)×(imgwidthtxt/m2)
其中,所述Xj表示第j个待计算切点在所述待识别文本行图像中的切点位置,所述pj表示所述第j个待计算切点的归一化位置,所述qj表示所述第j个待计算切点落入的图像区域的区域索引号,所述imgwidthtxt表示所述待识别文本行图像的长度,所述m2表示将所述待识别文本行图像均分形成的图像区域的总数;
当所述第j个待计算切点是左空格切点时,所述切点位置Xj是左空格切点位置;当所述第j个待计算切点是右空格切点时,所述切点位置Xj是右空格切点位置。


10.一种文本识别装置,其特征在于,所述装置包括:
空格切点位置获取模块,其被配置成采用预设的空格识别模型获取待识别文本行图像中每一空格的空格切点位置;
文本识别模块,其被配置成对所述待识别文本行图...

【专利技术属性】
技术研发人员:陈静
申请(专利权)人:上海云从企业发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1