文本行的识别方法及装置、计算设备制造方法及图纸

技术编号:15194111 阅读:47 留言:0更新日期:2017-04-20 15:40
本申请提供一种文本行的识别方法及装置、计算设备,方法包括:基于文字区域的区域特征信息,确定已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;对每一个第一文本块中的全部文字区域在图片中的中心位置坐标进行直线拟合,得到每一个第一文本块对应的第一拟合直线;基于每一个第一文本块中的每一个中心位置坐标到第一拟合直线的距离,确定每一个第一文本块中的全部中心位置坐标到第一拟合直线的第一平均距离;当基于第一平均距离确定至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将其划分成至少两个文本块。本申请可以准确识别场景文字的文本行,提高文本行识别的鲁棒性。

【技术实现步骤摘要】

本申请涉及图像识别
,尤其涉及一种文本行的识别方法及装置、计算设备
技术介绍
对场景文字进行单文本行分析,属于版面分析方法。现有技术中,基于层次聚类的自下而上的版面分析方法利用单文字区域或连通区域的属性特征信息,计算单文字区域之间的相似度,对符合相似度阈值的两个以上的单文字区域进行逐层次合并,最终识别出文字区域所在的文本行。在进行层次聚类的过程中,需要通过合适的阈值来停止层次聚类,若阈值选取不当,会导致识别到的文本行在整个场景中的定位不准确。
技术实现思路
有鉴于此,本申请提供一种新的技术方案,可以准确识别场景文字的文本行,提高文本行识别的鲁棒性。为实现上述目的,本申请提供技术方案如下:根据本申请的第一方面,提出了一种文本行的识别方法,包括:基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;对每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;基于每一个所述第一文本块中的每一个所述中心位置坐标到所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;当基于所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将所述第二文本块划分成至少两个子文本块和第二子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。根据本申请的第二方面,提出了一种文本行的识别装置,包括:第一确定模块,用于基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;直线拟合模块,用于对所述第一确定模块确定的每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;第二确定模块,用于基于每一个所述第一文本块中的每一个所述中心位置坐标到所述直线拟合模块得到的所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;第三确定模块,用于当基于所述第二确定模块确定的所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将所述第二文本块划分成至少两个子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。根据本申请的第三方面,提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面提供的文本行的识别方法。根据本申请的第四方面,提供一种计算设备,所述计算设备包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器,用于执行上述第一方面提供的文本行的识别方法。由以上技术方案可见,本申请通过文字区域到拟合直线的平均距离将属于不同的文字区域进行精细划分,由此可避免通过层次聚类的方法选择阈值,降低了文本行识别的复杂度;由于拟合直线的斜率可表示图片上文本行的方向,因此通过拟合直线可识别出各种方向的文本行,例如,横向、纵向以及倾斜方向等,进而提高了场景文字及普通印刷文本中的单文本行识别的鲁棒性。附图说明图1A示出了根据本专利技术的一示例性实施例的文本行的识别方法的流程示意图;图1B示出了图1A所示实施例的文本行的场景图之一;图1C示出了图1B所示的场景图经过步骤105处理的文本块的示意图;图1D示出了图1A所示实施例的文本行的场景图之二;图1E示出了图1D所示实施例的经过步骤105处理的文本块的示意图;图2A示出了根据本专利技术的另一示例性实施例的文本行的识别方法的流程示意图;图2B示出了图2A所示实施例中的第一子文本块和第二子文本块的示意图;图3示出了根据本专利技术的再一示例性实施例的文本行的识别方法的流程示意图;图4A示出了根据本专利技术的又一示例性实施例的文本行的识别方法的流程示意图;图4B示出了图4A所示实施例的文本行的场景图;图4C示出了图4B所示的场景图经过步骤402处理的文本块的示意图;图4D示出了图4B所示的场景图经过步骤403处理的文本块的示意图;图5示出了根据本专利技术的又一示例性实施例的文本行的识别方法的流程示意图;图6示出了根据本专利技术的一示例性实施例的文本行的识别装置的结构示意图;图7示出了根据本专利技术的另一示例性实施例的文本行的识别装置的结构示意图;图8示出了根据本专利技术的再一示例性实施例的文本行的识别装置的结构示意图;图9示出了根据本专利技术的一示例性实施例的计算设备的结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。为对本申请进行进一步说明,提供下列实施例:图1A示出了根据本专利技术的一示例性实施例的文本行的识别方法的流程示意图,图1B示出了图1A所示实施例的文本行的场景图之一,图1C示出了图1B所示的场景图经过步骤105处理的文本块的示意图,图1D示出了图1A所示实施例的文本行的场景图之二,图1E示出了图1D所示实施例的经过步骤105处理的文本块的示意图;如图1A所示,包括如下步骤:步骤101,基于图片中已识别到的文字区域的区域特征信息,确定已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;步骤102,对每一个第一文本块中的全部文字区域在图片中的中心位置坐标进行直线拟合,得到每一个第一文本块对应的第一拟合直线;步骤103,基于每一个第一文本块中的每一个中心位置坐标到第一拟合直线的距离,确定每一个第一文本块中的全部中心位置坐标到第一拟合直线的第一平均距离;步骤104,当基于第一平均距离确定至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将第二文本块划分成至少两个子文本块,基于至少一个第一文本块中未被划分的第一文本块以及至少两个子文本块得到文本行识别结果。在上述步骤101中,在一实施例中,可以通过最大极值稳定区域(maximallystableextremalregions,MSER)分析方法得到过渡区域,对过渡区域进行文字与非文字的分类,得到步骤101所需要的文字区域。在一实施例中,文字区域的区域特征信息可以包括文字本文档来自技高网...
文本行的识别方法及装置、计算设备

【技术保护点】
一种文本行的识别方法,其特征在于,所述方法包括:基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;对每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;基于每一个所述第一文本块中的每一个所述中心位置坐标到所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;当基于所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将所述需要被划分的第一文本块确定为第二文本块,并将第二文本块划分成至少两个子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。

【技术特征摘要】
1.一种文本行的识别方法,其特征在于,所述方法包括:基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;对每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;基于每一个所述第一文本块中的每一个所述中心位置坐标到所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;当基于所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将所述需要被划分的第一文本块确定为第二文本块,并将第二文本块划分成至少两个子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。2.根据权利要求1所述的方法,其特征在于,所述将所述第二文本块划分成至少两个子文本块,包括:确定所述第二文本块中的全部文字区域各自对应的中心位置坐标与所述第二文本块对应的拟合直线之间的第一相对位置;基于所述第一相对位置将所述第二文本块划分为第一子文本块和第二子文本块,所述第一子文本块的中心位置坐标位于所述第二文本块对应的拟合直线的一侧,所述第二子文本块的中心位置坐标位于所述第二文本块对应的拟合直线的另一侧;基于所述第一子文本块和所述第二子文本块各自包含的文字区域的中心位置坐标到所述第一子文本块和所述第二子文本块各自拟合直线的平均距离,将所述第二文本块划分为至少两个子文本块。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一子文本块和所述第二子文本块各自包含的文字区域的中心位置坐标到所述第一子文本块和所述第二子文本块各自拟合直线的平均距离,将所述第二文本块划分为至少两个子文本块,包括:根据所述第一子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到所述第一子文本块对应的拟合直线;根据所述第二子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到所述第二子文本块对应的拟合直线;基于所述第一子文本块包含的每一个文字区域的中心位置坐标到所述第一子文本块对应的拟合直线的距离,确定所述第一子文本块包含的全部中心位置坐标到所述第一子文本块对应的拟合直线的第二平均距离;基于所述第二子文本块包含的每一个文字区域的中心位置坐标到所述第二子文本块对应的拟合直线的距离,确定所述第二子文本块包含的全部中心位置坐标到所述第二子文本块对应的拟合直线的第三平均距离;基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块。4.根据权利要求3所述的方法,其特征在于,所述基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块,包括:对于所述第二平均距离和所述第三平均距离满足均大于预设阈值的情形,根据所述第二文本块的阅读顺序将所述第二文本块划分为多个文字区域块;基于所述多个文字区域块各自对应的拟合直线的位置关系,将所述多个文字区域块合并为至少两个子文本块。5.根据权利要求4所述的方法,其特征在于,所述根据所述第二文本块的阅读顺序将所述第二文本块划分为多个文字区域块,包括:确定所述第二文本块中的每一个文字区域的最近邻的文字区域;根据所述每一个文字区域与对应的最近邻的文字区域的第二相对位置,统计偏第一方向的文字区域的数量和偏第二方向的文字区域的数量;将所述偏第一方向的文字区域的数量和所述偏第二方向的文字区域的数量中数量较大的方向确定为所述第二文本块的阅读顺序;根据所述阅读顺序确定所述第二文本块中的每一个文字区域在所述阅读顺序方向最近邻的文字区域;将相互近邻的文字区域形成集合,得到多个文字区域块。6.根据权利要求4所述的方法,其特征在于,所述基于所述多个文字区域块各自对应的拟合直线的位置关系,将所述多个文字区域块划分为至少两个子文本块,包括:对所述多个文字区域块中的每一个文字区域块所包含的文字区域的中心位置坐标进行直线拟合,得到所述多个文字区域块各自对应的拟合直线;基于所述多个文字区域块各自对应的拟合直线之间的夹角,或者,基于所述多个文字区域块中的文字区域的中心位置坐标到拟合直线的距离,对所述多个文字区域块进行合并,将所述第二文本块划分为至少两个子文本块。7.根据权利要求3所述的方法,其特征在于,所述基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块,包括:对于所述第二平均距离和所述第三平均距离不满足均大于预设阈值的情形,基于所述第二平均距离和所述第三平均距离,从所述第一子文本块和所述第二子文本块中确定基准文本块和非基准文本块;基于所述非基准文本块中的文字区域的数量、所述非基准文本块中文本区域的中心位置坐标到所述基准文本块对应的拟合直线的距离,确定是否需要将所述非基准文本块中的...

【专利技术属性】
技术研发人员:张文彩
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1