【技术实现步骤摘要】
本申请涉及图像识别
,尤其涉及一种文本行的识别方法及装置、计算设备。
技术介绍
对场景文字进行单文本行分析,属于版面分析方法。现有技术中,基于层次聚类的自下而上的版面分析方法利用单文字区域或连通区域的属性特征信息,计算单文字区域之间的相似度,对符合相似度阈值的两个以上的单文字区域进行逐层次合并,最终识别出文字区域所在的文本行。在进行层次聚类的过程中,需要通过合适的阈值来停止层次聚类,若阈值选取不当,会导致识别到的文本行在整个场景中的定位不准确。
技术实现思路
有鉴于此,本申请提供一种新的技术方案,可以准确识别场景文字的文本行,提高文本行识别的鲁棒性。为实现上述目的,本申请提供技术方案如下:根据本申请的第一方面,提出了一种文本行的识别方法,包括:基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;对每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;基于每一个所述第一文本块中的每一个所述中心位置坐标到所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;当基于所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将需要被划分的第一文本块确定为第二文本块,并将所述第二文本块划分成至少两个子文本块和第二子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。根据本申请的第二方面,提出了一种文本行的识别装置,包括:第一确定 ...
【技术保护点】
一种文本行的识别方法,其特征在于,所述方法包括:基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;对每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;基于每一个所述第一文本块中的每一个所述中心位置坐标到所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;当基于所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将所述需要被划分的第一文本块确定为第二文本块,并将第二文本块划分成至少两个子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。
【技术特征摘要】
1.一种文本行的识别方法,其特征在于,所述方法包括:基于图片中已识别到的文字区域的区域特征信息,确定所述已识别到的文字区域各自所在的文本块,得到至少一个第一文本块;对每一个所述第一文本块中的全部文字区域在所述图片中的中心位置坐标进行直线拟合,得到每一个所述第一文本块对应的第一拟合直线;基于每一个所述第一文本块中的每一个所述中心位置坐标到所述第一拟合直线的距离,确定每一个所述第一文本块中的全部中心位置坐标到所述第一拟合直线的第一平均距离;当基于所述第一平均距离确定所述至少一个第一文本块中存在需要被划分的第一文本块时,将所述需要被划分的第一文本块确定为第二文本块,并将第二文本块划分成至少两个子文本块,基于所述至少一个第一文本块中未被划分的第一文本块以及所述至少两个子文本块得到文本行识别结果。2.根据权利要求1所述的方法,其特征在于,所述将所述第二文本块划分成至少两个子文本块,包括:确定所述第二文本块中的全部文字区域各自对应的中心位置坐标与所述第二文本块对应的拟合直线之间的第一相对位置;基于所述第一相对位置将所述第二文本块划分为第一子文本块和第二子文本块,所述第一子文本块的中心位置坐标位于所述第二文本块对应的拟合直线的一侧,所述第二子文本块的中心位置坐标位于所述第二文本块对应的拟合直线的另一侧;基于所述第一子文本块和所述第二子文本块各自包含的文字区域的中心位置坐标到所述第一子文本块和所述第二子文本块各自拟合直线的平均距离,将所述第二文本块划分为至少两个子文本块。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一子文本块和所述第二子文本块各自包含的文字区域的中心位置坐标到所述第一子文本块和所述第二子文本块各自拟合直线的平均距离,将所述第二文本块划分为至少两个子文本块,包括:根据所述第一子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到所述第一子文本块对应的拟合直线;根据所述第二子文本块中包含的文字区域的中心位置坐标进行直线拟合,得到所述第二子文本块对应的拟合直线;基于所述第一子文本块包含的每一个文字区域的中心位置坐标到所述第一子文本块对应的拟合直线的距离,确定所述第一子文本块包含的全部中心位置坐标到所述第一子文本块对应的拟合直线的第二平均距离;基于所述第二子文本块包含的每一个文字区域的中心位置坐标到所述第二子文本块对应的拟合直线的距离,确定所述第二子文本块包含的全部中心位置坐标到所述第二子文本块对应的拟合直线的第三平均距离;基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块。4.根据权利要求3所述的方法,其特征在于,所述基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块,包括:对于所述第二平均距离和所述第三平均距离满足均大于预设阈值的情形,根据所述第二文本块的阅读顺序将所述第二文本块划分为多个文字区域块;基于所述多个文字区域块各自对应的拟合直线的位置关系,将所述多个文字区域块合并为至少两个子文本块。5.根据权利要求4所述的方法,其特征在于,所述根据所述第二文本块的阅读顺序将所述第二文本块划分为多个文字区域块,包括:确定所述第二文本块中的每一个文字区域的最近邻的文字区域;根据所述每一个文字区域与对应的最近邻的文字区域的第二相对位置,统计偏第一方向的文字区域的数量和偏第二方向的文字区域的数量;将所述偏第一方向的文字区域的数量和所述偏第二方向的文字区域的数量中数量较大的方向确定为所述第二文本块的阅读顺序;根据所述阅读顺序确定所述第二文本块中的每一个文字区域在所述阅读顺序方向最近邻的文字区域;将相互近邻的文字区域形成集合,得到多个文字区域块。6.根据权利要求4所述的方法,其特征在于,所述基于所述多个文字区域块各自对应的拟合直线的位置关系,将所述多个文字区域块划分为至少两个子文本块,包括:对所述多个文字区域块中的每一个文字区域块所包含的文字区域的中心位置坐标进行直线拟合,得到所述多个文字区域块各自对应的拟合直线;基于所述多个文字区域块各自对应的拟合直线之间的夹角,或者,基于所述多个文字区域块中的文字区域的中心位置坐标到拟合直线的距离,对所述多个文字区域块进行合并,将所述第二文本块划分为至少两个子文本块。7.根据权利要求3所述的方法,其特征在于,所述基于所述第二平均距离和所述第三平均距离分别与预设阈值之间的关系,将所述第二文本块划分为至少两个子文本块,包括:对于所述第二平均距离和所述第三平均距离不满足均大于预设阈值的情形,基于所述第二平均距离和所述第三平均距离,从所述第一子文本块和所述第二子文本块中确定基准文本块和非基准文本块;基于所述非基准文本块中的文字区域的数量、所述非基准文本块中文本区域的中心位置坐标到所述基准文本块对应的拟合直线的距离,确定是否需要将所述非基准文本块中的...
【专利技术属性】
技术研发人员:张文彩,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。