【技术实现步骤摘要】
一种图像中的文本行定位方法、装置、设备及系统
本专利技术涉及图像处理
,特别涉及一种图像中的文本行定位方法、装置、设备及系统。
技术介绍
在自然场景中存在大量的文本,比如,道路两侧的建筑物的门牌、标识牌、墙壁、汽车玻璃上的文字,这些文字一般包含有明确的语义信息。在地图数据制作时,需要收集大量的自然场景图像,确定出自然场景图像中的兴趣点(PointofInterest,POI)区域,识别出自然场景中POI区域上的文字信息,就可以得到POI数据。在进行文字识别之前,需要定位出POI区域的文本行位置。由于自然场景中的POI区域和非POI区域的种类和数量多,需要确定精确的POI区域,并且不同POI区域的文本行的文字布局方向和文字间隔各有不同,因此,还需要对POI区域的文本行准确的定位。现有技术中,一般采用基于检测的文本行定位算法或基于语义分割的文本行定位算法对图像中的文本行进行定位。但是,基于检测的文本行定位算法,一般都是输出矩形检测框,主要是基于水平文本的检测与识别,当文本行为倾斜的文本行时,矩形检测框内会覆盖大量的背景区域,导致文本行检测框不准,无法确定准确的文本行区域,对于后续文本识别也造成了困难。而基于语义分割的文本行定位算法,由于缺乏边缘约束,无法分割临近文本行,在定位左右距离较近的两列文本区域或者上下贴合较近的两行文本区域时,无法区分不同的文本行,给后续文字识别带来了很大的困难。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问 ...
【技术保护点】
1.一种图像中的文本行定位方法,其特征在于,包括:/n对输入图像进行文本行定位,确定输入图像的各个文本行区域;/n对输入图像进行区域分割,得到输入图像的兴趣点POI区域;/n确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;/n对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。/n
【技术特征摘要】
1.一种图像中的文本行定位方法,其特征在于,包括:
对输入图像进行文本行定位,确定输入图像的各个文本行区域;
对输入图像进行区域分割,得到输入图像的兴趣点POI区域;
确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;
对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。
2.如权利要求1所述的方法,其特征在于,所述对输入图像进行文本行定位,确定输入图像的各个文本行区域,包括:
在训练得到的第一机器学习模型中,对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域。
3.如权利要求2所述的方法,其特征在于,每当提取到一个图像的候选文本区域时,执行如下操作:
对所述候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
对所述候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
根据所述候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的文本行区域。
4.如权利要求2所述的方法,其特征在于,对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域,包括:
对输入图像进行特征提取,生成图像的全部候选文本区域;
对每个候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
对每个候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
根据每个候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的所有文本行区域。
5.如权利要求1所述的方法,其特征在于,所述对输入图像进行区域分割,得到输入图像的POI区域,包括:
在训练得到的第二机器学习模型中,对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域。
6.如权利要求5所述的方法,其特征在于,每当提取到一个图像的候选目标区域时,执行如下操作:
对所述候选目标区域进行位置回归和多分类,获取候选目标区域的准确位置和类别;
对所述候选目标区域进行图像分割,分割出候选目标区域的目标物体;
根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域。
7.如权利要求6所述的方法,其特征在于,根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
8.如权利要求5所述的方法,其特征在于,所述对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域,包括:
对输入图像进行特征提取,生成图像的全部候选目标区域;
对每个候选目标区域进行位置回归和多分类,得到每个候选目标区域的准确位置和类别;
对确定位置和类别后的候选目标区进行图像分割,分割出候选目标区域中的目标物体;
根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域;
根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
9.如权利要求7或8所述的方法,其特征在于,根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域,包括:
根据每个图像的目标区域的类别,区分图像的目标区域为POI区域或非POI区域,从所有图像的目标区域中选取出所有的POI区域。
10.如权利要求9所述的方法,其特征在于,所述确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组,包括:
根据文本行区域的准确位置及POI区域的准确位置,判断文本行区域与POI区域的相交面积是否超过设定阈值;
若是,确定所述文本行区域属于所述POI区域;
得到属于同一POI区域的至少...
【专利技术属性】
技术研发人员:刘昕冉,陈泰红,郝志会,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。