一种图像中的文本行定位方法、装置、设备及系统制造方法及图纸

技术编号:26304872 阅读:23 留言:0更新日期:2020-11-10 20:01
本发明专利技术公开一种图像中的文本行定位方法、装置、设备及系统。所述方法包括:对输入图像进行文本行定位,确定输入图像的各个文本行区域;对输入图像进行区域分割,得到图像的兴趣点POI区域;确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。本发明专利技术解决了现有技术中图像的POI区域的文本行定位不准确的问题。

【技术实现步骤摘要】
一种图像中的文本行定位方法、装置、设备及系统
本专利技术涉及图像处理
,特别涉及一种图像中的文本行定位方法、装置、设备及系统。
技术介绍
在自然场景中存在大量的文本,比如,道路两侧的建筑物的门牌、标识牌、墙壁、汽车玻璃上的文字,这些文字一般包含有明确的语义信息。在地图数据制作时,需要收集大量的自然场景图像,确定出自然场景图像中的兴趣点(PointofInterest,POI)区域,识别出自然场景中POI区域上的文字信息,就可以得到POI数据。在进行文字识别之前,需要定位出POI区域的文本行位置。由于自然场景中的POI区域和非POI区域的种类和数量多,需要确定精确的POI区域,并且不同POI区域的文本行的文字布局方向和文字间隔各有不同,因此,还需要对POI区域的文本行准确的定位。现有技术中,一般采用基于检测的文本行定位算法或基于语义分割的文本行定位算法对图像中的文本行进行定位。但是,基于检测的文本行定位算法,一般都是输出矩形检测框,主要是基于水平文本的检测与识别,当文本行为倾斜的文本行时,矩形检测框内会覆盖大量的背景区域,导致文本行检测框不准,无法确定准确的文本行区域,对于后续文本识别也造成了困难。而基于语义分割的文本行定位算法,由于缺乏边缘约束,无法分割临近文本行,在定位左右距离较近的两列文本区域或者上下贴合较近的两行文本区域时,无法区分不同的文本行,给后续文字识别带来了很大的困难。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像中的文本行定位方法、装置、设备及系统。第一方面,本专利技术实施例提供一种图像中的文本行定位方法,包括如下步骤:对输入图像进行文本行定位,确定输入图像的各个文本行区域;对输入图像进行区域分割,得到输入图像的兴趣点POI区域;确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。第二方面,本专利技术实施例提供一种图像中的文本行定位装置,包括:文本行区域确定模块,用于对输入图像进行文本行定位,确定输入图像的各个文本行区域;POI区域确定模块,用于对输入图像进行区域分割,得到输入图像的兴趣点POI区域;文本行组合模块,用于确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;版面分析模块,用于对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。第三方面,本专利技术实施例提供一种服务器,包括:接收装置,用于接收终端设备采集的图像;上述图像中的文本行定位装置;第一存储器,存储采集的图像以及每个POI区域的文本行信息。第四方面,本专利技术实施例提供一种图像中的文本行定位系统,包括:移动采集设备和上述的服务器;所述移动采集设备,用于采集图像,采用选定的判断方法判断采集的图像是否是异常图像,若否,将采集图像上传到所述服务器;所述服务器,用于对图像中的文本行进行定位。第五方面,本专利技术实施例提供一种移动采集设备,包括:第一图像采集装置,用于采集图像,并发送到第一处理器;第一处理器,用于采用选定的判断方法判断采集的图像是否是异常图像,若否,将采集图像上传到服务器。第六方面,本专利技术实施例提供一种采集车,在车辆上设置图像采集设备,所述图像采集设备包括:第二图像采集装置,用于采集图像,并发送到第二处理器;第二处理器,设置图像识别装置和上述图像中的文本行定位装置,所述图像识别装置用于采用选定的判断方法判断采集的图像是否是异常图像,若否,则将图像输入图像中的文本行定位装置;图像中的文本行定位装置用于实现对图像中的文本行进行定位;第二存储器,存储采集的图像以及每个POI区域的文本行信息。第七方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的图像中的文本行定位方法。第八方面,本专利技术实施例提供一种计算机设备,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行上述图像中的文本行定位方法。本专利技术实施例提供的上述技术方案的有益效果至少包括:本专利技术实施例提供的上述图像中的文本行定位方法,通过对输入图像分别进行文本行定位和POI区域分割,精确定位不同的文本行。能够将相邻文本行拆分,避免出现大面积的文本行区域,影响后续文本识别效果,并且能够对包括倾斜的文本行的不同朝向的文本行进行分割,得到准确的文本区域的文本及边界位置,文本行定位精确;能够有效地检测并分割图像中的目标,对自然场景中的不同类别的各个POI区域进行分类和分割,能够得到图像中的各个POI区域准确的分割结果。通过确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组,能够去除出现在非POI区域的文本行噪声;对各个POI区域的文本行区域进行版面分析,将同一POI区域与文本行区域进行关联,以便于进行文本识别,得到有效的POI数据。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中图像中的文本行定位方法流程图;图2为本专利技术实施例中另一图像中的文本行定位方法流程图;图3为本专利技术实施例中实体分割模型的RPN的开端模块示意图;图4为本专利技术实施例中非POI区域的文本行去除方法流程图;图5为本专利技术实施例中又一图像中的文本行定位方法流程图;图6为本专利技术实施例中图像中的文本行定位装置示意图;图7为本专利技术实施例中一种服务器的结构示意图;图8为本专利技术实施例中一种图像中的文本行定位系统的结构示意图;图9为图8所示的图像中的文本行定位系统的移动采集设备的结构示意图;图10为图9所示的移动采集设备的第一处理器的结构示意图;图11为本专利技术实施例一个具体输入图像的示意图;图12为确定出的图11所示的输入图像的文本行区域结果示意图;图13为确定出的图12所示的输入图像的POI区域结果示意图;图14为确定出的图12所示的输入图像的每个POI区域的文本行信息结果示意图;图15为本专利技术实施例中采集车的图像采集设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性本文档来自技高网...

【技术保护点】
1.一种图像中的文本行定位方法,其特征在于,包括:/n对输入图像进行文本行定位,确定输入图像的各个文本行区域;/n对输入图像进行区域分割,得到输入图像的兴趣点POI区域;/n确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;/n对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。/n

【技术特征摘要】
1.一种图像中的文本行定位方法,其特征在于,包括:
对输入图像进行文本行定位,确定输入图像的各个文本行区域;
对输入图像进行区域分割,得到输入图像的兴趣点POI区域;
确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;
对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。


2.如权利要求1所述的方法,其特征在于,所述对输入图像进行文本行定位,确定输入图像的各个文本行区域,包括:
在训练得到的第一机器学习模型中,对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域。


3.如权利要求2所述的方法,其特征在于,每当提取到一个图像的候选文本区域时,执行如下操作:
对所述候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
对所述候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
根据所述候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的文本行区域。


4.如权利要求2所述的方法,其特征在于,对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域,包括:
对输入图像进行特征提取,生成图像的全部候选文本区域;
对每个候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
对每个候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
根据每个候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的所有文本行区域。


5.如权利要求1所述的方法,其特征在于,所述对输入图像进行区域分割,得到输入图像的POI区域,包括:
在训练得到的第二机器学习模型中,对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域。


6.如权利要求5所述的方法,其特征在于,每当提取到一个图像的候选目标区域时,执行如下操作:
对所述候选目标区域进行位置回归和多分类,获取候选目标区域的准确位置和类别;
对所述候选目标区域进行图像分割,分割出候选目标区域的目标物体;
根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域。


7.如权利要求6所述的方法,其特征在于,根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。


8.如权利要求5所述的方法,其特征在于,所述对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域,包括:
对输入图像进行特征提取,生成图像的全部候选目标区域;
对每个候选目标区域进行位置回归和多分类,得到每个候选目标区域的准确位置和类别;
对确定位置和类别后的候选目标区进行图像分割,分割出候选目标区域中的目标物体;
根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域;
根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。


9.如权利要求7或8所述的方法,其特征在于,根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域,包括:
根据每个图像的目标区域的类别,区分图像的目标区域为POI区域或非POI区域,从所有图像的目标区域中选取出所有的POI区域。


10.如权利要求9所述的方法,其特征在于,所述确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组,包括:
根据文本行区域的准确位置及POI区域的准确位置,判断文本行区域与POI区域的相交面积是否超过设定阈值;
若是,确定所述文本行区域属于所述POI区域;
得到属于同一POI区域的至少...

【专利技术属性】
技术研发人员:刘昕冉陈泰红郝志会
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1