【技术实现步骤摘要】
图像识别方法以及装置
本申请涉及信息处理
,尤其涉及一种图像识别方法以及装置。
技术介绍
目前,随着图像识别技术的进步,服务提供方可以通过用户采集的图像,识别图像中包含的待识别对象,并将该待识别对象对应的信息返回给用户。例如,用户采集了一张花的图像,服务提供方可以通过图像识别技术,确定该图像中的花的品种,并返回给该用户。或者,用户采集了一张店铺门头的图像,服务提供方可通过图像识别技术识别该店铺,并将该店铺对应的信息(如菜品、评价等)返回给该用户。在现有技术中,对于图像中文字的识别,主要是基于对图像中的文本行识别,采用的方法通常是先利用训练好的完全卷积网络(FullyConvolutionalNetworks,FCN)确定图像中的文本行对应的区域,之后再通过确定该文本行的对应的区域最小连通区域,确定图像中文本行的最小外接矩形,最后利用文本行识别模型确定该图像中文本行的最小外接矩形包含的文本行的字符串。其中,常见的文本行识别模型包括:注意力(attention)模型、连接时间模型(ConnectionistTemporal ...
【技术保护点】
1.一种图像识别方法,其特征在于,包括:/n获取待识别的图像;/n根据所述图像,确定所述图像中至少一个文本行对应的多边形区域;/n针对每个多边形区域,根据预先训练的角度纠正模型,确定该多边形区域包含的文本行在所述图像中的文字竖直方向;/n根据该多边形区域,确定该多边形区域对应的最小外接矩形;/n根据确定出的文字竖直方向以及该多边形区域,调整该多边形区域对应的最小外接矩形中竖边的位置以及长度,并根据调整后的竖边确定所述文本行对应的外接四边形区域,作为待识别区域;/n确定所述图像中各待识别区域分别包含的文本行的字符串。/n
【技术特征摘要】
1.一种图像识别方法,其特征在于,包括:
获取待识别的图像;
根据所述图像,确定所述图像中至少一个文本行对应的多边形区域;
针对每个多边形区域,根据预先训练的角度纠正模型,确定该多边形区域包含的文本行在所述图像中的文字竖直方向;
根据该多边形区域,确定该多边形区域对应的最小外接矩形;
根据确定出的文字竖直方向以及该多边形区域,调整该多边形区域对应的最小外接矩形中竖边的位置以及长度,并根据调整后的竖边确定所述文本行对应的外接四边形区域,作为待识别区域;
确定所述图像中各待识别区域分别包含的文本行的字符串。
2.如权利要求1所述的方法,其特征在于,根据预先训练的角度纠正模型,确定该多边形区域包含的文本行在所述图像中的文字竖直方向,具体包括:
将包含该多边形区域的图像输入预先训练的角度纠正模型,确定该多边形区域与所述图像的水平方向的夹角;
根据确定出的夹角,确定该多边形区域包含的文本行中字符在所述图像中的文字竖直方向。
3.如权利要求1所述的方法,其特征在于,根据确定出的文字竖直方向以及该多边形区域,调整该多边形区域对应的最小外接矩形中竖边的位置以及长度,并根据调整后的竖边确定所述文本行对应的外接四边形区域,具体包括:
根据确定出的最小外接矩形以及所述文字竖直方向,确定所述文本行对应的外接四边形的竖边所在的直线;
根据确定出的竖边所在的直线、该多边形区域对应的凸包的每个角点、所述最小外接矩形的四个角,确定所述文本行对应的外接四边形区域。
4.如权利要求3所述的方法,其特征在于,根据确定出的最小外接矩形以及所述文字竖直方向,确定所述文本行对应的外接四边形的竖边所在的直线,具体包括:
针对所述最小外接矩形的每条竖边,确定沿所述文字竖直方向穿过该竖边的中点的直线,为所述文本行对应的外接四边形的竖边所在的直线。
5.如权利要求3所述的方法,其特征在于,根据确定出的竖边所在的直线、该多边形区域对应的凸包的每个角点、所述最小外接矩形的四个角,确定所述文本行对应的外接四边形区域,具体包括:
确定该多边形区域对应的每个角点,作为第一类型点;
确定所述最小外接矩形的每个角所在的点,作为第二类型点;
针对每个第二类型点,确定各第一类型点与该第二类型点的连线,以及确定各连线所在的直线与各竖边所在的直线的交点;
根据该第二类型点与其他第二类型点的位置关系,从各交点中确定所述文本行对应的外接四边形...
【专利技术属性】
技术研发人员:左凯,程钰茗,应晓伟,
申请(专利权)人:汉海信息技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。