【技术实现步骤摘要】
图像文本识别方法、装置、电子设备及存储介质
本专利技术涉及视频
,尤其涉及一种图像文本识别方法、装置、电子设备及存储介质。
技术介绍
当前的场景文字识别成为计算机视觉行业研究的热点领域之一,有着广泛的应用前景。比如广告牌识别、车牌识别、银行卡信息录入等场景。但在实际应用中,受限于图像模糊、文字排列角度不规则、背景复杂等因素,高质量的场景文字识别也是一项艰巨的任务。针对场景文字排列规则的情况,目前存在很多方案可以完成较好的文本识别效果,但针对场景文字排列不规则的情况,其文本识别效果较差。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种图像文本识别方法、装置、电子设备及存储介质。第一方面,本专利技术实施例提供一种图像文本识别方法,包括:根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;对所 ...
【技术保护点】
1.一种图像文本识别方法,其特征在于,包括:/n根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;/n根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;/n对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。/n
【技术特征摘要】
1.一种图像文本识别方法,其特征在于,包括:
根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
2.根据权利要求1所述的图像文本识别方法,其特征在于,根据待识别图像获取图形位置特征,包括:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
3.根据权利要求2所述的图像文本识别方法,其特征在于,所述根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征,包括:
采用2D坐标信息编码公式获得图形位置特征;
其中,所述2D坐标信息编码公式包括:
phw为位置编码,E为图形特征,α(E)为图像的高尺度因子,β(E)为图像的宽尺度因子,根据E确定,具体如下:
其中,g(.)表示平均池化,表示权重,sigmoid为激活函数;
为高度方向上的位置编码,为宽度方向上的位置编码,由如下公式获得:
其中,p为位置坐标,D为位置特征向量的长度,i为位置特征向量的长度的计算维度。
4.根据权利要求1所述的图像文本识别方法,其特征在于,所述对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息,包括:
将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征;
将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,所述文本嵌入向量为...
【专利技术属性】
技术研发人员:曹中强,
申请(专利权)人:咪咕文化科技有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。