一种位于三维多平面文本的识别方法、装置、设备及介质制造方法及图纸

技术编号:34552367 阅读:15 留言:0更新日期:2022-08-17 12:37
本发明专利技术提供一种位于三维多平面文本的识别方法,包括:获取含有连续多平面的文本块的图像数据;对所述图像数据进行处理,得到特征向量数据;根据所述特征向量数据,得到图像数据内的平面信息数据;根据所述特征向量数据,得到图像数据内的文本图像信息数据;根据所述平面信息数据与所述文本图像信息数据,得到文本数据;根据所述文本数据,得到文字内容数据。通过本发明专利技术公开的一种位于三维多平面文本的识别方法,能够对三维场景下的文字进行识别。能够对三维场景下的文字进行识别。能够对三维场景下的文字进行识别。

【技术实现步骤摘要】
一种位于三维多平面文本的识别方法、装置、设备及介质


[0001]本专利技术涉及文字识别
,特别是涉及一种位于三维多平面文本的识别方法、装置、设备及介质。

技术介绍

[0002]近年来,随着深度学习技术的发展,基于文本图片的文本识别已经能获得很高的精确度。传统的人工智能文字识别技术无法理解复杂场景上的文字,例如三维场景由多个平面组成,当每个平面上都有文字时,传统的人工智能文字识别技术无法识别三维场景上的文字。现有技术中的文字检测识别方法存在只能解决二维单一平面中文本的识别任务,无法识别连续多平面下文本图像内的文字等问题。

技术实现思路

[0003]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种位于三维多平面文本的识别方法、装置、设备及介质,本专利技术能够对三维场景下的文字进行识别。
[0004]为实现上述目的及其他相关目的,本专利技术提供一种位于三维多平面文本的识别方法,包括:
[0005]获取含有连续多平面的文本块的图像数据;
[0006]对所述图像数据进行处理,得到特征向量数据;
[0007]根据所述特征向量数据,得到图像数据内的平面信息数据;
[0008]根据所述特征向量数据,得到图像数据内的文本图像信息数据;
[0009]根据所述平面信息数据与所述文本图像信息数据,得到文本数据;
[0010]根据所述文本数据,得到文字内容数据。
[0011]在本专利技术一实施例中,对所述图像数据进行处理,得到特征向量数据的步骤包括:
[0012]将所述图像数据作为参数,输入到卷积神经网络的残差网络内,得到中间数据;
[0013]将所述中间数据作为参数,输入到所述卷积神经网络的池化层内,得到特征向量数据;
[0014]其中,所述特征向量数据包括单通道像素级的文本分数特征图数据与多通道几何图形特征图数据。
[0015]在本专利技术一实施例中,
[0016]所述根据所述特征向量数据,得到图像数据内的平面信息数据包括:
[0017]将所述特征向量数据中的单通道像素级的文本分数特征图数据,输入到卷积神经网络的全连接层网络中,得到图像数据内的平面信息数据;
[0018]其中,所述平面信息数据包括平面数量数据与平面参数数据;
[0019]平面参数数据包括编码、法线以及偏移量;
[0020]全连接层网络的回归平面参数的损失函数,表示为:
[0021]其中,S
*
表示需要平面数量数据;
[0022]S表示网络中预设平面数量数据;
[0023]P
i*
表示预测目标点的三维坐标;
[0024]P
j
表示平面上拍摄点的三维坐标。
[0025]在本专利技术一实施例中,所述根据所述特征向量数据,得到图像数据内的文本图像信息数据包括:
[0026]将所述特征向量数据中的多通道几何图形特征图数据,输入到卷积神经网络中,得到图像数据内的文本图像信息数据;
[0027]其中,所述文本图像信息数据包括图像数据内文本块的位置数据与文本块方向数据。
[0028]在本专利技术一实施例中,根据所述平面信息数据与所述文本图像信息数据,得到文本数据的步骤包括:
[0029]根据平面信息数据中的平面参数数据,得到透视变换数据;
[0030]根据透视变换数据与文本图像信息数据中的文本块的位置数据,得到文本数据。
[0031]在本专利技术一实施例中,所述透视变换数据表示为:
[0032]其中,M表示透视变换矩阵,即透视变换数据;
[0033]θ表示文本框的旋转角度,文本框表示标注在文字区域外围的边框;
[0034]t
x
表示透视变换中x轴方向的平移参数;
[0035]t
y
表示透视变换中y轴方向的平移参数;
[0036]m表示透视变换中的放大参数。
[0037]在本专利技术一实施例中,所述透视变换中x轴方向的平移参数t
x
表示为:t
x
=d
l
*cosθ

d
t
*sinθ

u;
[0038]所述透视变换中y轴方向的平移参数t
y
表示为:t
y
=d
t
*cosθ+d
l
*sinθ

v;
[0039]所述透视变换中的放大参数m表示:
[0040]经过放射变换后特征图的宽度w表示为:w=m*(d
l
+d
r
);
[0041]其中,d
t
表示特征点到文本框最顶部的距离,特征点表示生成单通道像素级的文本分数特征图和多通道几何图形特征图;
[0042]d
b
表示特征点到文本框最底部的距离;
[0043]d
l
表示特征点到文本框最左部的距离;
[0044]d
r
表示特征点到文本框最右部的距离;
[0045]h表示经过放射变换后特征图的高度;
[0046]x、y、z表示经过透视变换得到的图片的坐标;
[0047]u、v、w表示特征点的坐标,[x,y,z]=M[u,v,w]。
[0048]本专利技术还提供一种位于三维多平面文本的识别装置,包括:
[0049]数据获取模块,用于获取含有连续多平面的文本块的图像数据;
[0050]提取模块,用于对所述图像数据进行处理,得到特征向量数据;
[0051]第一处理模块,用于根据所述特征向量数据,得到图像数据内的平面信息数据;
[0052]第二处理模块,用于根据所述特征向量数据,得到图像数据内的文本图像信息数据;
[0053]文本处理模块,用于根据所述平面信息数据与所述文本图像信息数据,得到文本数据;以及
[0054]文字识别模块,用于根据所述文本数据,得到文字内容数据。
[0055]本专利技术还提供一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述位于三维多平面文本的识别方法的步骤。
[0056]本专利技术还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现位于三维多平面文本的识别方法的步骤。
[0057]如上所述,本专利技术提供一种位于三维多平面文本的识别方法、装置、设备及介质,能够解决三维场景下多平面中文本的识别任务,可以对三维场景下的连续多平面的文本图像内的文字进行识别。
附图说明
[0058]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种位于三维多平面文本的识别方法,其特征在于,包括:获取含有连续多平面的文本块的图像数据;对所述图像数据进行处理,得到特征向量数据;根据所述特征向量数据,得到图像数据内的平面信息数据;根据所述特征向量数据,得到图像数据内的文本图像信息数据;根据所述平面信息数据与所述文本图像信息数据,得到文本数据;根据所述文本数据,得到文字内容数据。2.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,对所述图像数据进行处理,得到特征向量数据的步骤包括:将所述图像数据作为参数,输入到卷积神经网络的残差网络内,得到中间数据;将所述中间数据作为参数,输入到所述卷积神经网络的池化层内,得到特征向量数据;其中,所述特征向量数据包括单通道像素级的文本分数特征图数据与多通道几何图形特征图数据。3.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,所述根据所述特征向量数据,得到图像数据内的平面信息数据包括:将所述特征向量数据中的单通道像素级的文本分数特征图数据,输入到卷积神经网络的全连接层网络中,得到图像数据内的平面信息数据;其中,所述平面信息数据包括平面数量数据与平面参数数据;平面参数数据包括编码、法线以及偏移量;全连接层网络的回归平面参数的损失函数,表示为:其中,S
*
表示需要平面数量数据;S表示网络中预设平面数量数据;P
i*
表示预测目标点的三维坐标;P
j
表示平面上拍摄点的三维坐标。4.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,所述根据所述特征向量数据,得到图像数据内的文本图像信息数据包括:将所述特征向量数据中的多通道几何图形特征图数据,输入到卷积神经网络中,得到图像数据内的文本图像信息数据;其中,所述文本图像信息数据包括图像数据内文本块的位置数据与文本块方向数据。5.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,根据所述平面信息数据与所述文本图像信息数据,得到文本数据的步骤包括:根据平面信息数据中的平面参数数据,得到透视变换数据;根据透视变换数据与文本图像信息数据中的文本块的位置数据,得到文本数据。6.根据权利要求5所述的位于三维多平面文本的识别方法,其特征在于,所述透视变换数据M,表示为:
其中,M表示透视变换矩阵,即透视变换数据;θ表示文本框的旋转角度,文本框表示标注在文字区域外围的边框;t
x
表示透视变换中x轴方...

【专利技术属性】
技术研发人员:路强王子逸尚季蔚邹通成戴艺璟薛峰余烨
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1