【技术实现步骤摘要】
一种位于三维多平面文本的识别方法、装置、设备及介质
[0001]本专利技术涉及文字识别
,特别是涉及一种位于三维多平面文本的识别方法、装置、设备及介质。
技术介绍
[0002]近年来,随着深度学习技术的发展,基于文本图片的文本识别已经能获得很高的精确度。传统的人工智能文字识别技术无法理解复杂场景上的文字,例如三维场景由多个平面组成,当每个平面上都有文字时,传统的人工智能文字识别技术无法识别三维场景上的文字。现有技术中的文字检测识别方法存在只能解决二维单一平面中文本的识别任务,无法识别连续多平面下文本图像内的文字等问题。
技术实现思路
[0003]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种位于三维多平面文本的识别方法、装置、设备及介质,本专利技术能够对三维场景下的文字进行识别。
[0004]为实现上述目的及其他相关目的,本专利技术提供一种位于三维多平面文本的识别方法,包括:
[0005]获取含有连续多平面的文本块的图像数据;
[0006]对所述图像数据进行处理,得到特征向量数据;
[0007]根据所述特征向量数据,得到图像数据内的平面信息数据;
[0008]根据所述特征向量数据,得到图像数据内的文本图像信息数据;
[0009]根据所述平面信息数据与所述文本图像信息数据,得到文本数据;
[0010]根据所述文本数据,得到文字内容数据。
[0011]在本专利技术一实施例中,对所述图像数据进行处理,得到特征向量数据的步骤包括: ...
【技术保护点】
【技术特征摘要】
1.一种位于三维多平面文本的识别方法,其特征在于,包括:获取含有连续多平面的文本块的图像数据;对所述图像数据进行处理,得到特征向量数据;根据所述特征向量数据,得到图像数据内的平面信息数据;根据所述特征向量数据,得到图像数据内的文本图像信息数据;根据所述平面信息数据与所述文本图像信息数据,得到文本数据;根据所述文本数据,得到文字内容数据。2.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,对所述图像数据进行处理,得到特征向量数据的步骤包括:将所述图像数据作为参数,输入到卷积神经网络的残差网络内,得到中间数据;将所述中间数据作为参数,输入到所述卷积神经网络的池化层内,得到特征向量数据;其中,所述特征向量数据包括单通道像素级的文本分数特征图数据与多通道几何图形特征图数据。3.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,所述根据所述特征向量数据,得到图像数据内的平面信息数据包括:将所述特征向量数据中的单通道像素级的文本分数特征图数据,输入到卷积神经网络的全连接层网络中,得到图像数据内的平面信息数据;其中,所述平面信息数据包括平面数量数据与平面参数数据;平面参数数据包括编码、法线以及偏移量;全连接层网络的回归平面参数的损失函数,表示为:其中,S
*
表示需要平面数量数据;S表示网络中预设平面数量数据;P
i*
表示预测目标点的三维坐标;P
j
表示平面上拍摄点的三维坐标。4.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,所述根据所述特征向量数据,得到图像数据内的文本图像信息数据包括:将所述特征向量数据中的多通道几何图形特征图数据,输入到卷积神经网络中,得到图像数据内的文本图像信息数据;其中,所述文本图像信息数据包括图像数据内文本块的位置数据与文本块方向数据。5.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,根据所述平面信息数据与所述文本图像信息数据,得到文本数据的步骤包括:根据平面信息数据中的平面参数数据,得到透视变换数据;根据透视变换数据与文本图像信息数据中的文本块的位置数据,得到文本数据。6.根据权利要求5所述的位于三维多平面文本的识别方法,其特征在于,所述透视变换数据M,表示为:
其中,M表示透视变换矩阵,即透视变换数据;θ表示文本框的旋转角度,文本框表示标注在文字区域外围的边框;t
x
表示透视变换中x轴方...
【专利技术属性】
技术研发人员:路强,王子逸,尚季蔚,邹通成,戴艺璟,薛峰,余烨,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。