一种文本行提取方法及装置、电子设备制造方法及图纸

技术编号:21851386 阅读:35 留言:0更新日期:2019-08-14 00:31
本发明专利技术涉及场景文本检测技术领域,揭示了一种文本行提取方法及装置、电子设备。该方法包括:获取输入图像;对输入图像进行二值化处理,以获得二值输入图像;将二值输入图像输入混合神经网络模型以进行文本行标注,获得标有文本行特征线的输出图像;其中,该混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层;对标有文本行特征线的输出图像进行上采样,获得目标输出图像,以根据目标输出图像的文本行特征线,从输入图像中提取出相应的文本行;其中,目标输出图像的尺寸与输入图像的尺寸相匹配。实施本发明专利技术实施例,能够提高了文本行提取的鲁棒性。

A Text Line Extraction Method, Device and Electronic Equipment

【技术实现步骤摘要】
一种文本行提取方法及装置、电子设备
本专利技术涉及场景文本检测
,特别涉及一种文本行提取方法及装置、电子设备。
技术介绍
随着计算机的多媒体处理能力愈加强大,人们常常通过扫描仪等计算机输入设备将文档以图像格式输入计算机,以利用计算机处理和存储文档。为了从存储的文档图像中提取出文字信息,通常需要对文档图像进行版面分析,以识别出文档图像中文本信息所在区域,之后,去除文本信息所在区域的冗余噪声,从而提取出文本行。实践中发现,传统的文本行提取方式通常要求文档图像中的文本行具有一定平行度,并且位于指定的矩形区域内,因此,需要在提取文本行之前对文档图像进行倾斜校正、畸变校正等预处理,使得文本行提取的鲁棒性不高。
技术实现思路
为了解决相关技术中存在的文本行提取的鲁棒性不高的问题,本专利技术提供了一种文本行提取方法及装置、电子设备。本专利技术实施例第一方面公开了一种文本行提取方法,所述方法包括:获取输入图像;对所述输入图像进行二值化处理,以获得二值输入图像;将所述二值输入图像输入混合神经网络模型以进行文本行标注,获得标有文本行特征线的输出图像;其中,所述混合神经网络模型包括卷积层、最大池化层以及本文档来自技高网...

【技术保护点】
1.一种文本行提取方法,其特征在于,所述方法包括:获取输入图像;对所述输入图像进行二值化处理,以获得二值输入图像;将所述二值输入图像输入混合神经网络模型以进行文本行标注,获得标有文本行特征线的输出图像;其中,所述混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层;对所述标有文本行特征线的输出图像进行上采样,获得目标输出图像,以根据所述目标输出图像的文本行特征线,从所述输入图像中提取出相应的文本行;其中,所述目标输出图像的尺寸与所述输入图像的尺寸相匹配。

【技术特征摘要】
1.一种文本行提取方法,其特征在于,所述方法包括:获取输入图像;对所述输入图像进行二值化处理,以获得二值输入图像;将所述二值输入图像输入混合神经网络模型以进行文本行标注,获得标有文本行特征线的输出图像;其中,所述混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层;对所述标有文本行特征线的输出图像进行上采样,获得目标输出图像,以根据所述目标输出图像的文本行特征线,从所述输入图像中提取出相应的文本行;其中,所述目标输出图像的尺寸与所述输入图像的尺寸相匹配。2.根据权利要求1所述的方法,其特征在于,所述对所述输入图像进行二值化处理,以获得二值输入图像,包括:将所述输入图像从RGB颜色空间转换到灰度颜色空间,以获得灰度输入图像;对所述灰度输入图像进行二值化处理,以获得初始二值图像;其中,所述初始二值图像的背景色为白色;对所述初始二值图像进行颜色反转处理,以获得二值输入图像;其中,所述二值输入图像的背景色为黑色。3.根据权利要求1所述的方法,其特征在于,在所述获取输入图像之前,所述方法还包括:对用于训练模型的二值文本图像进行文本行标注,以获得目标二值图像;将所述二值文本图像和所述目标二值图像输入混合神经网络;根据所述目标二值图像调整所述混合神经网络的参数,直至利用所述混合神经网络对所述二值文本图像进行文本行标注后输出的图像与所述目标二值图像达到指定的匹配度时,生成混合神经网络模型。4.根据权利要求3所述的方法,其特征在于,所述对用于训练模型的二值文本图像进行文本行标注,以获得目标二值图像,包括:利用包围盒对用于训练模型的二值文本图像进行标注,以获得标有包围盒的二值文本图像;利用高斯滤波器对所述标有包围盒的二值文本图像中的文本行图像进行处理,以获得标有文本行特征线的二值文本图像;通过掩模对所述标有文本行特征线的二值文本图像进行冗余内容及噪声消除处理,以获得目标二值图像;其中,所述冗余内容包括插图、表格或者内部文本行;所述噪声包括图像边缘噪声。5.根据权利要求1所述的方法,其特征在于,所述混合神经网络模型包括第一网络层、第二网络层、第三网络层、第四网络层和第五网络层;所述第一网络层包括卷积层和最大池化层,所述第二网络层包括卷积层和最大池化层,所述第三网络层包括卷积层和长短期记忆网络层,所述第四网络层包括卷积层和长短期记忆网络层,所述第五网络层包括卷积层;所述将所述二值输入图像输入混合神经网络模型以进行文本行标注,获得标有文本行特征线的输出图像,包括:将所述二值输入图像经所述第一网络层进行卷积和过滤处理,获得第一处理图像;其中,所述第一处理图像的图像通道数大于所述二值输入图像的图像通道数,且所述第一处理图像的尺寸为所述二值输入图像的尺寸的二分之一;将所述第一处理图像经所述第二网络层进行卷积和过滤处理,获得第二处理图像;其中,所述第二处理图像的图像通道数大于所述第一处理图像的图像通道数,且所述第二处...

【专利技术属性】
技术研发人员:韩茂琨回艳菲王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1