文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号：39295567 阅读：10 留言：0更新日期：2023-11-07 11:03

本申请公开一种文本处理方法、装置、设备及存储介质，该方法包括：从待识别文件中提取待处理文本图像，通过不同直线检测方式分别检测所述待处理文本图像中的直线，对应得到第一直线和第二直线；确定所述第一直线和第二直线的非重合坐标点，根据所述非重合坐标点，确定有效直线；根据所述有效直线，确定待处理文本图像每行有效倾斜文字区域对应直线倾斜情况，根据所述直线倾斜情况，对待处理文本图像进行矫正，并对矫正后的文本进行特征提取，得到第一提取特征；根据所述第一提取特征，确定所述待处理文本图像的识别文本，本申请旨在提升对扭曲、倾斜等文本的识别准确率。倾斜等文本的识别准确率。倾斜等文本的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、设备及存储介质

[0001]本申请涉及通信计算机
，尤其涉及一种文本处理方法、装置、设备及存储介质。

技术介绍

[0002]随着电子办公的普及，纸质件需要被扫描为电子件并自动识别出其中的各部分内容。
[0003]目前一般可以使用OCR技术对扫描得到的电子件进行图像识别，得到其中的文本信息。但是文本的布局可能存在扭曲、褶皱、换向等问题(且电子件中图片经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等情况)，使得OCR技术在处理这类文本时会难以准确识别或存在识别错误的情况；
[0004]也即，现有技术中对扭曲、倾斜等文本存在识别准确率低下的问题。

技术实现思路

[0005]有鉴于此，本申请实施例提供一种文本处理方法、装置、设备及存储介质，旨在解决现有技术中对扭曲、倾斜等文本存在识别准确率低下的问题。
[0006]本申请实施例提供了一种文本处理方法，所述方法包括：
[0007]从待识别文件中提取待处理文本图像，通过不同直线检测方式分别检测所述待处理文本图像中的直线，对应得到第一直线和第二直线；
[0008]确定所述第一直线和第二直线的非重合坐标点，根据所述非重合坐标点，确定有效直线；
[0009]根据所述有效直线，确定待处理文本图像每行有效倾斜文字区域对应直线倾斜情况，根据所述直线倾斜情况，对待处理文本图像进行矫正，并对矫正后的文本进行特征提取，得到第一提取特征；
[0010]根据所述第一提取特征，确定所述待处理文本图像...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：从待识别文件中提取待处理文本图像，通过不同直线检测方式分别检测所述待处理文本图像中的直线，对应得到第一直线和第二直线；确定所述第一直线和第二直线的非重合坐标点，根据所述非重合坐标点，确定有效直线；根据所述有效直线，确定待处理文本图像每行有效倾斜文字区域对应直线倾斜情况，根据所述直线倾斜情况，对待处理文本图像进行矫正，并对矫正后的文本进行特征提取，得到第一提取特征；根据所述第一提取特征，确定所述待处理文本图像的识别文本。2.如权利要求1所述的文本处理方法，其特征在于，所述从待识别文件中提取待处理文本图像，通过不同直线检测方式分别检测所述待处理文本图像中的直线，对应得到第一直线和第二直线的步骤，包括：通过预设EDlines方法检测所述待处理文本图像中的直线，得到第一直线，将所述第一直线的直线坐标映射到预设第一笛卡尔坐标系统中；通过霍夫变换检测所述待处理文本图像中的直线，得到第二直线，将所述第二直线的直线坐标映射到预设第二笛卡尔坐标系统中；所述确定所述第一直线和第二直线的非重合坐标点，根据所述非重合坐标点，确定有效直线的步骤，包括：确定坐标映射后的第一直线和坐标映射后的第二直线的非重合坐标点，根据所述非重合坐标点，得到去除直线噪声后的目标坐标点；基于预设第三笛卡尔坐标系统，将所述目标坐标点转换回霍夫空间直线，将转换回的霍夫空间直线作为有效直线。3.如权利要求1所述的文本处理方法，其特征在于，所述根据所述有效直线，确定待处理文本图像每行有效倾斜文字区域对应直线倾斜情况，根据所述直线倾斜情况，对待处理文本图像进行矫正，并对矫正后的文本进行特征提取，得到第一提取特征的步骤，包括：根据所述有效直线，确定每行有效倾斜文字区域；确定每行有效倾斜文字区域的倾斜矩形范围；基于所述倾斜矩形范围，使用仿射变换算法确定每行有效倾斜文字区域的直线倾斜坐标以及直线倾斜角；根据所述直线倾斜坐标以及直线倾斜角，对待处理文本图像进行矫正；对矫正后的待处理文本图像进行特征提取，得到第一提取特征。4.如权利要求1所述的文本处理方法，其特征在于，所述根据所述第一提取特征，确定所述待处理文本图像的识别文本的步骤，包括：直接对所述待处理文本图像进行特征提取，得到第二提取特征；在不改变所述待处理文本图像相应文本字形的情况下，对所述第二提取特...

【专利技术属性】
技术研发人员：陈国，张春，李超，李翠芳，周庆达，钱丽丽，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人