文本图像的二值化方法及装置、电子设备和介质制造方法及图纸

技术编号：32792884 阅读：29 留言：0更新日期：2022-03-23 19:54

本公开提供了一种文本图像的二值化方法、装置、电子设备、计算机可读存储介质和计算机程序产品，涉及计算机视觉领域，尤其涉及自然语言处理、文本识别技术领域。实现方案为：获取包含待识别文本的第一图像；对第一图像中的所有像素点基于预设的第一数值进行聚类，以确定第一数值个数的聚类中心值，第一数值为聚类类别数；对于第一图像中的每个像素点，将该像素点赋值为其相对应的聚类中心值，形成降维后图像；基于第一数值个数的聚类中心值中的每一个聚类中心值，获得与降维后图像相对应的第一数值个数的候选二值化图像；以及分别对候选二值化图像进行投影，以基于投影图像在第一数值个数的候选二值化图像中确定最优的二值化图像。数的候选二值化图像中确定最优的二值化图像。数的候选二值化图像中确定最优的二值化图像。

全部详细技术资料下载

【技术实现步骤摘要】
文本图像的二值化方法及装置、电子设备和介质

[0001]本公开涉及计算机视觉领域，尤其涉及自然语言处理、文本识别
，具体涉及一种文本图像的二值化方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]在光学字符识别(OCR)系统中，通常需要对待识别文本图像进行图像二值化(Image Binarization)。在复杂背景的文本图像的二值化过程中，往往由于背景纹理、背景颜色多变等影响导致前景与背景难以区分，对二值化造成很大干扰。

技术实现思路

[0004]本公开提供了一种文本图像的二值化方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面，提供了一种文本图像的二值化方法，包括：获取包含待识别文本的第一图像；对所述第一图像中的所有像素点基于预设的第一数值进行聚类，以确定第一数值个数的聚类中心值，其中所述第一数值为聚类类别数；对于所述第一图像中的每个像素点，将该像素点赋值为其相对应的聚类中心值，形成降维后图像；基于所述第一数值个数的聚类中心值中的每一个聚类中心值...

【技术保护点】

【技术特征摘要】
1.一种文本图像的二值化方法，包括：获取包含待识别文本的第一图像；对所述第一图像中的所有像素点基于预设的第一数值进行聚类，以确定第一数值个数的聚类中心值，其中所述第一数值为聚类类别数；对于所述第一图像中的每个像素点，将该像素点赋值为其相对应的聚类中心值，形成降维后图像；基于所述第一数值个数的聚类中心值中的每一个聚类中心值，获得与所述降维后图像相对应的所述第一数值个数的候选二值化图像；以及分别对所述候选二值化图像进行投影，以基于投影图像在所述第一数值个数的候选二值化图像中确定最优的二值化图像。2.如权利要求1所述的方法，其中，分别以所述聚类中心值为二值化阈值，获得与所述降维后图像相对应的所述第一数值个数的候选二值化图像包括：对于每一个聚类中心值，执行以下操作：获取与所述第一图像尺寸相同的空白图像；对于所述空白图像中的每一个像素点，当与该像素点相对应的所述降维后图像中的像素点的像素值为该聚类中心值时，将所述空白图像中的该像素点赋值为第二数值，否则赋值为第二数值，其中，所述第二数值不等于所述第三数值。3.如权利要求2所述的方法，其中，所述第二数值为0和255中的任意一个，所述第三数值为所述0和255中的另一个。4.如权利要求2所述的方法，其中，基于投影结果在所述多个候选二值化图像中确定最优的二值化图像包括：对于所述多个候选二值化图像中的每一个图像，获取投影方向上的每一列中的像素值为所述第二数值的像素点数量；基于每一列所对应的所述像素点数量，确定所述多个二值化候选图像各自对应的方差；以及确定所述方差最大的所述候选二值化图像以作为所述最优的二值化图像。5.如权利要求2所述的方法，其中，基于投影图像在所述多个候选二值化图像中确定最优的二值化图像包括：分别识别投影图像中的连通区域，其中所述连通区域为像素值为所述第二数值的像素点所形成的连通区域；确定每一个投影图像所对应的连通区域的数量；以及基于所述连通区域的数量确定所述最优的二值化图像。6.如权利要求5所述的方法，其中，确定每一个投影图像所对应的连通区域的数量包括：确定所识别出的每一个连通区域的像素点数量；过滤掉像素点数量小于所述预设阈值的连通区域；以及确定过滤后的每一个投影图像所对应的连通区域的数量。7.如权利要求6所述的方法，其中，所述预设阈值基于所述第一图像的高和宽确定。
8.如权利要求1所述的方法，其中，获取包含待识别文本的第一图像包括：获取包含待识别文本的原始图像；对所述原始图像进行文本识别并确定第一矩形块；以及确定所述第一矩形块所在的图像区域，以获得所述第一图像，其中，所述第一矩形块对应于待识别文本中的相应文字行。9.如权利要求8所述的方法，其中，获取包含待识别文本的第一图像还包括：响应于确定所述第一图像中的相应文字行处于倾斜状态，旋转所述第一图像一校正角度以使得所述第一图像中的相应文字行不处于所述倾斜状态。10.如权利要求8或9所述的方法，其中，获取包含待识别文本的第一图像还包括：响应于确定所述第一图像中的相应文字行为竖版类型，对所述第一图像进行翻转，以将所述相应文字行转为横板类型。11.如权利要求9所述的方法，其中，对所述第一图像进行翻转，以将所述相应文字行转为横板类型包括：基于所述第一图像所对应的第一矩形块的坐标信息确定所述第一图像的中心点；以及基于所述第一图像的中心点对所述第一图像进行翻...

【专利技术属性】
技术研发人员：常战国，吕一，邓天生，贠挺，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人