一种基于轮廓检测的电气设计图纸中文字提取方法及系统技术方案

技术编号:36297937 阅读:59 留言:0更新日期:2023-01-13 10:12
本发明专利技术涉及一种基于轮廓检测的电气设计图纸中文字提取方法及系统,包括:利用YOLOv5目标检测模型检测目标电气设计图纸中的文字所在区域;确定各文字所在区域的区域坐标,并根据区域坐标对目标电气设计图纸进行剪裁;将所有剪裁文字区域图片进行预处理;对每一预处理后的图片进行文字轮廓检测,并依据轮廓坐标进行排序;根据排序后的文字轮廓确定文字字样区域,并根据文字字样区域之间的水平距离判断是否进行图片拼接;将水平距离小于预设值的文字字样区域进行图片拼接;提取拼接后图片中的文字以及未进行拼接的文字字样区域的文字。本发明专利技术解决文字在图像中占比较小而无法识别的问题。问题。问题。

【技术实现步骤摘要】
一种基于轮廓检测的电气设计图纸中文字提取方法及系统


[0001]本专利技术涉及图像处理领域,特别是涉及一种基于轮廓检测的电气设计图纸中文字区域占比较少的文字提取方法及系统。

技术介绍

[0002]随着智能电网时代的来临,可视化监控电网现场设备的需求日益增加,电网系统中有大量电气设计图纸以图像文件遗存,它们是连接电网现场设备布局与可视化监控系统的重要桥梁,智能化地处理电气设计图纸对电网智能化非常重要。
[0003]其中,对于图纸中文字的识别往往先通过目标检测算法确定文字区域,然后再采用OCR技术对文字进行识别。但是在确定文字所在区域时发现存在大量空白区域,亦或出现文字间空隙过大问题,因而导致后续文字识别技术无法准确识别出区域文字。

技术实现思路

[0004]本专利技术的目的是提供一种基于轮廓检测的电气设计图纸中文字提取方法及系统,先检测电气设计图纸中的文字所在区域,并基于文字所在区域提取文字轮廓,得到文字字样所在区域,并对需要拼接的文字字样所在区域图片进行拼接,最终能够准确提取出文字字样区域中的文字,提高了文字识别的效率和准确性。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种基于轮廓检测的电气设计图纸中文字提取方法,包括:
[0007]利用YOLOv5目标检测模型检测目标电气设计图纸中的文字所在区域;所述文字所在区域中包括空白区域和文字字样区域;
[0008]确定各所述文字所在区域的区域坐标,并根据所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片;
[0009]将所有所述剪裁文字区域图片进行预处理;
[0010]对每一预处理后的图片进行文字轮廓检测,并对检测到的各文字轮廓依据轮廓坐标进行排序;
[0011]根据排序后的文字轮廓确定所述文字字样区域,并根据所述文字字样区域之间的水平距离判断各所述文字字样区域是否进行图片拼接;
[0012]将所述水平距离小于预设值的所述文字字样区域进行图片拼接;
[0013]提取拼接后图片中的文字以及未进行拼接的所述文字字样区域的文字。
[0014]可选的,所述利用YOLOv5目标检测算法检测电气设计图纸中的文字所在区域,具体包括:
[0015]对样本电气设计图纸中的文字所在区域进行标注;
[0016]利用标注后的样本电气设计图纸训练YOLOv5目标检测模型;
[0017]利用训练好的YOLOv5目标检测模型检测所述目标电气设计图纸中的所述文字所在区域。
[0018]可选的,所述确定各所述文字所在区域的区域坐标,并根据所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片,具体包括:
[0019]在所述文字区域检测时,在所述YOLOv5目标检测模型中设置save

txt参数,将检测出的所述文字所在区域的坐标保留在TXT文档中;
[0020]根据所述TXT文档中保留的所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片。
[0021]可选的,所述根据所述TXT文档中保留的所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片,具体包括:
[0022]将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件;
[0023]读取所述XML标注文件中保留的所述区域坐标,并对所述目标电气设计图纸进行剪裁,得到所述剪裁文字区域图片。
[0024]可选的,所述将所有所述剪裁文字区域图片进行预处理,具体包括:
[0025]所有所述剪裁文字区域图片进行灰度化处理;
[0026]将灰度化处理后的图片进行二值化处理。
[0027]可选的,所述对每一预处理后的图片进行文字轮廓检测,并对检测到的各文字轮廓依据轮廓坐标进行排序,具体包括:
[0028]使用OpenCV软件中的cv2.findContours函数对每一所述预处理后的图片中的文字轮廓进行检测;
[0029]对每一所述预处理后的图片,使用所述OpenCV软件中的cv2.boundingRect函数输出各所述文字轮廓的所述轮廓坐标;
[0030]将所述轮廓坐标保留在空列表中,并对所述轮廓坐标按照从小到大的顺序排序。
[0031]本专利技术还提供一种基于轮廓检测的电气设计图纸中文字提取系统,包括:
[0032]文字区域识别模块,用于利用YOLOv5目标检测模型检测目标电气设计图纸中的文字所在区域;所述文字所在区域中包括空白区域和文字字样区域;
[0033]剪裁模块,用于确定各所述文字所在区域的区域坐标,并根据所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片;
[0034]预处理模块,用于将所有所述剪裁文字区域图片进行预处理;
[0035]文字轮廓检测及排序模块,用于对每一预处理后的图片进行文字轮廓检测,并对检测到的各文字轮廓依据轮廓坐标进行排序;
[0036]文字字样区域确定模块,用于根据排序后的文字轮廓确定所述文字字样区域,并根据所述文字字样区域之间的水平距离判断各所述文字字样区域是否进行图片拼接;
[0037]图片拼接模块,用于将所述水平距离小于预设值的所述文字字样区域进行图片拼接;
[0038]文字提取模块,用于提取拼接后图片中的文字以及未进行拼接的所述文字字样区域的文字。
[0039]可选的,所述文字区域识别模块具体包括:
[0040]标注单元,用于对样本电气设计图纸中的文字所在区域进行标注;
[0041]训练单元,用于利用标注后的样本电气设计图纸训练YOLOv5目标检测模型;
[0042]检测单元,用于利用训练好的YOLOv5目标检测模型检测所述目标电气设计图纸中
的所述文字所在区域。
[0043]可选的,所述剪裁模块具体包括:
[0044]坐标保存单元,用于在所述文字区域检测时,在所述YOLOv5目标检测模型中设置save

txt参数,将检测出的所述文字所在区域的坐标保留在TXT文档中;
[0045]剪裁单元,用于根据所述TXT文档中保留的所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片。
[0046]可选的,所述剪裁单元具体包括:
[0047]文件格式转换子单元,用于将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件;
[0048]剪裁子单元,用于读取所述XML标注文件中保留的所述区域坐标,并对所述目标电气设计图纸进行剪裁,得到所述剪裁文字区域图片。
[0049]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0050]本专利技术提供一种基于轮廓检测的电气设计图纸中文字提取方法及系统,包括:利用YOLOv5目标检测模型检测目标电气设计图纸中的文字所在区域;确定各文字所在区域的区域坐标,并根据区域坐标对目标电气设计图纸进行剪裁;将所有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于轮廓检测的电气设计图纸中文字提取方法,其特征在于,包括:利用YOLOv5目标检测模型检测目标电气设计图纸中的文字所在区域;所述文字所在区域中包括空白区域和文字字样区域;确定各所述文字所在区域的区域坐标,并根据所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片;将所有所述剪裁文字区域图片进行预处理;对每一预处理后的图片进行文字轮廓检测,并对检测到的各文字轮廓依据轮廓坐标进行排序;根据排序后的文字轮廓确定所述文字字样区域,并根据所述文字字样区域之间的水平距离判断各所述文字字样区域是否进行图片拼接;将所述水平距离小于预设值的所述文字字样区域进行图片拼接;提取拼接后图片中的文字以及未进行拼接的所述文字字样区域的文字。2.根据权利要求1所述的基于轮廓检测的电气设计图纸中文字提取方法,其特征在于,所述利用YOLOv5目标检测算法检测电气设计图纸中的文字所在区域,具体包括:对样本电气设计图纸中的文字所在区域进行标注;利用标注后的样本电气设计图纸训练YOLOv5目标检测模型;利用训练好的YOLOv5目标检测模型检测所述目标电气设计图纸中的所述文字所在区域。3.根据权利要求1所述的基于轮廓检测的电气设计图纸中文字提取方法,其特征在于,所述确定各所述文字所在区域的区域坐标,并根据所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片,具体包括:在所述文字区域检测时,在所述YOLOv5目标检测模型中设置save

txt参数,将检测出的所述文字所在区域的坐标保留在TXT文档中;根据所述TXT文档中保留的所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片。4.根据权利要求3所述的基于轮廓检测的电气设计图纸中文字提取方法,其特征在于,所述根据所述TXT文档中保留的所述区域坐标对所述目标电气设计图纸进行剪裁,得到剪裁文字区域图片,具体包括:将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件;读取所述XML标注文件中保留的所述区域坐标,并对所述目标电气设计图纸进行剪裁,得到所述剪裁文字区域图片。5.根据权利要求1所述的基于轮廓检测的电气设计图纸中文字提取方法,其特征在于,所述将所有所述剪裁文字区域图片进行预处理,具体包括:所有所述剪裁文字区域图片进行灰度化处理;将灰度化处理后的图片进行二值化处理。6.根据权利要求1所述的基于轮廓检测的电气设计图纸中文字提取方法,其特征在于,所述对每一预处理后的图片进行文...

【专利技术属性】
技术研发人员:谭林林陈中曹卫国钱晶
申请(专利权)人:南京云阶电力科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1