【技术实现步骤摘要】
一种融合文字图像中文字区域边缘信息的文字检测方法
本专利技术涉及自然场景图像文字检测
,特别涉及一种融合文字图像中文字区域边缘信息的文字检测方法。
技术介绍
图像文字可以反映出一幅图像的含义和内容。场景文本检测对于图像理解和检索具有重要价值。场景文本过程主要分为两部分:文本检测和文本识别。文本检测为定位文字区域在图像中的详细位置,文本识别为识别区域中为何种字符或文字。文本检测是场景文本处理的第一步,对文本识别的准确性至关重要。近年来,由于自然场景文本检测在互联网行业的成功应用,场景文本检测成为自动驾驶,场景理解和产品搜索的研究热点。自然场景文本检测与传统的OCR不同,场景文本检测面临多张字体,字体大小不一和背景复杂等各种挑战。传统的文本检测方法通常需要结合候选区域生成和过滤,区域合并等一系列处理,这导致需要多个模块来协调工作,运行时间变长和优化困难。随着神经网络和语义分割的发展,大量优秀模型被应用到文本检测的领域。场景文本检测可以分为两个分支。第一个分支是基于边框回归的方法。CTPN是一种使用Faste ...
【技术保护点】
1.一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text EdgeSemantics,FTES),其特征在于:使用FTES-Net语义分割网络对包含文字的图像多次进行迭代学习,学习完成的FTES-Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图,提取文字边缘轮廓实现检测图像中任意形状的文字区域;包含以下主要步骤:/n步骤1:数据标注与数据增强;/n步骤2 ...
【技术特征摘要】
1.一种融合文字图像中文字区域边缘信息的文字检测方法(FusingTextEdgeSemantics,FTES),其特征在于:使用FTES-Net语义分割网络对包含文字的图像多次进行迭代学习,学习完成的FTES-Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图,提取文字边缘轮廓实现检测图像中任意形状的文字区域;包含以下主要步骤:
步骤1:数据标注与数据增强;
步骤2:训练FTES-Net语义分割网络;
步骤3:获取文字轮廓。
2.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(FusingTextEdgeSemantics,FTES),其特征在于:
所述步骤1包括:
步骤1.1建立模型数据集:将采集到的文字图像构成原始数据集,对原始数据集图像中文字区域进行坐标点标注,通过逐次连接标注的坐标点构成文字区域轮廓框,轮廓框宽度根据文字区域面积动态设置,轮廓框内部区域标注为文字区域,轮廓框外部区域标注为背景区域,重新标注后的数据构成目标数据;
步骤1.2图像数据增强(Imagedataaugmentation):对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪、和随机缩放变换,分别获得模型训练数据集和模型目标数据集;
所述步骤2包括:
步骤2.1模型参数配置:在步骤1.2中获得模型训练数据集的总量为S;模型过程设置N个epochs,即模型迭代训练N次,设置每一个epoch的batch-size值为1,即在每次迭代训练过程中需要进行训练S次,每次1幅图像参与训练,模型训练使用Adam损失函数作为损失优化函数;
步骤2.2训练FTES-Net网络:将步骤1.2中模型训练数据集逐次输入给FTES-Net语义分割网络,FTES-Net网络经过前向传播生成包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,计算语义分割图与步骤1.2中模型目标数据集中对应标注图像的损失,损失函数采用多分类交叉熵损失函数和Dice损失函数按重要性进行权重分配后相加,以最小化损失函数为目...
【专利技术属性】
技术研发人员:彭博,高子平,李天瑞,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。