【技术实现步骤摘要】
一种改进的平行四边形候选框的文本检测方法
本专利技术涉及文本检测技术,特别涉及文字检测中候选框生成的方法。
技术介绍
OCR(OpticalCharacterRecognition),现泛指图像文字识别,即从图像视频中自动识别文字内容,属于AI计算机视觉的一个重要分支。移动互联网的爆炸式增长以及深度学习技术的普及,分别从业务需求与技术支撑两方面,进一步推动OCR领域发展。OCR技术可深入服务于广告推荐系统的图像内容提取、广告素材审核、广告图像创意、用户理解等等,OCR亦可应用于UGC图片视频过滤、医学影像识别、证件识别、文档识别、街景路牌识别等等。当今主流的OCR技术主要分为两步:1、文本检测,指的是精确定位出图像中文本的位置;2、文本识别,指的是精确的识别出文本检测中定位出来的图像的文本内容。传统的OCR技术主要是通过手工设计特征提取方法,再通过对连通域计算最小外接矩形实现对文本的定位。传统的OCR技术手工提取的特征较差,容易出现漏检、错检等问题。而随着信息技术的高速发展,图像数据的指数级增长,硬件条件的提升,基于 ...
【技术保护点】
1.一种改进的平行四边形候选框的文本检测方法,其特征在于,包括以下步骤:/n1)训练步骤:/n1-1)得到样本图像的预测特征谱;/n1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱为图像特征谱、分类特征谱为分类置信度;/n所述偏移学习模块用于输出预测特征谱与候选框在Y轴方向的偏移量至PriorBox层;/nPriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;/nPriorBox层计算平行四边形候选框的四个顶点坐标的方法为:/nx
【技术特征摘要】
1.一种改进的平行四边形候选框的文本检测方法,其特征在于,包括以下步骤:
1)训练步骤:
1-1)得到样本图像的预测特征谱;
1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱为图像特征谱、分类特征谱为分类置信度;
所述偏移学习模块用于输出预测特征谱与候选框在Y轴方向的偏移量至PriorBox层;
PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;
PriorBox层计算平行四边形候选框的四个顶点坐标的方法为:
x1=xcenter-bb_width/2
y1=ycenter-bb_height(1-dy)/2
x2=xcenter+bb_width/2
y2=ycenter-bb_height(1+dy)/2
x3=xcenter-bb_width/2
y3=ycenter+bb_width(1+dy)/2
x4=xcenter+bb_width/2
y4=ycenter+bb_height(1-dy)/2
其中,(xq,yq),q=1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点,xcenter、ycenter分别为预测特征谱的中心的横、纵坐标,bb_width、...
【专利技术属性】
技术研发人员:李宏亮,陶聚,王强,杨健榜,王晓鹏,罗鹏飞,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。