本发明专利技术涉及计算机视觉与人工智能技术领域,特别是一种基于Faster
【技术实现步骤摘要】
一种基于Faster
‑
RCNN对BI图标题检测的方法
[0001]本专利技术涉及计算机视觉与人工智能
,特别是一种基于Faster
‑
RCNN对BI图标题检测的方法。
技术介绍
[0002]目标检测在过去的十几年中大致经历了两个历史时期:传统的目标检测和基于深度学习的目标检测。传统的目标检测算法大多是基于手工特征构建的。由于当时缺乏有效的图像表示,人们别无选择,只能设计复杂的特征表示,以及各种加速技术来用尽有限的计算资源。随着手工特征的性能趋于饱和,目标检测在2010年之后达到了一个饱和、稳定的水平。基于深度学习的目标检测的发展要追溯到2012年卷积神经网络的重生。由于深度卷积网络能够学习图像的鲁棒性和高层次特征表示,一个自然的问题是能否将其应用到目标检测中。R.Girshick等人在2014年率先打破僵局,提出了RCNN用于目标检测,从那时起,目标检测开始以前前所未有的速度发展。
[0003]在深度学习时代,目标检测可以分为两类:One
‑
Stage Detection和Two
‑
Stage Detection,在学术界和工业界普遍认为,前者速度快精度较差,而后者精度高速度较慢。
[0004]随着互联网的发展,在大数据时代的背景下,数据可视化需求日益徒增,为加快可视化应用的开发,以及对数据分析的完美支撑,各大互联网公司相继开发了自己的大数据可视化平台,如:PowerBI、DataBI、QuickBI等。相比于传统图标和与数据仪表盘,如今的数据可视化致力于更生动、友好的形式,即时呈现隐藏在瞬息万变且庞杂数据背后的业务分析。无论在政务、环保、医疗、电力还是交通领域,通过交互式实时数据可视化应用来帮助业务人员快速利用分析展示数据,越来越成为大数据解决方案中的一环。
[0005]通用的文字检测模型都是基于图片全局文字信息进行检测,例如开源的工具:chineseocr、chineseocr
‑
lite、PaddleOCR等,使用此方法可能会有以下缺陷:(1)可视化大屏图中的文字信息存在于图中的任何位置,其中,图表组件中的文字信息是需要根据数据源相应生成的,不需要人为去检测识别,另一方面,这部分信息在全局文字的占比很大,手动删除会影响配置BI图效率,进而影响用户体验;(2)可视化大屏图通常会有一些形状大小类似文字的图标,在通用检测模型中可能会被框出,影响文字识别结果。通用的文字检测模型由于训练数据的影响,训练的结果并不能适用当前Easy
‑
BI数据综合开发工具的需求。
技术实现思路
[0006]本专利技术基于Easy
‑
BI工具在配置效率上的需求,借鉴通用文字检测模型在全局文字上的识别,设计出一种对局部标题文字信息的检测模型,旨在方便在AI识图的时候方便用户配置标题信息。
[0007]一种基于Faster
‑
RCNN对BI图标题检测的方法,包括如下步骤:A、训练数据收集与标注利用爬虫在相关网站收集BI图集,进行训练集和验证集划分,按训练集与验证集
的比重为8:1配比,将目标数据分为三类,分为一级标题、二级标题和三级标题;一级标题为BI图的主标题,二级标题为BI图的分支标题,三级标题为BI图对应图表或文字的小标题;B、改进Faster
‑
RCNN算法模型采用Two
‑
Stage Detection模型中的Faster
‑
RCNN作为Baseline,具体网络结构与改进如下:B1、Backbone网络模型Backbone采用ResNet
‑
50,ResNet称为深度残差网络,50为网络层数;B2、FPN结构在目标检测领域中,使用FPN将Backbone模型最后一层特征图谱进行采样,并于每一个金字塔阶级的特征图进行合并,得到新的表征能力更强的不同金字塔层次的特征图谱,然后将ROI按照尺寸分别映射到特征图上,再将每个特征图谱上进行类别和位置预测;B3、DCN可变性卷积可变形卷积通过在卷积层中插入偏移值来增强网络的特征提取能力B4、ROIAlign层Faster
‑
RCNN在检测过程中添加ROIPooling层,进行后续的分类和包围框的回归操作,每一个候选区域保持浮点数边界不做量化;将候选区域分割成k*k个单元,每个单元的边界也不做量化;在每个单元中计算固定四个坐标位置,用双线内插法计算出这四个位置的值,然后最大池化操作;B5、OHEM算法对全图标题检测时,会遇到图片其他文字信息的干扰,且这些文字信息很可能成为网络中的难例负样本,加入OHEM算法让模型更容易的去发现标题文字和其他文字的区别;C、模型训练使用MMDetection框架搭建,并在GPU显卡上进行单卡训练;使用Albumentations第三方库操作,进行随机亮度对比度RandomBrightnessContrast、颜色抖动RGBShift、色调饱和度增强HueSaturationValue、随机通道交换ChannelShuffle、锐化IAASharpen、灰度转换ToGray等操作;使用Anchor将高宽比从原来的0.5、1、2,改为0.1、0.3、0.5、1;在Anchor编码阶段,Anchor与目标框的IOU值大于0.5的设置为正样本;学习率采用Warm up,初始学习率设置为0.001;由于单卡训练,Batch Size太大会造成显存不足,因此Batch Size设置为2;Epoch设置为15;D、训练实验结果超参数定义完成后,对网络模型进行训练,根据每一次迭代绘制loss曲线与准确率,目标检测领域选用评价指标为mAP,根据mAP指标,选取测试集图片进行测试,优化BI图标题。
[0008]本专利技术充分利用深度学习、大数据相关技术,通过可视化拖拽式快速构建可视化应用,极大提升了数据可视化应用研发效率,为大数据的快速高效应用提供了有力保证。数据可视化应用平台开发完成之际,需要经过开发人员多次配置展示屏图,发现标题文字组件的拖拽和输入会大幅增加配置时间,繁琐的文字输入也会使错误率增加,通过AI识图中
融入文字检测和识别以大幅降低错误发生概率。
附图说明
[0009]图1为FPN网络模型结构示意图;图2为普通卷积与可变形卷积对比示意图;图3为ROIAlign层具体操作示意图;图4为loss曲线分析准确率示意图。
具体实施方式
[0010]一种基于Faster
‑
RCNN对BI图标题检测的方法,包括如下步骤:A、训练数据收集与标注利用爬虫在相关网站收集BI图集,进行训练集和验证集划分,按训练集与验证集的比重为8:1配比,将目标数据分为三类,分为一级标题、二级标题和三级标题;一级标题为BI图的主标题,二级标题为BI图的分支标题,三级标题为BI图对应图表或文字的小标题;B、改进Faster
‑
RCNN算法模型采用Two
‑
St本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于Faster
‑
RCNN对BI图标题检测的方法,其特征在于包括如下步骤:A、训练数据收集与标注利用爬虫在相关网站收集BI图集,进行训练集和验证集划分,按训练集与验证集的比重为8:1配比,将目标数据分为三类,分为一级标题、二级标题和三级标题;一级标题为BI图的主标题,二级标题为BI图的分支标题,三级标题为BI图对应图表或文字的小标题;B、改进Faster
‑
RCNN算法模型采用Two
‑
Stage Detection模型中的Faster
‑
RCNN作为Baseline,具体网络结构与改进如下:B1、Backbone网络模型Backbone采用ResNet
‑
50,ResNet称为深度残差网络,50为网络层数;B2、FPN结构在目标检测领域中,使用FPN将Backbone模型最后一层特征图谱进行采样,并于每一个金字塔阶级的特征图进行合并,得到新的表征能力更强的不同金字塔层次的特征图谱,然后将ROI按照尺寸分别映射到特征图上,再将每个特征图谱上进行类别和位置预测;B3、DCN可变性卷积可变形卷积通过在卷积层中插入偏移值来增强网络的特征提取能力;B4、ROIAlign层Faster
‑
RCNN在检测过程中添加RO...
【专利技术属性】
技术研发人员:郝德浩,朱西华,雷坤东,孙力泽,
申请(专利权)人:中电万维信息技术有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。