The invention relates to a method for detecting and classifying multiple types of documents based on Faster RCNN. Firstly, we manually select a suitable number of documents as training pictures to produce training data sets; secondly, we study based on Faster RCNN model, adjust parameters according to the results of learning, do data enhancement processing, and retrain until we get a better model for detecting and classifying documents images; lastly, we preprocess the test images and use the trained model to map. The image is detected and classified. The method of the invention can also obtain better detection and classification results for document images with blurred and numerous angles; the method has strong practicability and good development prospects.
【技术实现步骤摘要】
基于Faster-RCNN的多类证件检测与分类方法
本专利技术涉及计算机视觉、深度学习与模式识别等领域,特别涉及一种基于Faster-RCNN的多类证件检测与分类方法,该方法可以与证件识别软件相结合,在检测分类各个证件后可以将证件传递给对应的软件识别系统进行识别处理。
技术介绍
随着科学技术与经济的发展,证件种类逐渐增多。政府企事业单位每天都不得不收集处理大量的证件。例如,保险行业在办理业务时需要收集各种各样的证件,然后进行归纳存储。由于基于传统机器学习的多类证件检测分类软件的准确率较低、速度较慢,已经不能满足市场的需求,而且市场上相关的软件较少,为了提高办公速度、节约人力物力、提高检测分类的准确率,市场迫切需要这样一款能够快速准确检测分类多类证件的软件。传统机器学习方法往往会带来泛化能力较弱等问题,该软件采用深度学习的方法,可以较好的解决这个问题。该软件利用Faster-RCNN模型对多类证件图像检测分类,取得了较高的准确率、提高了效率、节约了人力资源。并且该软件具有较好的结合性,可以根据实际需求与其它软件相结合。例如,可以将该软件和证件识别软件相结合,在得到检 ...
【技术保护点】
1.一种基于Faster‑RCNN的多类证件检测与分类方法,其特征在于,包括如下步骤:步骤S1、制作基于Faster‑RCNN的多类证件图像检测与分类的训练数据集;步骤S2、基于Faster‑RCNN的多类证件图像训练;步骤S3、多类证件测试图像预处理;步骤S4、基于Faster‑RCNN的多类证件图像检测与分类。
【技术特征摘要】
1.一种基于Faster-RCNN的多类证件检测与分类方法,其特征在于,包括如下步骤:步骤S1、制作基于Faster-RCNN的多类证件图像检测与分类的训练数据集;步骤S2、基于Faster-RCNN的多类证件图像训练;步骤S3、多类证件测试图像预处理;步骤S4、基于Faster-RCNN的多类证件图像检测与分类。2.根据权利要求1所述的基于Faster-RCNN的多类证件检测与分类方法,其特征在于,所述步骤S1的具体实现步骤如下:步骤S11、下载VOC2007数据集,将数据集放在data文件夹下;步骤S12、选择预定数量的多类证件图像作为训练数据集;步骤S13、对训练数据集中的图像进行标注,获取图像的名称、目标的类别、左上角坐标以及右下角坐标,并且将结果保存在txt文件中;步骤S14、将得到的txt文件生成对应的xml文件,用生成的xml文件替换VOC2007数据集下Annotations文件夹中的文件;步骤S15、根据得到的xml文件生成test、train、trainval和val的txt文件,用这四个txt文件替换VOC2007数据集下Main文件夹中的文件;步骤S16、用训练数据集中的多类证件图片替换VOC2007数据集下JPEGImages文件夹中的图片;步骤S17、模型参数初始化,下载预训练模型参数,将其放在data文件夹下。3.根据权利要求1所述的基于Faster-RCNN的多类证件检测与分类方法,其特征在于,所述步骤S2的具体实现步骤如下:步骤S21、利用ImageNet模型参数对RPN网络做初始化处理;步骤S22、进行参数配置:读入包括迭代次数、步长的相关参数并进行配置;步骤S23、获取训练数据:读入图片名称、GT框的坐标以及类别;步骤S24、对训练数据做数据增强处理,将图像水平翻转,并求取翻转后的相关信息;步骤S25、训练RPN网络并且保存相关信息;步骤S26、加载训练好的RPN网络;步骤S27、使用双线性插值法将训练图像缩放到统一大小,即利用如下式子:p(x+u,y+v)=(1-u)(1-v)p(x,y)+(1-u)vp(x,y+1)+u(1-v)p(x+1,y)+uvp(x+1,y+1)其中,用v来表示纵坐标为v,u来表示横坐标为u,u和v都是大于或等于0并且小于1的浮点数,用y来表示纵坐标为y,x表示横坐标为x,并且x与y都是整数;用p(x,y)来表示图像上横坐标为x、纵坐标为y处的像素值,并以此类推;步骤S28、利用RPN网络,使用前向传播的方法为每一张训练图片生成预测框,其中包括预测框的最小坐标、最大坐标以及每个框的得分,保存预测框信息;步骤S29、使用ImageNet模型参数对Fast-RCNN网络做初始化处理;步骤S210、读入GT框、预测框信息,并对读入的框进行筛选,排除坐标太小或超出图片大小的信息;步骤S211、获取预测框缩放和平移的尺度,即使用如下式子:tw=log(w/wb)th=log(h/hb)ti=(i-ib)/wbtj=(j-jb)/hb其中,wb表示anchorbox的宽,hb表示anchorbox的高,tw表示预测框在宽度上的缩放尺度,th表示预测框在高度上的缩放尺度,i表示预测框的中心横坐标,j表示预测框的中心纵坐标,w表示预测框的宽,h表示预测框的高,ib表示anchorbox的中心横坐标,jb表示anchorbox的中心纵坐标,ti表示预测框在横坐标上的平移尺度,tj表示预测框在纵坐标上的平移尺度;步骤S212、获取标定框缩放和平移的尺度,并使用如下式子:t'w=log(w'/wb)t'h=log(h'/hb)t′i=(i'-ib)/wbt'j=(j'-jb)/hb其中,w'表示标定框的宽,h'表示标定框的高为h',i'表示标定框的中心横坐标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。