基于深度学习的电子文档中标题印章指纹特征检测方法技术

技术编号:25087893 阅读:27 留言:0更新日期:2020-07-31 23:32
本发明专利技术公开了一种基于深度学习的电子文档中标题印章指纹特征检测方法,包括:对电子文档图片按比例进行手工标注作为训练集,其余作为测试集;搭建并训练集训练Faster‑RCNN模型;将测试集输入训练好的Faster‑RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;采用标注数据集对Faster‑RCNN模型进行迭代训练,导出最终的Faster‑RCNN模型的模型参数,输入电子文档图片,得到电子文档中标题印章指纹信息。本发明专利技术采用多次修改模型参数和迭代训练的方法,将基于深度学习的目标检测用于传统的案件电子卷宗文档处理领域后,极大方便了文档处理;采用半自动化标注,节约了人力。

【技术实现步骤摘要】
基于深度学习的电子文档中标题印章指纹特征检测方法
本专利技术涉及电子文档处理
,具体的说,是一种基于深度学习的电子文档中标题印章指纹特征检测方法。
技术介绍
当今社会是信息社会,信息资源已经成为当今社会重要的战略资源之一。信息资源的利用和开发水平已经成为推动经济、文化、科技和社会发展的重要动力。在司法领域,很多卷宗都是由自由文本的形式处理,识别文档中的字符目标和图像中的关键的图像图形,比如标题,印章,指纹等,目前主要依靠人工来观察,其效率低,消耗大,不利于提高文案处理效率。
技术实现思路
本专利技术的目的在于提供一种基于深度学习的电子文档中标题印章指纹特征检测方法,用于解决现有技术中依靠人工识别文档中的标题印章指纹特征效率低下的问题。本专利技术通过下述技术方案解决上述问题:一种基于深度学习的电子文档中标题印章指纹特征检测方法,包括:步骤S100:对电子文档图片按照预设比例进行手工标注,这部分数据作为训练集,其余部分作为测试集;步骤S200:搭建Faster-RCNN模型,采用训练集训练Faster-RCNN模型;步骤S300:将测试集输入训练好的Faster-RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;步骤S400:采用标注数据集对Faster-RCNN模型进行迭代训练,直到Faster-RCNN输出的目标类别和坐标准确为止;步骤S500:导出最终的Faster-RCNN模型的模型参数,输入电子文档图片,得到电子文档中标题印章指纹信息。所述步骤S200具体包括:步骤S210:迁移采用ImageNet数据预训练的模型数据,对Faster-RCNN模型参数进行初始化;步骤S220:将训练集输入Faster-RCNN模型,得到目标类别和坐标,将得到的目标类别和坐标分别与训练集的真实目标类别和真实坐标进行比较,采用BP算法,修改Faster-RCNN模型参数;步骤S230:返回步骤S220进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止。还包括统计小概率样本,抽取样本并制作小数据集,采用小数据集对步骤S400中的Faster-RCNN模型进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止。所述Faster-RCNN模型包括卷积层、区域候选网络、池化层和分类器,图像进入模型后,使用卷积层提取到图像的featuremaps,提取的featuremaps进入区域候选网络,区域候选网络提取proposals,池化层结合输入的featuremaps和proposals,提取proposalfeaturemaps,送入分类器进行判别目标类别和坐标,Faster-RCNN模型最终输出目标类别和坐标。本专利技术与现有技术相比,具有以下优点及有益效果:(1)本专利技术将基于深度学习的目标检测算法应用于案件电子卷宗文档处理中,可以检测并定位到文档中的字符目标和图像中的关键的图像图形,提取文档的关键特征,这些特征可以被展示给用户;将基于深度学习的目标检测用于传统的案件电子卷宗文档处理领域后,极大方便了文档处理。(2)本专利技术采用多次修改模型参数和迭代训练的方法,以及综合了长尾分布,提高检测结果的准确度;采用半自动化标注,节约了人力。附图说明图1为本专利技术的流程图。具体实施方式下面结合实施例对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。实施例:结合附图1所示,一种基于深度学习的电子文档中标题印章指纹特征检测方法,包括:(1):收集数据,抽取一部分案件电子卷宗文档,观察文档结构,针对需要提取出来的特征,设计出需要的检测的特征目标的,例如,红色指纹与灰色指纹,圆形印章与方形印章,标题等,以下称为被检测目标集合,设计好被检测目标集合后,将案件转换为图片格式;(2):搭建Faster-RCNN模型,所述Faster-RCNN模型包括卷积层、区域候选网络、池化层和分类器,图像进入模型后,使用卷积层提取到图像的featuremaps,提取的featuremaps进入区域候选网络,区域候选网络提取proposals,池化层结合输入的featuremaps和proposals,提取proposalfeaturemaps,送入分类器进行判别目标类别和坐标,Faster-RCNN模型最终输出目标类别和坐标;迁移采用ImageNet数据预训练的模型数据,对Faster-RCNN模型参数进行初始化;步骤A:将训练集输入Faster-RCNN模型,得到目标类别和坐标,将得到的目标类别和坐标分别与训练集的真实目标类别和真实坐标进行比较,采用BP算法,修改Faster-RCNN模型参数;步骤B:返回步骤A进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止采用训练集训练Faster-RCNN模型;(3)划分数据集:电子文档图片按照预设比例进行手工标注,手工标注的方法可以采用:使用左上点的x,y坐标和长,宽来定义一个矩形,矩形内的目标是被标注的目标;每一个矩形被标注为一个类别,如标题,指纹,印章;为提高的模型的精确度,标注数据集时,应该使用人工多次核对的方式尽量保证标注数据的准确性。如将其中的10%进行手工标注,这部分数据作为训练集,其余部分作为测试集;(4):训练模型和半自动标注:将测试集输入步骤B中训练好的Faster-RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;自动标注的数据可能有不准确的地方,需要人工复核,但是由于本方法10%用人工标注,90%采用自动标注,节约了大量人力。(5)训练模型:采用标注数据集对Faster-RCNN模型进行迭代训练,直到Faster-RCNN输出的目标类别和坐标准确为止;(6)处理长尾分布:统计小概率样本,抽取样本并制作小数据集;采用小数据集对步骤S400中的Faster-RCNN模型进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止;(7)导出模型:导出最终的Faster-RCNN模型的模型参数,输入任意一张电子文档图片,检测得到电子文档中标题印章指纹信息(类别和坐标)。尽管这里参照本专利技术的解释性实施例对本专利技术进行了描述,上述实施例仅为本专利技术较佳的实施方式,本专利技术的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。本文档来自技高网...

【技术保护点】
1.一种基于深度学习的电子文档中标题印章指纹特征检测方法,其特征在于,包括:/n步骤S100:对电子文档图片按照预设比例进行手工标注,这部分数据作为训练集,其余部分作为测试集;/n步骤S200:搭建Faster-RCNN模型,采用训练集训练Faster-RCNN模型;/n步骤S300:将测试集输入训练好的Faster-RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;/n步骤S400:采用标注数据集对Faster-RCNN模型进行迭代训练,直到Faster-RCNN输出的目标类别和坐标准确为止;/n步骤S500:导出最终的Faster-RCNN模型的模型参数,输入电子文档图片,得到电子文档中标题印章指纹信息。/n

【技术特征摘要】
1.一种基于深度学习的电子文档中标题印章指纹特征检测方法,其特征在于,包括:
步骤S100:对电子文档图片按照预设比例进行手工标注,这部分数据作为训练集,其余部分作为测试集;
步骤S200:搭建Faster-RCNN模型,采用训练集训练Faster-RCNN模型;
步骤S300:将测试集输入训练好的Faster-RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;
步骤S400:采用标注数据集对Faster-RCNN模型进行迭代训练,直到Faster-RCNN输出的目标类别和坐标准确为止;
步骤S500:导出最终的Faster-RCNN模型的模型参数,输入电子文档图片,得到电子文档中标题印章指纹信息。


2.根据权利要求1所述的基于深度学习的电子文档中标题印章指纹特征检测方法,其特征在于,所述步骤S200具体包括:
步骤S210:迁移采用ImageNet数据预训练的模型数据,对Faster-RCNN模型参数进行初始化;
步骤S220:将训练集输入Faster-RCNN模型,得到目标类别和坐标,将得到的目标类别和坐标...

【专利技术属性】
技术研发人员:蒋翱魏明欣张兵李丹钟夫
申请(专利权)人:同方赛威讯信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1