基于印章识别的文档图像去噪方法、服务器及存储介质技术

技术编号:22532900 阅读:33 留言:0更新日期:2019-11-13 09:57
本发明专利技术涉及图像处理技术领域,提供了一种基于印章识别的文档图像去噪方法、服务器及存储介质。该方法接收客户端发出的文档图像去噪的请求,从预设数据库中获取预设数量的文档图像,利用预设的标注规则对文档图像的印章区域进行标注并生成训练样本集,将训练样本集输入SSD模型中进行训练,得到印章识别模型,将原始文档图像输入印章识别模型,识别出原始文档图像的印章区域,将原始文档图像作去噪处理,识别出原始文档图像中除印章区域外的噪点区域,对噪点区域以预设颜色进行填充,得到目标文档图像,并将目标文档图像反馈至客户端。利用本发明专利技术,通过识别出原始文档中的印章区域,避免文档图像在去噪过程中图像的印章被识别为噪声。

Document image denoising method, server and storage medium based on seal recognition

The invention relates to the technical field of image processing, and provides a document image denoising method, a server and a storage medium based on seal recognition. This method receives the request of document image denoising from the client, obtains the preset number of document images from the preset database, uses the preset annotation rules to label the seal area of the document image and generate the training sample set, inputs the training sample set into the SSD model for training, obtains the seal recognition model, and inputs the original document image into the seal recognition model for recognition The seal area of the original document image is extracted, the original document image is denoised, the noise area except the seal area in the original document image is identified, the noise area is filled with preset color, the target document image is obtained, and the target document image is fed back to the client. By using the invention, the seal area in the original document is recognized to avoid that the seal of the document image is recognized as noise in the process of denoising.

【技术实现步骤摘要】
基于印章识别的文档图像去噪方法、服务器及存储介质
本专利技术涉及图像处理
,尤其涉及一种基于印章识别的文档图像去噪方法、服务器及存储介质。
技术介绍
图像噪声(噪点)是指存在于图像数据中的不必要的或多余的干扰信息,噪声的存在严重影响了文档图像的质量,因此在图像增强处理和分类处理之前,需要将噪声区域与正常文本区域区分出来。目前,在对文档图像进行噪声识别及去除的过程中,由于人工加盖的印章存在模糊、不清晰或者轮廓不连续的情况,使得印章中部分区域容易被识别为噪声而被清除。如何避免文档图像在去噪过程中误识别印章的部分区域,已成为本领域技术人员亟待解决的问题。
技术实现思路
鉴于以上内容,本专利技术提供一种基于印章识别的文档图像去噪方法、服务器及存储介质,其目的在于解决文档图像在去噪过程中,图像的印章被识别为噪声而被清除的技术问题。为实现上述目的,本专利技术提供一种基于印章识别的文档图像去噪方法,该方法包括:接收步骤:接收客户端发出的文档图像去噪的请求,所述请求中包含待去噪的原始文档图像;训练步骤:从预设数据库中获取预设数量的文档图像,利用预设的标注规则对所述文档图像的印章区域进行标注并生成训练样本集,将所述训练样本集输入SSD模型中进行训练,得到印章识别模型;识别步骤:将所述原始文档图像输入所述印章识别模型,识别出所述原始文档图像的印章区域;及去噪步骤:将所述原始文档图像作去噪处理,识别出所述原始文档图像中除所述印章区域外的噪点区域,对所述噪点区域以预设颜色进行填充,得到目标文档图像,并将所述目标文档图像反馈至所述客户端。优选的,所述接收步骤还包括:对所述客户端的用户进行身份鉴定,用户身份鉴定通过则执行所述训练步骤,用户身份鉴定失败则拒绝所述文档图像去噪的请求,并生成预警信息反馈至所述客户端。优选的,所述利用预设的标注规则对所述文档图像的印章区域进行标注并生成训练样本集具体包括:利用预设的标注工具以矩形框的形式,分别标注出各所述文档图像的印章区域,并生成与各所述文档图像对应的预设格式的标注文件,其中,所述标注文件存储了该文档图像的印章区域的坐标数据,将各所述文档图像作为变量X、各所述文档图像对应的预设格式的标注文件作为因变量Y,生成所述训练样本集。优选的,所述印章识别模型的训练过程包括如下步骤:将所述训练样本集按预设比例分为第一数据集和第二数据集,所述第一数据集为训练集,所述第二数据集为验证集,所述训练集的样本数量大于所述验证集的样本数量;利用所述训练集中的各所述变量X及各所述因变量Y对所述SSD模型进行训练,每隔预设周期使用所述验证集对所述SSD模型进行验证,利用所述验证集中各所述变量X及各所述因变量Y对该SSD模型的准确率进行验证;及当所述准确率大于或者等于预设阈值时,则结束训练,得到所述印章识别模型,当所述准确率小于预设阈值时,则增加训练样本数量并重新执行训练步骤。优选的,所述将所述原始文档图像作去噪处理包括:对所述原始文档图像进行OTSU阈值化处理得到二值区域图像,并对所述二值区域图像进行行距离变换得到至少一个图像块;对所述图像块进行连通区域分析得到包围所述图像块的矩形框,以标记出所述图像块的位置;获取所述图像块的预设信息,并根据预先确定的计算规则计算得出所述图像块的预设变量值,若所述预设变量值满足预设阈值条件,判断所述图像块为噪点区域。为实现上述目的,本专利技术还提供一种服务器,该服务器包括:存储器及处理器,其特征在于,所述存储器上存储自动生成会议记录程序,所述自动生成会议记录程序被所述处理器执行,实现如下步骤:接收步骤:接收客户端发出的文档图像去噪的请求,所述请求中包含待去噪的原始文档图像;训练步骤:从预设数据库中获取预设数量的文档图像,利用预设的标注规则对所述文档图像的印章区域进行标注并生成训练样本集,将所述训练样本集输入SSD模型中进行训练,得到印章识别模型;识别步骤:将所述原始文档图像输入所述印章识别模型,识别出所述原始文档图像的印章区域;及去噪步骤:将所述原始文档图像作去噪处理,识别出所述原始文档图像中除所述印章区域外的噪点区域,对所述噪点区域以预设颜色进行填充,得到目标文档图像,并将所述目标文档图像反馈至所述客户端。优选的,所述利用预设的标注规则对所述文档图像的印章区域进行标注并生成训练样本集具体包括:利用预设的标注工具以矩形框的形式,分别标注出各所述文档图像的印章区域,并生成与各所述文档图像对应的预设格式的标注文件,其中,所述标注文件存储了该文档图像的印章区域的坐标数据,将各所述文档图像作为变量X、各所述文档图像对应的预设格式的标注文件作为因变量Y,生成所述训练样本集。优选的,所述印章识别模型的训练过程包括如下步骤:将所述训练样本集按预设比例分为第一数据集和第二数据集,所述第一数据集为训练集,所述第二数据集为验证集,所述训练集的样本数量大于所述验证集的样本数量;利用所述训练集中的各所述变量X及各所述因变量Y对所述SSD模型进行训练,每隔预设周期使用所述验证集对所述SSD模型进行验证,利用所述验证集中各所述变量X及各所述因变量Y对该SSD模型的准确率进行验证;及当所述准确率大于或者等于预设阈值时,则结束训练,得到所述印章识别模型,当所述准确率小于预设阈值时,则增加训练样本数量并重新执行训练步骤。优选的,所述将所述原始文档图像作去噪处理包括:对所述原始文档图像进行OTSU阈值化处理得到二值区域图像,并对所述二值区域图像进行行距离变换得到至少一个图像块;对所述图像块进行连通区域分析得到包围所述图像块的矩形框,以标记出所述图像块的位置;获取所述图像块的预设信息,并根据预先确定的计算规则计算得出所述图像块的预设变量值,若所述预设变量值满足预设阈值条件,判断所述图像块为噪点区域。为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于印章识别的文档图像去噪程序,所述基于印章识别的文档图像去噪程序被处理器执行时,可实现如上所述基于印章识别的文档图像去噪方法中的任意步骤。本专利技术提出的基于印章识别的文档图像去噪方法、服务器及存储介质,通过接收客户端发出的文档图像去噪的请求,然后从预设数据库中获取预设数量的文档图像,利用预设的标注规则对文档图像的印章区域进行标注并生成训练样本集,将训练样本集输入SSD模型中进行训练,得到印章识别模型,将原始文档图像输入印章识别模型,识别出原始文档图像的印章区域,将原始文档图像作去噪处理,识别出原始文档图像中除印章区域外的噪点区域,对噪点区域以预设颜色进行填充,得到目标文档图像,并将目标文档图像反馈至客户端。本专利技术能够通过识别出待去噪的原始文档中的印章区域,避免了文档图像在去噪过程中,图像的印章区域被识别为噪声而被清除。附图说明图1为本专利技术基于印章识别的文档图像去噪方法较佳实施例的应用环境图;图2为本专利技术服务器较佳实施例的示意图;图3为图2中基于印章识别的文档图像去噪程序较佳实施例的模块示意图;图4为本专利技术基于印章识别的文档图像去噪方法较佳实施例的流程图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描本文档来自技高网...

【技术保护点】
1.一种基于印章识别的文档图像去噪方法,应用于服务器,其特征在于,所述方法包括:接收步骤:接收客户端发出的文档图像去噪的请求,所述请求中包含待去噪的原始文档图像;训练步骤:从预设数据库中获取预设数量的文档图像,利用预设的标注规则对所述文档图像的印章区域进行标注并生成训练样本集,将所述训练样本集输入SSD模型中进行训练,得到印章识别模型;识别步骤:将所述原始文档图像输入所述印章识别模型,识别出所述原始文档图像的印章区域;及去噪步骤:将所述原始文档图像作去噪处理,识别出所述原始文档图像中除所述印章区域外的噪点区域,对所述噪点区域以预设颜色进行填充,得到目标文档图像,并将所述目标文档图像反馈至所述客户端。

【技术特征摘要】
1.一种基于印章识别的文档图像去噪方法,应用于服务器,其特征在于,所述方法包括:接收步骤:接收客户端发出的文档图像去噪的请求,所述请求中包含待去噪的原始文档图像;训练步骤:从预设数据库中获取预设数量的文档图像,利用预设的标注规则对所述文档图像的印章区域进行标注并生成训练样本集,将所述训练样本集输入SSD模型中进行训练,得到印章识别模型;识别步骤:将所述原始文档图像输入所述印章识别模型,识别出所述原始文档图像的印章区域;及去噪步骤:将所述原始文档图像作去噪处理,识别出所述原始文档图像中除所述印章区域外的噪点区域,对所述噪点区域以预设颜色进行填充,得到目标文档图像,并将所述目标文档图像反馈至所述客户端。2.如权利要求1所述的基于印章识别的文档图像去噪方法,其特征在于,所述接收步骤还包括:对所述客户端的用户进行身份鉴定,用户身份鉴定通过则执行所述训练步骤,用户身份鉴定失败则拒绝所述文档图像去噪的请求,并生成预警信息反馈至所述客户端。3.如权利要求1所述的基于印章识别的文档图像去噪方法,其特征在于,所述利用预设的标注规则对所述文档图像的印章区域进行标注并生成训练样本集具体包括:利用预设的标注工具以矩形框的形式,分别标注出各所述文档图像的印章区域,并生成与各所述文档图像对应的预设格式的标注文件,其中,所述标注文件存储了该文档图像的印章区域的坐标数据,将各所述文档图像作为变量X、各所述文档图像对应的预设格式的标注文件作为因变量Y,生成所述训练样本集。4.如权利要求3所述的基于印章识别的文档图像去噪方法,其特征在于,所述印章识别模型的训练过程包括如下步骤:将所述训练样本集按预设比例分为第一数据集和第二数据集,所述第一数据集为训练集,所述第二数据集为验证集,所述训练集的样本数量大于所述验证集的样本数量;利用所述训练集中的各所述变量X及各所述因变量Y对所述SSD模型进行训练,每隔预设周期使用所述验证集对所述SSD模型进行验证,利用所述验证集中各所述变量X及各所述因变量Y对该SSD模型的准确率进行验证;及当所述准确率大于或者等于预设阈值时,则结束训练,得到所述印章识别模型,当所述准确率小于预设阈值时,则增加训练样本数量并重新执行训练步骤。5.如权利要求1所述的基于印章识别的文档图像去噪方法,其特征在于,所述将所述原始文档图像作去噪处理包括:对所述原始文档图像进行OTSU阈值化处理得到二值区域图像,并对所述二值区域图像进行行距离变换得到至少一个图像块;对所述图像块进行连通区域分析得到包围所述图像块的矩形框,以标记出所述图像块的位置;获取所述图像块的预设信息,并根据预先确定的计算规则计算得出所述图像块的预设变量值,若所述预设变量值满足预设阈值条件,判断所述图像块为噪点区域。6....

【专利技术属性】
技术研发人员:于雪万慧建江少峰熊慧江曾江佑
申请(专利权)人:江西博微新技术有限公司
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1