System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及ocr和图像生成,尤其涉及一种用于消除文档中印章的技术方法。
技术介绍
1、文本识别作为计算机视觉研究领域的重要分支,专注于在图像或自然场景中准确提取文字并将其转换为文本形式,以实现自动化的文字处理和理解。其广泛应用于各个领域,包括但不限于自动化办公、数字档案管理等。
2、目前,随着技术的不断发展,利用光学字符识别(ocr)对文档进行自动文本识别的技术已经较为成熟。然而,在实际应用中,许多合同、发票等重要文档中往往受到大量印章的影响,导致印章覆盖的文本部分难以准确识别。这一现象对ocr自动文本识别提出了挑战,限制了其在处理商务文件等关键领域的效能。因此,深入研究并探索消除文档中印章的技术方法变得至关重要,不仅有助于提高文本识别的准确性,还能为自动化办公、数字化档案管理等领域的应用提供更为可靠和高效的解决方案。
技术实现思路
1、为了解决以上技术问题,本专利技术提供了一种用于消除文档中印章的技术方法,从而显著提升光学字符识别(ocr)系统对被印章覆盖区域文字的识别准确率。通过本专利技术解决印章对文字识别造成的挑战,使ocr系统能够更可靠地处理文档,并确保文本信息的完整性和准确性,推动自动化办公、数字化档案管理等领域的效率和可靠性提升。
2、本专利技术的技术方案是:
3、一种用于消除文档中印章的技术方法,包括以下步骤:
4、s1、搜集包含印章的文档图像并进行标注制作印章检测数据集;
5、s2、训练yolov8进行
6、s3、生成印章并进行模拟仿真制作印章消除数据集;
7、s4、训练nafnet模型进行印章消除;
8、s5、串联yolov8和nafnet模型,构建一套印章消除处理流程pipeline。
9、进一步的,
10、采用该数据集对yolov8进行了训练,以建立一个印章检测模型,用于在文档中准确地识别和定位印章的位置。
11、其次将印章视为噪声,区分印章与文字之间的差异,使用nafnet模型实现对文档中印章的消除。
12、通过模拟仿真将印章合成到背景图像中作为噪声图像,并将背景图像视为标签图像。
13、再进一步的,
14、在步骤s2中,使用上述数据集对yolov8模型进行了训练,旨在实现对文档中印章区域的准确检测和裁剪。
15、在步骤s3中,对印章进行了生成和模拟仿真,具体如下:
16、将印章划分为四部分:印章标题,印章标题,印章编码,中心标志,针对不同类型的印章使用标注软件获取了上述四个组成部分在图像上的准确位置信息,然后通过随机组合来生成各个区域的信息。
17、利用pillow库和opencv根据该类别印章标注的位置信息,绘制了印章每个组成部分,完成了对印章图像的生成。
18、采用数种仿真手段对每张图像进行处理,包括旋转、像素缺失,以及随机调整图像的亮度、对比度、饱和度和锐度操作。
19、调整图像透明通道强度并与不同背景图像进行合成。
20、在步骤s5中,将经过训练的yolov8和nafnet模型有机地串联起来,形成了一个完整的处理流程pipeline,这个流程的输入是一张包含印章的文档图像,而输出则是经过消除印章处理后的图像。
21、本专利技术的有益效果是
22、通过印章消除技术,可以将合同、发票等重要文档中印章消除,实现对印章遮挡的文字的准确识别,不仅有助于提高文本识别的准确性,还能为自动化办公、数字化档案管理等领域的应用提供更为可靠和高效的解决方案。
本文档来自技高网...【技术保护点】
1.一种用于消除文档中印章的技术方法,其特征在于,
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求3所述的方法,其特征在于,
5.根据权利要求4所述的方法,其特征在于,
6.根据权利要求4所述的方法,其特征在于,
7.根据权利要求6所述的方法,其特征在于,
8.根据权利要求1所述的方法,其特征在于,
【技术特征摘要】
1.一种用于消除文档中印章的技术方法,其特征在于,
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求3所述的方法,其特征在于,
【专利技术属性】
技术研发人员:刘玉国,宋晨,段强,姜凯,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。