一种基于OCR的文书检测方法、装置及电子设备制造方法及图纸

技术编号：40269855 阅读：9 留言：0更新日期：2024-02-02 22:56

本申请提供一种基于OCR的文书检测方法、装置及电子设备。该方法包括：对拍摄的目标文书的文书图片进行OCR识别，得到文书图片的第一文字识别内容；根据第一文字识别内容和预设文书模板库，确定出文书图片所属的文书模板；根据文书图片所属的文书模板的所有比例关键词，从第一文字识别内容中确定出参照词；计算参照词在文书图片中的长度值，并将长度值确定为文书图片的阈值；将文书图片中长度在阈值以上的所有直线进行置灰处理；对置灰处理后的文书图片进行OCR识别，得到文书图片的第二文字识别内容，并根据第二文字识别内容生成目标文书的第一文书检测结果。本申请可以提升OCR对法律文书的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据识别，尤其涉及一种基于ocr的文书检测方法、装置及电子设备。

技术介绍

1、ocr（optical character recognition，光学字符识别）是指通过检测暗、亮的模式确定字符形状，然后用字符识别方法将字符形状翻译成计算机文字的技术。随着信息化发展，办公自动化成为一种大的趋势，在办公室环境中，往往需要处理大量的文件和纸质文档，通过使用ocr技术，可以将这些纸质文档转换为电子文件，便于存储、检索和共享。

2、目前，ocr技术在对法律文书这类特殊的文本进行识别时，往往对于其中带下划线的文字识别错误，存在识别准确率不高的问题。

技术实现思路

1、本申请实施例提供了一种基于ocr的文书检测方法、装置及电子设备，以解决现有ocr技术存在的识别准确率不高的问题。

2、第一方面，本申请实施例提供了一种基于ocr的文书检测方法，包括：

3、对拍摄的目标文书的文书图片进行ocr识别，得到文书图片的第一文字识别内容；

4、根据第一文字识别内容和预设文书模板库，确定出文书图片所属的文书模板；其中，预设文书模板库包括至少一种文书模板，文书模板包括至少一个模板匹配关键词和至少一个比例关键词，比例关键词的字数大于或者等于二；

5、根据文书图片所属的文书模板的所有比例关键词，从第一文字识别内容中确定出参照词；

6、计算参照词在文书图片中的长度值，并将长度值确定为文书图片的阈值；

7、将文书图片中长度在

8、对置灰处理后的文书图片进行ocr识别，得到文书图片的第二文字识别内容，并根据第二文字识别内容生成目标文书的第一文书检测结果。

9、第二方面，本申请实施例提供了一种基于ocr的文书检测装置，包括：

10、识别模块，用于对拍摄的目标文书的文书图片进行ocr识别，得到文书图片的第一文字识别内容；

11、模板确定模块，用于根据第一文字识别内容和预设文书模板库，确定出文书图片所属的文书模板；其中，预设文书模板库包括至少一种文书模板，文书模板包括至少一个模板匹配关键词和至少一个比例关键词，比例关键词的字数大于或者等于二；

12、参照词确定模块，用于根据文书图片所属的文书模板的所有比例关键词，从第一文字识别内容中确定出参照词；

13、阈值确定模块，用于计算参照词在文书图片中的长度值，并将长度值确定为文书图片的阈值；

14、置灰模块，用于将文书图片中长度在阈值以上的所有直线进行置灰处理；

15、第一检测模块，用于对置灰处理后的文书图片进行ocr识别，得到文书图片的第二文字识别内容，并根据第二文字识别内容生成目标文书的第一文书检测结果。

16、第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式方法的步骤。

17、本申请实施例提供一种基于ocr的文书检测方法、装置及电子设备，当对目标文书进行检测时，可以先对拍摄的目标文书的文书图片进行ocr识别，以得到文书图片的第一文字识别内容，之后再根据第一文字识别内容和预设文书模板库，确定出文书图片所属的文书模板，接着再根据文书图片所属的文书模板的所有比例关键词，从第一文字识别内容中确定出参照词，计算参照词在文书图片中的长度值，并将长度值确定为文书图片的阈值。之后，再将文书图片中长度在阈值以上的所有直线进行置灰处理。最后，对置灰处理后的文书图片进行ocr识别，得到文书图片的第二文字识别内容，从而可以得到目标文书的第一文书检测结果。如此，可以利用文书图片的阈值，即单独对拍摄的文书图片所个性化设置的阈值，来从文书图片的直线中区分出下划线，然后通过置灰处理，从而可以变相去除下划线对ocr文字识别的干扰，由于去除了下划线对ocr文字识别的干扰，从而极大提升了ocr文字识别准确率。

本文档来自技高网...

【技术保护点】

1.一种基于OCR的文书检测方法，其特征在于，包括：

2.根据权利要求1的基于OCR的文书检测方法，其特征在于，根据所述文书图片所属的文书模板的所有比例关键词，从所述第一文字识别内容中确定出参照词，包括：

3.根据权利要求1的基于OCR的文书检测方法，其特征在于，计算所述参照词在所述文书图片中的长度值，包括：

4.根据权利要求1的基于OCR的文书检测方法，其特征在于，根据所述第一文字识别内容和预设文书模板库，确定出所述文书图片所属的文书模板，包括：

5.根据权利要求1-4中任一项的基于OCR的文书检测方法，其特征在于，所述文书模板还包括至少一个特征关键词；

6.根据权利要求5的基于OCR的文书检测方法，其特征在于，根据所述特征词在文书图片中的像素点位置坐标，在所述文书图片中确定出与特征词相对应的特征判断区域，包括：

7.根据权利要求5的基于OCR的文书检测方法，其特征在于，根据所述特征判断区域中像素点的总个数和预设个数的大小关系，生成是否存在特征的判断结果，包括：

8.根据权利要求5的基于OCR的

9.一种基于OCR的文书检测装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如上的权利要求1至8中任一项的基于OCR的文书检测方法的步骤。

...

【技术特征摘要】

1.一种基于ocr的文书检测方法，其特征在于，包括：

2.根据权利要求1的基于ocr的文书检测方法，其特征在于，根据所述文书图片所属的文书模板的所有比例关键词，从所述第一文字识别内容中确定出参照词，包括：

3.根据权利要求1的基于ocr的文书检测方法，其特征在于，计算所述参照词在所述文书图片中的长度值，包括：

4.根据权利要求1的基于ocr的文书检测方法，其特征在于，根据所述第一文字识别内容和预设文书模板库，确定出所述文书图片所属的文书模板，包括：

5.根据权利要求1-4中任一项的基于ocr的文书检测方法，其特征在于，所述文书模板还包括至少一个特征关键词；

6.根据权利要求5的基于ocr的文书...

【专利技术属性】
技术研发人员：赵鹏，孟德旺，山姗，张天锋，李岩，王强，师国华，张茂杰，
申请(专利权)人：欣诚信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人