一种基于OCR识别的全文检索方法及系统技术方案

技术编号：40638019 阅读：5 留言：0更新日期：2024-03-13 21:20

本发明专利技术提供了一种基于OCR识别的全文检索方法及系统，其方法，包括：采集待入库文件对应的文件源图，并对文件源图进行预处理，生成目标图像进行压缩后存储至图像子数据库；对目标图像进行OCR识别，将目标图像转换为文字信息，生成文本文件，存储至文本子数据库；基于目标图像与文本文件之间的对应关系，在图像子数据库和文本子数据库之间建立关联关系，生成图文入库文件；基于用户输入信息在文本子数据库中进行检索匹配，获得目标文件返回给用户端。本发明专利技术将非结构化数据转化为可检索的文本数据，实现了待入库文件的自动录入以及自动校对，完成对文本内容的全面检索帮助用户快速、准确地找到所需的信息，提高信息检索的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，特别涉及一种基于ocr识别的全文检索方法及系统。

技术介绍

1、随着计算机数据库技术的不断发展与各类电子档案的日益增多，用户对档案检索的要求也越来越高。目前大多数电子档案主要基于pdf、图片等，从实现全文检索来看，以无法满足用户需要，它的主要缺点是：(1)开放性差，很多系统数据库只能用自带的检索界面进行检索。与其他数据库系统未能很好的兼容(2)不支持全文检索方式，由于人力和技术的限制，多数不能实现结构化数据和非结构化数据关联。(3)制作效率低。由于采用人工录入和校队，数据加工速度慢，正确率不高。因此本专利技术提出一种基于ocr识别的全文检索方法及系统。

技术实现思路

1、本专利技术提供一种基于ocr识别的全文检索方法及系统，本专利技术将非结构化数据转化为可检索的文本数据，实现了待入库文件的自动录入以及自动校对，有效提高数据数字化速度以及正确率，降低人工文件管理压力，并实现对文本内容的全面检索帮助用户快速、准确地找到所需的信息，提高信息检索的效率和准确性。

2、本专利技术提供一种基于ocr识别的全文检索方法，包括：

3、步骤1：采集待入库文件对应的文件源图，并对文件源图进行预处理，生成目标图像进行压缩后存储至图像子数据库；

4、步骤2：对目标图像进行ocr识别，将目标图像转换为文字信息，生成文本文件，存储至文本子数据库；

5、步骤3：基于目标图像与文本文件之间的对应关系，在图像子数据库和文本子数据库之间建立多等级

6、步骤4：基于用户输入信息在文本子数据库中进行检索匹配，获得目标文件返回给用户端。

7、优选的，在一种基于ocr识别的全文检索方法中，步骤1，包括：

8、采集待入库文件对应的文件源图，基于文件源图对应的图像默认名称生成图像标签，添加至所述文件源图上；

9、对所述文件源图进行预处理，获得目标图像，其中，所述预处理包括图像去噪、灰度化、二值化等；

10、基于预设压缩率对目标图像进行压缩处理，根据同一图像标签对应的压缩后的目标图像生成图像文件，同时根据图像标签生成图像文件临时名称，发送至图像子数据库进行存储。

11、优选的，在一种基于ocr识别的全文检索方法中，步骤2，包括：

12、基于ocr识别获取目标图像上的文字信息，并获取同一图像标签对应的全部文字信息建立文字集合；

13、根据文字集合中各个文字信息对应的目标图像的默认编码顺序，文字集合中的文字信息进行整理，并根据整理结果进行文字拼接，获得完整文字文件；

14、对完整文字文件进行都全文纠错处理，获得文本文件，并提取文本文件的主题名称；

15、将主题名称作为文本文件名称后存储至文本子数据库中，并对对应的图像标签、临时名称进行同步修改更新。

16、优选的，在一种基于ocr识别的全文检索方法中，对完整文字文件进行都全文纠错处理，包括：

17、基于预设语义识别模型，对完整文字文件进行全文语义获取，并根据全无语义，对完整文字文件中的语句不通顺位置进行标记，获得疑错标记；

18、根据前后文逻辑关系，结合疑错标记，确定疑似错误区域；

19、参考疑似错误区域在目标图像中进行错误区域标记，基于ocr分别对各个错误区域进行精准识别，获得校准文字段；

20、将所述校准文字段与疑似错误区域的文字进行对比，并判断文字是否一致，若不一致，基于校准文字段对疑似错误区域的文字进行替换；

21、若一致，获取疑似错误区域的文字的第一字形特征以及错误区域的文字的第二字形特征，将第一字形特征与第二字形特征进行对比判断第一字形特征与第二字形特征是否一致；

22、若第一字形特征与第二字形特征一致，则判定疑似错误区域解除错误嫌疑，删除疑似错误区域标记及其对应的疑错标记；

23、若第一字形特征与第二字形特征不一致，则获取字形差异位置，基于字形差异对疑错标记位置的字形进行调整。

24、优选的，在一种基于ocr识别的全文检索方法中，将主题名称作为文本文件名称后存储至文本子数据库的过程中，包括：

25、获取文本子数据库的历史检索数据，基于历史检索数据，获取用户输入的检索信息对应的检索词，确定用户检索词涉及种类，生成检索点配置标准；

26、基于检索点配置标准对文本文件进行检索点信息提取，获取文本文件对应的检索配置信息；

27、基于文本文件存储信息，结合所述检索配置信息，生成文本文件对应的检索索引，并将所述检索索引添加至文本子数据库的索引列表中。

28、优选的，在一种基于ocr识别的全文检索方法中，步骤3，包括：

29、获取目标图像对应的图像文件与文本文件之间的第一对应关系，基于第一对应关系，建立一级关联关系；

30、并获取文本文件的拼接节点，获得多个文本块，确定每个文本块与图像文件中目标图像的第二对应关系，建立二级关联关系；

31、获取各个文本块对应的段落特征以及文本块对应的目标图像文字分布特征，将段落特征与文字分布特征进行对比，确定目标图像与文本块上的位置对应关系，建立三级关联关系；

32、基于所述一级关联关系、二级关联关系以及三级关联关系，生成图文入库文件。

33、优选的，在一种基于ocr识别的全文检索方法中，步骤4，包括：

34、获取用户输入信息，提取查询关键词，确定检索配置信息；

35、基于检索配置信息，结合索引列表在文本子数据库中进行检索匹配，获得目标文件；

36、将目标文件发送至用户端进行显示。

37、优选的，在一种基于ocr识别的全文检索方法中，将目标文件发送至用户端进行显示的同时，还包括：

38、基于目标文件名称在全部图文入库文件中进行查询，触发目标入库文件；

39、在接收到用户端对目标文件的原文查看操作时，确定用户的目标操作区域，基于目标操作区域大小确定用户对应的查看等级；

40、基于查看等级，调用结合目标入库文件中目标文件与图像文件对应等级的关联关系，获取对应的图像原文并返回至用户端。

41、本专利技术提供一种基于ocr识别的全文检索系统，包括：

42、源图处理模块，用于采集待入库文件对应的文件源图，并对文件源图进行预处理，生成目标图像进行压缩后存储至图像子数据库；

43、识别处理模块，用于对目标图像进行ocr识别，将目标图像转换为文字信息，生成文本文件，存储至文本子数据库；

44、图文关联模块，永远也基于目标图像与文本文件之间的对应关系，在图像子数据库和文本子数据库之间建立多等级关联关系，生成图文入库文件；

45、用户查询模块，用于基于用户输入信息在文本子数据库中进行检索匹配，获得目标文件返回给用户端。

46、优选的，在一种基本文档来自技高网...

【技术保护点】

1.一种基于OCR识别的全文检索方法，其特征在于，包括：

2.根据权利要求1所述的一种基于OCR识别的全文检索方法，其特征在于，步骤1，包括：

3.根据权利要求1所述的一种基于OCR识别的全文检索方法，其特征在于，步骤2，包括：

4.根据权利要求3所述的一种基于OCR识别的全文检索方法，其特征在于，对完整文字文件进行都全文纠错处理，包括：

5.根据权利要求3所述的一种基于OCR识别的全文检索方法，其特征在于，将主题名称作为文本文件名称后存储至文本子数据库的过程中，包括：

6.根据权利要求1所述的一种基于OCR识别的全文检索方法，其特征在于，步骤3，包括：

7.根据权利要求1所述的一种基于OCR识别的全文检索方法，其特征在于，步骤4，包括：

8.根据权利要求7所述的一种基于OCR识别的全文检索方法，其特征在于，将目标文件发送至用户端进行显示的同时，还包括：

9.一种基于OCR识别的全文检索系统，其特征在于，包括：

10.根据权利要求9所述的一种基于OCR识别的全文检索系统，其

...

【技术特征摘要】

1.一种基于ocr识别的全文检索方法，其特征在于，包括：

2.根据权利要求1所述的一种基于ocr识别的全文检索方法，其特征在于，步骤1，包括：

3.根据权利要求1所述的一种基于ocr识别的全文检索方法，其特征在于，步骤2，包括：

4.根据权利要求3所述的一种基于ocr识别的全文检索方法，其特征在于，对完整文字文件进行都全文纠错处理，包括：

5.根据权利要求3所述的一种基于ocr识别的全文检索方法，其特征在于，将主题名称作为文本文件名称后存储至文本子数据库的过程中，包括：<...

【专利技术属性】
技术研发人员：陆满标，史善春，罗汨江，
申请(专利权)人：广东铭太信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人