PDF查找模式结合OCR识别的内容检索方法技术

技术编号：43688794 阅读：26 留言：0更新日期：2024-12-18 21:07

本申请提供了PDF查找模式结合OCR识别的内容检索方法，涉及信息检索技术领域，通过识别当前图像化PDF文件的内容格式，获取多个内容格式；在多个内容格式之间进行OCR识别异同性分析，获取对应的多个异同性指标；根据多个异同性指标进行分类，输出N类内容格式；按照内容格式的文本特征，构建N个内容识别模型；获取用户检索关键词，调用N个内容识别模型在文件中进行关键词检索，输出对应的多个内容检索返回结果，并在文件中进行定位显示。本申请解决了现有检索方法无法有效识别不同格式之间的关系和差异，导致极易出现识别错误和遗漏的技术问题，达到了提升图像化PDF文件内容检索的效率和准确性的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息检索，具体涉及pdf查找模式结合ocr识别的内容检索方法。

技术介绍

1、随着信息化进程的加快，pdf文件因其良好的可携带性和跨平台兼容性，成为存储和分享文档的主流选择。然而，随着pdf文件的广泛应用，如何高效、准确地从这些文件中检索所需信息，成为一个日益突出的挑战。

2、现有的pdf文件内容检索方法通常依赖于提取文本信息，通过ocr（光学字符识别）技术识别静态文本，这一过程往往只能针对标准的文本格式进行操作。在面对图像化pdf，尤其是那些包含各种批注以及多种字体和文字颜色的非标准文本格式的文档时，这些方法无法有效识别不同格式之间的关系和差异，导致信息检索的准确性大打折扣。其次，现有的检索方法往往采用单一的ocr模型来处理所有内容，检索过程缺乏针对性，忽略了不同内容格式之间的差异，导致对复杂内容的分类和识别能力有限，进一步加大了误检和漏检的风险。这些问题导致用户在寻找特定信息时需要耗费更多的时间和精力，降低了检索效率，影响了信息获取的体验。

技术实现思路

1、本申...

【技术保护点】

1.PDF查找模式结合OCR识别的内容检索方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，对当前图像化PDF文件的内容格式进行识别，获取多个内容格式；方法还包括：

3.如权利要求2所述的方法，其特征在于，对所述图像化PDF文件进行图像层提取后，方法还包括：

4.如权利要求1所述的方法，其特征在于，基于所述多个内容格式之间进行OCR识别异同性分析，获取所述多个内容格式对应的多个异同性指标，方法还包括：

5.如权利要求1所述的方法，其特征在于，按照所述N类内容格式的文本特征，构建N个内容识别模型，方法包括：

...

【技术特征摘要】

1.pdf查找模式结合ocr识别的内容检索方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，对当前图像化pdf文件的内容格式进行识别，获取多个内容格式；方法还包括：

3.如权利要求2所述的方法，其特征在于，对所述图像化pdf文件进行图像层提取后，方法还包括：

4.如权利要求1所述的方法，其特征在于，基于所述多个内容格式之间进行ocr识别异同性分析，获取所述多个内容格式对应的多个异同性指标，方法还包括：

5.如权利要...

【专利技术属性】
技术研发人员：贾若，何小敏，郑俐，刘从清，李志勇，
申请(专利权)人：北京鸿鹄云图科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人