【技术实现步骤摘要】
本申请涉及信息检索,具体涉及pdf查找模式结合ocr识别的内容检索方法。
技术介绍
1、随着信息化进程的加快,pdf文件因其良好的可携带性和跨平台兼容性,成为存储和分享文档的主流选择。然而,随着pdf文件的广泛应用,如何高效、准确地从这些文件中检索所需信息,成为一个日益突出的挑战。
2、现有的pdf文件内容检索方法通常依赖于提取文本信息,通过ocr(光学字符识别)技术识别静态文本,这一过程往往只能针对标准的文本格式进行操作。在面对图像化pdf,尤其是那些包含各种批注以及多种字体和文字颜色的非标准文本格式的文档时,这些方法无法有效识别不同格式之间的关系和差异,导致信息检索的准确性大打折扣。其次,现有的检索方法往往采用单一的ocr模型来处理所有内容,检索过程缺乏针对性,忽略了不同内容格式之间的差异,导致对复杂内容的分类和识别能力有限,进一步加大了误检和漏检的风险。这些问题导致用户在寻找特定信息时需要耗费更多的时间和精力,降低了检索效率,影响了信息获取的体验。
技术实现思路
1、本申
...【技术保护点】
1.PDF查找模式结合OCR识别的内容检索方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,对当前图像化PDF文件的内容格式进行识别,获取多个内容格式;方法还包括:
3.如权利要求2所述的方法,其特征在于,对所述图像化PDF文件进行图像层提取后,方法还包括:
4.如权利要求1所述的方法,其特征在于,基于所述多个内容格式之间进行OCR识别异同性分析,获取所述多个内容格式对应的多个异同性指标,方法还包括:
5.如权利要求1所述的方法,其特征在于,按照所述N类内容格式的文本特征,构建N个内容识别模型,方
...
【技术特征摘要】
1.pdf查找模式结合ocr识别的内容检索方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,对当前图像化pdf文件的内容格式进行识别,获取多个内容格式;方法还包括:
3.如权利要求2所述的方法,其特征在于,对所述图像化pdf文件进行图像层提取后,方法还包括:
4.如权利要求1所述的方法,其特征在于,基于所述多个内容格式之间进行ocr识别异同性分析,获取所述多个内容格式对应的多个异同性指标,方法还包括:
5.如权利要...
【专利技术属性】
技术研发人员:贾若,何小敏,郑俐,刘从清,李志勇,
申请(专利权)人:北京鸿鹄云图科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。