一种面向基础搜索平台的特殊文件增强检索方法及装置制造方法及图纸

技术编号:46468334 阅读:7 留言:0更新日期:2025-09-23 22:29
本发明专利技术公开了一种面向基础搜索平台的特殊文件增强检索方法及装置,方法包括将特殊文件分类为PDF特殊文件或WORD特殊文件;制定适配于基础搜索平台的特殊文件定位策略,将特殊文件的唯一标识符关联基础搜索平台关系型数据库,按照预设的周期实施增强数据加工,生成特殊文件对应的临时文本数据并进行数据清洗加工,形成待写入的纯文本增强内容,将纯文本增强内容数据写入基础搜索平台索引库中对应的索引中,实现目标特殊文件索引能力增强;最后对索引库进行搜索请求;该方案解决了现有技术中基于开源文件解析工具的基础搜索平台无法适应特殊电子文档的内容搜索受限的问题,在不重构基础搜索平台现有架构的基础上,可实现特殊电子文件的内容增强检索。

【技术实现步骤摘要】

本专利技术属于特殊文件检索,特别涉及一种面向基础搜索平台的特殊文件增强检索方法及装置


技术介绍

1、随着企业数字化转型和新一代数字技术的快速发展,各大企业通过业务数字化将业务过程中的各类原始信息记录并转化为数据,并将数据、信息技术作为新的生产要素整合叠加至原有的业务流程中。随着数据的增多,企业通过建设基础搜索系统来实现海量数据的检索和定位。电子文件的检索与获取主要通过查询文件的名称、全文检索或版式文件生成的知识图谱定位到目标文件。基础搜索平台不对多源异构的原始数据中的文档细分类型并加以标注,文档的解析过程一般是默认做统一解析和文字抽取,如使用开源的libreoffice 技术。

2、在企业数字化转型过程中,大量业务文档以扫描件和加密件(禁止编辑,仅可阅读)等特殊形式存在,或主要内容以图像形式插入在文档中。这些特殊文档类型在基础搜索平台中难以被有效处理,即使采用libreoffice等主流文件解析工具,也无法准确提取其中的文本内容。这导致用户在使用搜索功能时,无法通过检索定位到这些特殊文档,严重影响了搜索平台的实用性和用户体验。

3本文档来自技高网...

【技术保护点】

1.一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,包括:

2.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于:所述步骤S1中,特殊文件分类及定义包括:

3.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于:所述步骤S2中,特殊文件定位策略包括:

4.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,步骤S3中,特殊文件基础信息持久化包括:

5.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,步骤S4中,周期性开展增强数据加工...

【技术特征摘要】

1.一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,包括:

2.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于:所述步骤s1中,特殊文件分类及定义包括:

3.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于:所述步骤s2中,特殊文件定位策略包括:

4.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,步骤s3中,特殊文件基础信息持久化包括:

5.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,步骤s4中,周期性开展增强数据加工,生成特殊文件对应的临时文本数据:

6.根据权利要求5所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,...

【专利技术属性】
技术研发人员:陈敏方言金虎李克韩
申请(专利权)人:中国长江三峡集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1