【技术实现步骤摘要】
本专利技术属于特殊文件检索,特别涉及一种面向基础搜索平台的特殊文件增强检索方法及装置。
技术介绍
1、随着企业数字化转型和新一代数字技术的快速发展,各大企业通过业务数字化将业务过程中的各类原始信息记录并转化为数据,并将数据、信息技术作为新的生产要素整合叠加至原有的业务流程中。随着数据的增多,企业通过建设基础搜索系统来实现海量数据的检索和定位。电子文件的检索与获取主要通过查询文件的名称、全文检索或版式文件生成的知识图谱定位到目标文件。基础搜索平台不对多源异构的原始数据中的文档细分类型并加以标注,文档的解析过程一般是默认做统一解析和文字抽取,如使用开源的libreoffice 技术。
2、在企业数字化转型过程中,大量业务文档以扫描件和加密件(禁止编辑,仅可阅读)等特殊形式存在,或主要内容以图像形式插入在文档中。这些特殊文档类型在基础搜索平台中难以被有效处理,即使采用libreoffice等主流文件解析工具,也无法准确提取其中的文本内容。这导致用户在使用搜索功能时,无法通过检索定位到这些特殊文档,严重影响了搜索平台的实用性和用户体
3本文档来自技高网...
【技术保护点】
1.一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,包括:
2.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于:所述步骤S1中,特殊文件分类及定义包括:
3.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于:所述步骤S2中,特殊文件定位策略包括:
4.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,步骤S3中,特殊文件基础信息持久化包括:
5.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,步骤S4中,周
...【技术特征摘要】
1.一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,包括:
2.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于:所述步骤s1中,特殊文件分类及定义包括:
3.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于:所述步骤s2中,特殊文件定位策略包括:
4.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,步骤s3中,特殊文件基础信息持久化包括:
5.根据权利要求1所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,步骤s4中,周期性开展增强数据加工,生成特殊文件对应的临时文本数据:
6.根据权利要求5所述的一种面向基础搜索平台的特殊文件增强检索方法,其特征在于,...
【专利技术属性】
技术研发人员:陈敏,方言,金虎,李克韩,
申请(专利权)人:中国长江三峡集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。