一种电子文档全文搜索优化方法及装置制造方法及图纸

技术编号:35305343 阅读:20 留言:0更新日期:2022-10-22 12:55
本发明专利技术公开了一种电子文档全文搜索优化方法及装置,包括以下步骤:S1.新增文档内容分片读取;S2.新增文档内容迁移;S3.新增文档内容预处理;S4.新增文档内容存储;S5.新增文档存储;S6.文档内容全文搜索,步骤S1中,新增文档内容分片读取,包括以下步骤:S11.在文档通过接口上传时,使用多线程方式对文档内容进行分片读取处理;S12.每个分片大小为8KB,文档内容分片后进行文档内容预处理流程,步骤S2中,新增文档内容迁移,包括以下步骤:S21.在同名文档通过接口重复上传时,将清除已有的同名文档对应记录在数据库中的内容。本发明专利技术实现了在不提高系统复杂度且无成本或低成本的情况下提供高效的电子文档全文搜索的能力。提供高效的电子文档全文搜索的能力。提供高效的电子文档全文搜索的能力。

【技术实现步骤摘要】
一种电子文档全文搜索优化方法及装置


[0001]本专利技术涉及信息管理
,具体地说,涉及一种电子文档全文搜索优化方法及装置。

技术介绍

[0002]在信息化的时代,机构组织或个人在线下生活及线上(互联网)生活种所产生的数据远超出其能够处理的范围。而从大量的信息中对信息进行有效的管理,成为了亟需解决的问题。为此,我们需要一个能够有效地进行内容提炼,内容存储,内容查询,内容管理的方式。
[0003]一些处于数字化转型初期和一些尚未进行数字化转型的机构组织对信息管理的方式仍然使用电子文档的形式进行存储。也有很多的信息管理相关应用,为了降低系统复杂度与提升性能,把信息主体内容以文档形式存储到磁盘中。
[0004]对使用文档存储的信息进行内容查询一般是借助外部工具(如:WPS、Office、文本编辑器等)。但是这种方式无法很好地进行多文档查询,而且对单文档内容查询也不高效。也有基于系统工程级别的解决方案——Elasticsearch(下简称ES),使用ES能够有效地提升性能与搜索效率,同时也提供了其他强大的内容处理及搜索功能。但是ES会增加系统复杂度,对于一般机构或个人来说增加了相当大的成本。
[0005]鉴于上述的缺点,本专利技术所解决的技术问题是如何在不提高系统复杂度且无成本或低成本的情况下提供高效的电子文档全文搜索的能力。

技术实现思路

[0006](一)解决的技术问题
[0007]针对现有技术的不足,本专利技术的目的在于提供一种如何在不提高系统复杂度且无成本或低成本的情况下提供高效的电子文档全文搜索优化方法及装置。
[0008](二)技术方案
[0009]本为实现上述目的,本专利技术提供如下技术方案,一种电子文档全文搜索优化方法及装置所采用的技术方案是:包括以下步骤:
[0010]S1.新增文档内容分片读取;
[0011]S2.新增文档内容迁移;
[0012]S3.新增文档内容预处理;
[0013]S4.新增文档内容存储;
[0014]S5.新增文档存储;
[0015]S6.文档内容全文搜索。
[0016]进一步地,所述步骤S1中,新增文档内容分片读取,包括以下步骤:
[0017]S11.在文档通过接口上传时,使用多线程方式对文档内容进行分片读取处理;
[0018]S12.每个分片大小为8KB,文档内容分片后进行文档内容预处理流程。
[0019]进一步地,所述步骤S2中,新增文档内容迁移,包括以下步骤:
[0020]S21.在同名文档通过接口重复上传时,将清除已有的同名文档对应记录在数据库中的内容。
[0021]进一步地,所述步骤S3中,新增文档内容预处理,包括以下步骤:
[0022]S31.在文档完成文档内容分片操作后,使用多线程方式对对应分片文档内容预处理;
[0023]S32.文档内容预处理过程中,会将以下特殊符号:换行符(\n)、跳格符(
)、软空格符(\r)进行内容移除;
[0024]S33.移除完成后,会将连续空格替换成单空格;
[0025]S34.文档内容预处理后,将所有分片合并成完整的文档预处理后的内容。
[0026]进一步地,所述步骤S4中,新增文档内容存储,包括以下步骤:
[0027]S41.在文档完成预处理流程后,使用多线程方式对文档内容进行重新分片,并将分片文档内容存储至数据库中;
[0028]S42.为确保内容被转义后能安全地记录至数据库中,重新分片的每个分片大小为4KB。
[0029]进一步地,所述步骤S5中,新增文档存储,包括以下步骤:
[0030]S51.在文档通过接口上传时,将文档以文件的形式存储在磁盘中。
[0031]进一步地,所述步骤S6中,文档内容全文搜索,包括以下步骤:
[0032]S61.接收单元接收到查询关键词后,将关键词进行预处理;
[0033]S62.预处理过程中,会将以下特殊符号:换行符(\n)、跳格符(
)、软空格符(\r)进行内容移除。移除完成后,会将连续空格替换成单空格;
[0034]S63.对关键词进行裁剪,若超过100个字符,则裁剪为100个字符;
[0035]S64.预处理后关键词为空字符串或为空格字符串,则跳出搜索,返回空结果集;
[0036]S65.关键词预处理后,将进行关键词切割处理,并生成子查询语句;若其中一个分片内容模糊匹配成功,则返回关联文档引用标识。
[0037]进一步地,所述步骤S65中,关键词预处理后进行切割,包括不切割与部分切割,其中,不切割即为关键词完整文本,将关键词完整文本生成为子查询语句,并追加至子查询语句列表中;部分切割即将关键词切割成两部分,分别为前分片关键词与后分片关键词。
[0038]进一步地,所述步骤S65中,生成子查询语句,包括以下步骤:
[0039]S651.生成子查询语句列表后,遍历列表所有子查询语句,并将其合并成完整的全文内容查询语句。
[0040]一种电子文档全文搜索装置,包括:
[0041]接收单元,接收待搜索信息;
[0042]分片读取单元,对待搜索信息进行分片处理;
[0043]迁移单元,对重复的待搜索信息与数据库中的重复内容对应;
[0044]预处理单元,对分片处理后的待搜索信息进行预处理;
[0045]文档内容存储单元,将预处理后的待搜索信息重新分片存储至数据库;
[0046]文档存储单元,对接收文档以文件形式存储至磁盘;
[0047]检索单元,将预处理后的待搜索信息进行搜索,获得查询结果集后,将查询并返回
对应文档关键内容:标题、创建时间、修改时间、创建人、修改人,等相关信息。
[0048](三)有益效果
[0049]与现有技术相比,本专利技术提供了一种电子文档全文搜索优化方法及装置,具备以下有益效果:
[0050]1、本专利技术实现了在不提高系统复杂度且无成本或低成本的情况下提供高效的电子文档全文搜索的能力。
附图说明
[0051]图1为本专利技术整体文档处理流程结构示意图。
具体实施方式
[0052]下面结合具体实施例和说明书附图对本专利技术做进一步阐述和说明:
[0053]请参阅图1,本专利技术:包括以下步骤:
[0054]S1.新增文档内容分片读取;
[0055]S2.新增文档内容迁移;
[0056]S3.新增文档内容预处理;
[0057]S4.新增文档内容存储;
[0058]S5.新增文档存储;
[0059]S6.文档内容全文搜索。
[0060]进一步地,步骤S1中,新增文档内容分片读取,包括以下步骤:
[0061]S11.在文档通过接口上传时,使用多线程方式对文档内容进行分片读取处理;
[0062]S12.每个分片大小为8KB,文档内容分片后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子文档全文搜索优化方法及装置,1、包括以下步骤:S1.新增文档内容分片读取;S2.新增文档内容迁移;S3.新增文档内容预处理;S4.新增文档内容存储;S5.新增文档存储;S6.文档内容全文搜索。2.根据权利要求1所述的一种电子文档全文搜索优化方法,其特征在于:所述步骤S1中,新增文档内容分片读取,包括以下步骤:S11.在文档通过接口上传时,使用多线程方式对文档内容进行分片读取处理;S12.每个分片大小为8KB,文档内容分片后进行文档内容预处理流程。3.根据权利要求1所述的一种电子文档全文搜索优化方法,其特征在于:所述步骤S2中,新增文档内容迁移,包括以下步骤:S21.在同名文档通过接口重复上传时,将清除已有的同名文档对应记录在数据库中的内容。4.根据权利要求1所述的一种电子文档全文搜索优化方法,其特征在于:所述步骤S3中,新增文档内容预处理,包括以下步骤:S31.在文档完成文档内容分片操作后,使用多线程方式对对应分片文档内容预处理;S32.文档内容预处理过程中,会将以下特殊符号:换行符(\n)、跳格符(\t)、软空格符(\r)进行内容移除;S33.移除完成后,会将连续空格替换成单空格;S34.文档内容预处理后,将所有分片合并成完整的文档预处理后的内容。5.根据权利要求1所述的一种电子文档全文搜索优化方法,其特征在于:所述步骤S4中,新增文档内容存储,包括以下步骤:S41.在文档完成预处理流程后,使用多线程方式对文档内容进行重新分片,并将分片文档内容存储至数据库中;S42.为确保内容被转义后能安全地记录至数据库中,重新分片的每个分片大小为4KB。6.根据权利要求1所述的一种电子文档全文搜索优化方法,其特征在于:所述步骤S5中,新增文档存储,包括以下步骤:S51.在文档通过接口上传时,将文档以文件的形式存储在磁盘中。7.根据...

【专利技术属性】
技术研发人员:陈志端吴鹏
申请(专利权)人:广州宇中网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1