System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 搜索引擎的建库方法、装置、存储介质以及终端制造方法及图纸_技高网

搜索引擎的建库方法、装置、存储介质以及终端制造方法及图纸

技术编号:40652542 阅读:8 留言:0更新日期:2024-03-13 21:29
本申请实施例公开了一种搜索引擎的建库方法、装置、存储介质以及终端,所述方法包括:终端获取原始文档数据,基于建库数据格式将所述原始数据转换成目标文档数据,获取指定分词数据,基于所述目标文档数据和所述指定分词数据建立分词与文档对应的目标索引库,获取全部分词数据,基于所述全部分词数据对所述目标索引库中的正排索引进行更新,以得到离线索引库。因此,本申请实施例在建立离线索引库的过程中,全程由终端完成建库操作,减少了人工操作,实现了终端自动化离线建库的效果。

【技术实现步骤摘要】

本申请涉及数据查询,尤其涉及一种搜索引擎的建库方法、装置、存储介质以及终端


技术介绍

1、随着互联网技术的发展,搜索引擎也在不断的完善,用户通过搜索引擎可以从互联网上获取各种信息。搜索引擎的实现通常包括离线建库和在线检索两部分,离线建库主要由开发人员完成网页抓取、网页处理等过程;在线搜索主要是进行以下处理过程:获取用户输入的句子、对用户输入的句子进行处理、匹配与句子相关的文档。


技术实现思路

1、本申请实施例提供了一种搜索引擎的建库方法、装置、计算机存储介质以及终端,可以在建立离线索引库的过程中,减少人工操作,实现终端自动化离线建库的效果。所述技术方案如下:

2、第一方面,本申请实施例提供了一种搜索引擎的建库方法,应用于终端,所述方法包括:

3、获取原始文档数据,基于建库数据格式将所述原始文档数据转换成目标文档数据;

4、获取指定分词数据,基于所述目标文档数据和所述指定分词数据建立分词与文档对应的目标索引库;

5、获取全部分词数据,基于所述全部分词数据对所述目标索引库中的正排索引进行更新,以得到离线索引库。

6、第二方面,本申请实施例提供了一种搜索引擎的建库装置,应用于终端,所述装置包括:

7、数据转换模块,用于获取原始文档数据,基于建库数据格式将所述原始文档数据转换成目标文档数据;

8、索引建立模块,用于获取指定分词数据,基于所述目标文档数据和所述指定分词数据建立分词与文档对应的目标索引库;p>

9、索引更新模块,用于获取全部分词数据,基于所述全部分词数据对所述目标索引库中的正排索引进行更新,以得到离线索引库。

10、第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

11、第四方面,本申请实施例提供了一种终端,可包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述存储器加载并执行上述的方法步骤。

12、本申请实施例提供的技术方案带来的有益效果至少包括:

13、在本申请实施例中,首先终端获取原始文档数据,基于建库数据格式将所述原始数据转换成目标文档数据,然后终端获取指定分词数据,基于所述目标文档数据和所述指定分词数据建立分词与文档对应的目标索引库,最后终端获取全部分词数据,基于所述全部分词数据对所述目标索引库中的正排索引进行更新,以得到离线索引库。因此,本申请实施例在建立离线索引库的过程中,全程由终端完成建库操作,减少了人工操作,实现了终端自动化离线建库的效果。

本文档来自技高网...

【技术保护点】

1.一种搜索引擎的建库方法,应用于终端,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于建库数据格式将所述原始文档数据转换成目标文档数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述全部分词数据对所述目标索引库中的正排索引进行更新,以得到离线索引库,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述目标文档数据和所述指定分词数据建立分词与文档对应的目标索引库,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于预设配置文件将所述正排索引进行转换,以得到分词与文档对应的目标索引库中的倒排索引之前,还包括:

6.根据权利要求5所述的方法,其特征在于,所述确定所述目标配置文件验证成功,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种搜索引擎的建库装置,应用于终端,其特征在于,所述装置包括:

9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。

10.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项的方法步骤。

...

【技术特征摘要】

1.一种搜索引擎的建库方法,应用于终端,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于建库数据格式将所述原始文档数据转换成目标文档数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述全部分词数据对所述目标索引库中的正排索引进行更新,以得到离线索引库,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述目标文档数据和所述指定分词数据建立分词与文档对应的目标索引库,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于预设配置文件将所述正排索引进行转换,以得到分词与文档对应的目标索引库中...

【专利技术属性】
技术研发人员:孙聚
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1