一种基于倒排索引的分布式搜索方法及装置制造方法及图纸

技术编号：38483686 阅读：13 留言：0更新日期：2023-08-15 17:00

本发明专利技术涉及软件算法领域，具体提供了一种基于倒排索引的分布式搜索方法及装置，具有如下步骤：S1、数据预处理；S2、数据分片；S3、建立本地索引；S4、合并索引；S5、查询操作。与现有技术相比，本发明专利技术可以利用集群中多台计算机的计算资源，实现数据的并行处理和查询加速，从而提高系统的性能。提高系统的性能。提高系统的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于倒排索引的分布式搜索方法及装置

[0001]本专利技术涉及软件算法领域，具体提供一种基于倒排索引的分布式搜索方法及装置。

技术介绍

[0002]数据搜索算法经历了从正向地、集中地搜索到倒序地、分布地发展过程。
[0003]倒排索引(Inverted Index)，也称为倒排索引、反向索引、反向文件等，是一种数据结构，用于快速查找给定单词(关键字)在文本中出现的位置。它将单词作为索引，将单词在文本中出现的位置作为记录，以此建立起单词到文本位置的映射关系。
[0004]示例如下，假设有以下三个文本：
[0005]文本1：我中午吃了水饺。
[0006]文本2：我中午吃了面条。
[0007]文本3：我中午吃了素水饺。
[0008]倒排索引的建立过程如下：
[0009]将每个文本按照单词分割，得到以下单词列表：
[0010]文本1：我,中,午,吃,了,水,饺。
[0011]文本2：我,中,午,吃,了,面,条。
[0012]文本3：我,中,午,吃,了,素,水,饺。
[0013]对每个单词建立倒排索引，将单词作为索引，将单词在文本中出现的位置作为记录，得到以下倒排索引表：
[0014]单词：我，文本位置：1,2,3；单词：中，文本位置：1,2,3；单词：午，文本位置：1,2,3；单词：吃，文本位置：1,2,3；单词：了，文本位置：1,2,3；单词：水，文本位置：1,3；单词：饺，文本位置：1,3；单词：素，文本位置：3；单词：面...

【技术保护点】

【技术特征摘要】
1.一种基于倒排索引的分布式搜索方法，其特征在于，具有如下步骤：S1、数据预处理；S2、数据分片；S3、建立本地索引；S4、合并索引；S5、查询操作。2.根据权利要求1所述的一种基于倒排索引的分布式搜索方法，其特征在于，在步骤S1中，从文本数据中提取出关键词，并对关键词进行一些必要的预处理，去除分词和停用词。3.根据权利要求2所述的一种基于倒排索引的分布式搜索方法，其特征在于，在步骤S2中，数据划分采用哈希分片的方式，将原始数据分散存储在多台机器上，哈希分片的实现如下：(1)数据均匀切分，哈希算法保证分布均匀；(2)分片后数据之间无关联，每个分片中的数据之间独立。4.根据权利要求3所述的一种基于倒排索引的分布式搜索方法，其特征在于，在步骤S3中，在分布式集群中，集群中的每台机器都需要建立本地索引，所述本地索引是每个机器上的倒排索引，所述倒排索引仅包含本地数据的索引信息。5.根据权利要求4所述的一种基于倒排索引的分布式搜索方法，其特征在于，建立本地索引需要满足以下要求：(1)索引数据存储在机器本地磁盘上；(2)索引数据格式化存储。6.根据权利要求5所述的一种...

【专利技术属性】
技术研发人员：崔德方，谢兴昶，翟海涛，王强，
申请(专利权)人：山东浪潮新基建科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人