检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：19425237 阅读：18 留言：0更新日期：2018-11-14 10:37

本申请公开了一种检索方法、装置、计算机设备及存储介质。该方法包括：获取多个待分词的文本，将每一个待分词的文本进行分词，得到分词结果；将分词结果存储至分布式文档存储数据库，根据每一个待分词的文本及分词结果对应建立索引；获取客户端所发送的查询语句，将查询语句进行分词得到查询分词；若索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端。该方法通过在分布式文档存储数据库创建中文文本的索引，通过索引实现了对海量中文文本的高效的全文检索。

全部详细技术资料下载

【技术实现步骤摘要】
检索方法、装置、计算机设备及存储介质
本申请涉及文本检索
，尤其涉及一种检索方法、装置、计算机设备及存储介质。
技术介绍
目前中文全文检索的方法，用的最多的是基于Lucene内核(Lucene是一个开放源代码的全文检索引擎工具包)的Elasticsearch产品(ElasticSearch是一个基于Lucene的搜索服务器)，所以Lucene固有的问题，同样存在于Elasticsearch中。Lucene内核的中文全文检索，存在以下问题：1)当Lucene文件索引库特别大的时候，容易发生内存溢出的错误(即提示OutOfMemory错误)，查询也会变的非常的慢。2)Lucene不适合比较复杂的计算，并且没有对数据执行服务端脚本的能力。
技术实现思路
本申请提供了一种检索方法、装置、计算机设备及存储介质，旨在解决现有技术中基于Lucene内核的中文全文检索，在Lucene文件索引库特别大的时候，容易发生内存溢出的错误，导致查询效率低下的问题。第一方面，本申请提供了一种检索方法，其包括：获取多个待分词的文本，将每一个待分词的文本进行分词，得到分词结果；将分词结果存储至分布式文档存储数据库，根据每一待分词的文本及分词结果对应建立索引；获取客户端所发送的查询语句，将查询语句进行分词得到查询分词；若索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端。第二方面，本申请提供了一种检索装置，其包括：分词单元，用于获取多个待分词的文本，将每一个待分词的文本进行分词，得到分词结果；索引建立单元，用于将分词结果存储至分布式文档存储数据库，根据每一待分词的文...

【技术保护点】
1.一种检索方法，其特征在于，包括：获取多个待分词的文本，将每一个待分词的文本进行分词，得到分词结果；将分词结果存储至分布式文档存储数据库，根据每一个待分词的文本及分词结果对应建立索引；获取客户端所发送的查询语句，将查询语句进行分词得到查询分词；若索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端。

【技术特征摘要】
1.一种检索方法，其特征在于，包括：获取多个待分词的文本，将每一个待分词的文本进行分词，得到分词结果；将分词结果存储至分布式文档存储数据库，根据每一个待分词的文本及分词结果对应建立索引；获取客户端所发送的查询语句，将查询语句进行分词得到查询分词；若索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端。2.根据权利要求1所述的检索方法，其特征在于，所述将每一个待分词的文本进行分词，得到与每一个待分词的文本一一对应的分词结果，包括：按从左至右的顺序从当前的待分词的文本中取出候选词；在预先存储的词典中查询与每一候选词对应的概率值，并记录每一候选词的左邻词；计算获取每一候选词的累积概率，及每一候选词的多个左邻词的累积概率，若每一候选词的多个左邻词中存在累积概率为多个左邻词的累积概率中最大值的左邻词，将累积概率中最大值的左邻词作为与候选词对应的最佳左邻词；以待分词的文本的终点词为起点，从右至左依次输出与每一候选词对应的最佳左邻词，得到与当前的待分词的文本所对应分词结果。3.根据权利要求1所述的检索方法，其特征在于，所述根据每一待分词的文本及分词结果对应建立索引，包括：根据分词结果创建索引字典，所述索引字典中包括的每一个词语均对应中文文本的文档编号；将索引字典中包括的词语按照字典序进行排序；将相同的词语进行合并，并将相同的词语对应的文档编号进行归集，得到索引。4.根据权利要求1所述的检索方法，其特征在于，所述获取索引项对应的查询结果并发送至客户端，包括：获取查询结果中查询分词对应的词语频次；根据查询分词的词语频次对查询结果进行降序排序，得到降序排序结果；将降序排序结果发送至客户端。5.根据权利要求1所述的检索方法，其特征在于，所述若索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端之后，还包括：获取用户所选定的查询结果，根据用户所选定的查询结果及所录入的查询语句作为预先构建的朴素贝叶斯模型的输...

【专利技术属性】
技术研发人员：陈飞，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人