海量文件检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：19544342 阅读：18 留言：0更新日期：2018-11-24 20:42

本申请公开了一种海量文件检索方法、装置、计算机设备及存储介质。该方法包括：获取待建立索引的初始文本，判断初始文本是中文文本，或是英文文本；若初始文本是英文文本，对其进行分词得到英文分词结果，根据英文分词结果建立第一索引，将且存储在分布式内存网格中；若初始文本是中文文本，对其进行分词得到中文分词结果，根据中文分词结果建立第二索引，将其存储在分布式内存网格中；获取客户端所发送的查询语句，将查询语句进行分词得到查询分词；若第一索引或第二索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端。该方法通过分布式内存网格中存储索引，即使Lucene文件索引库过大时，也能快速的进行检索。

Massive document retrieval methods, devices, computer equipment and storage media

This application discloses a massive document retrieval method, device, computer equipment and storage medium. The method includes: acquiring the initial text to be indexed and judging whether the original text is Chinese or English; if the initial text is English, segmentation results are obtained, and the first index is established according to the results of English segmentation, and stored in the distributed memory grid; if the initial text is English, the first index will be stored in the distributed memory grid. Chinese text is segmented to get the result of Chinese word segmentation. According to the result of Chinese word segmentation, the second index is established and stored in distributed memory grid. The query statement sent by client is acquired, and the query word is segmented to get the query word segmentation. If there is a corresponding query word segmentation in the first index or the second index. The index item of the index item gets the query result corresponding to the index item and sends it to the client. This method stores the index in distributed memory grid, and can quickly retrieve even if the Lucene file index library is too large.

全部详细技术资料下载

【技术实现步骤摘要】
海量文件检索方法、装置、计算机设备及存储介质
本申请涉及文本检索
，尤其涉及一种海量文件检索方法、装置、计算机设备及存储介质。
技术介绍
目前中文海量全文检索的方法，用的最多的是基于Lucene内核(Lucene是一个开放源代码的全文检索引擎工具包)的Elasticsearch产品(ElasticSearch是一个基于Lucene的搜索服务器)，所以Lucene固有的问题，同样存在于Elasticsearch中。当基于Lucene内核的Elasticsearch产品中，Lucene文件索引库过大时，会导致检索效率低下。
技术实现思路
本申请提供了一种海量文件检索方法、装置、计算机设备及存储介质，旨在解决现有技术中基于Lucene内核的中文全文检索，在Lucene文件索引库特别大的时候，导致查询效率低下的问题。第一方面，本申请提供了一种海量文件检索方法，其包括：获取待建立索引的初始文本，判断初始文本是中文文本，或者是英文文本；若初始文本是英文文本，对英文文本进行分词得到英文分词结果，根据英文分词结果建立第一索引，将第一索引发送至预选建立的分布式内存网格中进行存储；若初始文本是中文文本，对中文文本进行分词得到中文分词结果，根据中文分词结果建立第二索引，将第二索引发送至所述分布式内存网格中进行存储；获取客户端所发送的查询语句，将查询语句进行分词得到查询分词；若第一索引或第二索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端。第二方面，本申请提供了一种海量文件检索装置，其包括：初始文本类型判断单元，用于获取待建立索引的初始文本，判断初始文本...

【技术保护点】
1.一种海量文件检索方法，其特征在于，包括：获取待建立索引的初始文本，判断初始文本是中文文本，或者是英文文本；若初始文本是英文文本，对英文文本进行分词得到英文分词结果，根据英文分词结果建立第一索引，将第一索引发送至预选建立的分布式内存网格中进行存储；若初始文本是中文文本，对中文文本进行分词得到中文分词结果，根据中文分词结果建立第二索引，将第二索引发送至所述分布式内存网格中进行存储；获取客户端所发送的查询语句，将查询语句进行分词得到查询分词；若第一索引或第二索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端。

【技术特征摘要】
1.一种海量文件检索方法，其特征在于，包括：获取待建立索引的初始文本，判断初始文本是中文文本，或者是英文文本；若初始文本是英文文本，对英文文本进行分词得到英文分词结果，根据英文分词结果建立第一索引，将第一索引发送至预选建立的分布式内存网格中进行存储；若初始文本是中文文本，对中文文本进行分词得到中文分词结果，根据中文分词结果建立第二索引，将第二索引发送至所述分布式内存网格中进行存储；获取客户端所发送的查询语句，将查询语句进行分词得到查询分词；若第一索引或第二索引中存在与查询分词对应的索引项，获取索引项对应的查询结果并发送至客户端。2.根据权利要求1所述的海量文件检索方法，其特征在于，所述根据英文分词结果建立第一索引，包括：根据英文分词结果创建英文索引字典，所述英文索引字典中包括的每一个单词均对应英文文本的文档编号；将英文索引字典中包括的单词按照字典序进行排序；将相同的单词进行合并，并将相同的单词对应的文档编号进行归集，得到第一索引。3.根据权利要求1所述的海量文件检索方法，其特征在于，所述对中文文本进行分词得到中文分词结果，包括：按从左至右的顺序从中文文本中取出候选词；在预先存储的词典中查询与每一候选词对应的概率值，并记录每一候选词的左邻词；计算获取每一候选词的累积概率，及每一候选词的多个左邻词的累积概率，若每一候选词的多个左邻词中存在累积概率为多个左邻词的累积概率中最大值的左邻词，将累积概率中最大值的左邻词作为与候选词对应的最佳左邻词；以中文文本的终点词为起点，从右至左依次输出与每一候选词对应的最佳左邻词，得到与中文文本所对应中文分词结果。4.根据权利要求1所述的海量文件检索方法，其特征在于，所述根据中文分词结果建立第二索引，包括：根据中文分词结果创建中文索引字典，所述中文索引字典中包括的每一个词语均对应中文文本的文档编号；将中文索引字典中包括的词语按照字典序进行排序；将相同的词语进行合并，并将相同的词语对应的文档编号进行归集，得到第二索引。5.根据权利要求1所述的海量文件检索方法，其特征在于，所述获取索引项对应的查询结果并发送至客户端，包括：获取查询结果中查询分词对应的词语频次；根据查询分词的词...

【专利技术属性】
技术研发人员：陈飞，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人