The invention provides a method, device, device and readable medium for exact full-text query. The method includes: acquisition step, acquisition of text requiring exact query; query word generation step, word segmentation operation of said text to obtain n participles, and then combining adjacent participles in n participle to obtain n 1. In the query step, the query words are used in the inverted index table and the documents hit by the query are returned, where n is an integer greater than 1. The invention creatively puts forward that the adjacent words after word segmentation are combined into a new word, that is, two consecutive words are stored as one word in the inverted index table, and the location need not be judged when searching, which greatly improves the retrieval efficiency. Because the location information is not stored, the storage space occupied by the index table is greatly reduced. About storage resources.
【技术实现步骤摘要】
一种文本全文精确查询的方法、装置、设备及可读介质
本专利技术涉及检索
,特别是一种文本精确查询的方法、装置、设备及可读介质。
技术介绍
目前,现有技术中,一般文本全文检索引擎,是通过倒排索引的形式来实现的。倒排索引是指用来存储某一个词在一个或者多个文档中的映射关系。一篇文档建立全文检索,首先对文章进行分词,然后把每个词所在当前的文档号和文档位置累加到倒排索引中。这样查询一条语句,就可以把语句进行分词,然后通过倒排索引快速的找到各个分词所在的文档号,从而聚合找到语句所在的文档。精确查询是指查询的一条语句完整的出现在一篇文档中,按上面倒排索引查询到词所在的文档中还不够,还要读取每个词所在的文档中的位置,判断前后两个分词所在的同个文档中的位置也应该连续,这样才能符合要求。现有技术中,为了实现精确查询,建立索引时,除了存储分词的倒排索引,还要存储每个分词在文档中的所有位置,这样有两方面技术缺陷。1、要比较连续词出现的位置是否也连续,增加了计算性能。2、要存储分词所在的所有位置,对于大部分文档,分词所有位置的存储空间远大分词所在文档号的空间,浪费很大存储空间。
技术实现思路
本专利技术针对上述现有技术中的缺陷,提出了如下技术方案。一种文本精确查询的方法,该方法包括:获取步骤,获取需要进行精确查询的文本;查询词生成步骤,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词,将所述n个分词和n-1个组合分词作为查询词;查询步骤,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。更进一步地,所述方法还包 ...
【技术保护点】
1.一种文本精确查询的方法,其特征在于,该方法包括:获取步骤,获取需要进行精确查询的文本;查询词生成步骤,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n‑1个组合分词,将所述n个分词和n‑1个组合分词作为查询词;查询步骤,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。
【技术特征摘要】
1.一种文本精确查询的方法,其特征在于,该方法包括:获取步骤,获取需要进行精确查询的文本;查询词生成步骤,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词,将所述n个分词和n-1个组合分词作为查询词;查询步骤,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。2.根据权利要求1的方法,其特征在于,所述方法还包括:倒排索引表生成步骤,对待查询的文档进行分词操作获得m个分词,再将m分词中相邻的分词进行组合得到m-1个组合分词,使用m个分词和m-1个组合分词构建倒排序索引表;其中,倒排索引表生成步骤在所述获取步骤之前,m为大于1的整数。3.根据权利要求2的方法,其特征在于,所述查询命中的文档是指同时命中了n-1个组合分词的文档。4.根据权利要求3的方法,其特征在于,所述文档包括word、txt、web和pdf格式的文档至少之一。5.根据权利要求4的方法,其特征在于,所述查询步骤的操作为:首先使用n个分词进行查询获取第一查询结果集,再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集,将需要精确查询的文本与第二查询结果集中的文档进行匹配,筛选出匹配率大于或等于第一阈值的文档作为查询命中的文档返回。6.根据权利要求4的方法,其特征在于,所述第一阈值为100%。7.一种文本精确查询的装置,其特征在于,该装置包括:获取单元,获取需要进行精确查询的文本;查询词生成单元,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词...
【专利技术属性】
技术研发人员:朱智佳,吴鸿伟,王海滨,张永光,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。