一种文本全文精确查询的方法、装置、设备及可读介质制造方法及图纸

技术编号:19388935 阅读:45 留言:0更新日期:2018-11-10 02:02
本发明专利技术提供了一种文本全文精确查询的方法、装置、设备及可读介质,该方法包括:获取步骤,获取需要进行精确查询的文本;查询词生成步骤,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n‑1个组合分词,将所述n个分词和n‑1个组合分词作为查询词;查询步骤,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。本发明专利技术创造性的提出了将分词后的相邻的词语组合成一个新的词,即连续的两个词当做一个词存到倒排索引表中,检索时不需要判断位置,大大提高了检索效率,由于不用存储位置信息,大大减少了索引表所占的存储空间,节约了存储资源。

A method, device, device and readable medium for text full text exact query

The invention provides a method, device, device and readable medium for exact full-text query. The method includes: acquisition step, acquisition of text requiring exact query; query word generation step, word segmentation operation of said text to obtain n participles, and then combining adjacent participles in n participle to obtain n 1. In the query step, the query words are used in the inverted index table and the documents hit by the query are returned, where n is an integer greater than 1. The invention creatively puts forward that the adjacent words after word segmentation are combined into a new word, that is, two consecutive words are stored as one word in the inverted index table, and the location need not be judged when searching, which greatly improves the retrieval efficiency. Because the location information is not stored, the storage space occupied by the index table is greatly reduced. About storage resources.

【技术实现步骤摘要】
一种文本全文精确查询的方法、装置、设备及可读介质
本专利技术涉及检索
,特别是一种文本精确查询的方法、装置、设备及可读介质。
技术介绍
目前,现有技术中,一般文本全文检索引擎,是通过倒排索引的形式来实现的。倒排索引是指用来存储某一个词在一个或者多个文档中的映射关系。一篇文档建立全文检索,首先对文章进行分词,然后把每个词所在当前的文档号和文档位置累加到倒排索引中。这样查询一条语句,就可以把语句进行分词,然后通过倒排索引快速的找到各个分词所在的文档号,从而聚合找到语句所在的文档。精确查询是指查询的一条语句完整的出现在一篇文档中,按上面倒排索引查询到词所在的文档中还不够,还要读取每个词所在的文档中的位置,判断前后两个分词所在的同个文档中的位置也应该连续,这样才能符合要求。现有技术中,为了实现精确查询,建立索引时,除了存储分词的倒排索引,还要存储每个分词在文档中的所有位置,这样有两方面技术缺陷。1、要比较连续词出现的位置是否也连续,增加了计算性能。2、要存储分词所在的所有位置,对于大部分文档,分词所有位置的存储空间远大分词所在文档号的空间,浪费很大存储空间。
技术实现思路
本专利技术针对上述现有技术中的缺陷,提出了如下技术方案。一种文本精确查询的方法,该方法包括:获取步骤,获取需要进行精确查询的文本;查询词生成步骤,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词,将所述n个分词和n-1个组合分词作为查询词;查询步骤,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。更进一步地,所述方法还包括:倒排索引表生成步骤,对待查询的文档进行分词操作获得m个分词,再将m分词中相邻的分词进行组合得到m-1个组合分词,使用m个分词和m-1个组合分词构建倒排序索引表;其中,倒排索引表生成步骤在所述获取步骤之前,m为大于1的整数。更进一步地,所述查询命中的文档是指同时命中了n-1个组合分词的文档。更进一步地,所述文档包括word、txt、web和pdf格式的文档至少之一。更进一步地,所述查询步骤的操作为:首先使用n个分词进行查询获取第一查询结果集,再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集,将需要精确查询的文本与第二查询结果集中的文档进行匹配,筛选出匹配率大于或等于第一阈值的文档作为查询命中的文档返回。更进一步地,所述第一阈值为100%。本专利技术还提出了一种文本精确查询的装置,该装置包括:获取单元,获取需要进行精确查询的文本;查询词生成单元,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词,将所述n个分词和n-1个组合分词作为查询词;查询单元,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。更进一步地,所述装置还包括:倒排索引表生成单元,对待查询的文档进行分词操作获得m个分词,再将m分词中相邻的分词进行组合得到m-1个组合分词,使用m个分词和m-1个组合分词构建倒排序索引表;其中,倒排索引表生成单元的操作在所述获取单元的操作之前进行,m为大于1的整数。更进一步地,所述查询命中的文档是指同时命中了n-1个组合分词的文档。更进一步地,所述文档包括word、txt、web和pdf格式的文档至少之一。更进一步地,所述查询单元的操作为:首先使用n个分词进行查询获取第一查询结果集,再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集,将需要精确查询的文本与第二查询结果集中的文档进行匹配,筛选出匹配率大于或等于第一阈值的文档作为查询命中的文档返回。更进一步地,所述第一阈值为100%。本专利技术还提出了一种文本精确查询的设备,所述设备包括处理器、存储器,所述处理器与所述存储器通过总线相连接,所述存储器中存储机器可读代码,所述处理器执行存储器中的机器可读代码以执行上述之任一所述的方法。本专利技术还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时以执行上述之任一所述的方法。本专利技术的技术效果为:本专利技术创造性的提出了将分词后的相邻的词语组合成一个新的词,即连续的两个词当做一个词存到倒排索引表中,检索时不需要判断位置,大大提高了检索效率,由于不用存储位置信息,大大减少了索引表所占的存储空间,节约了存储资源。附图说明图1是根据本专利技术的实施例的一种文本精确查询的方法的流程图。图2是根据本专利技术的实施例的一种文本精确查询的装置的结构图。图3是根据本专利技术的实施例的一种文本精确查询的设备的结构图。具体实施方式下面结合附图1-3进行具体说明。图1示出了本专利技术的一种文本精确查询的方法,该方法包括:获取步骤S1,获取需要进行精确查询的文本。查询词生成步骤S2,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词,将所述n个分词和n-1个组合分词作为查询词。查询步骤S3,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。获取步骤S1中,获取需要精确查询的文本可以是键盘输入的文本,也可以是语音输入经识别后的文本,当然也可以是从某个文档中复制过来的文本等等。如图1所示,本专利技术的方法还包括:倒排索引表生成步骤S0,对待查询的文档进行分词操作获得m个分词,再将m分词中相邻的分词进行组合得到m-1个组合分词,使用m个分词和m-1个组合分词构建倒排序索引表;其中,倒排索引表生成步骤在所述获取步骤之前,m为大于1的整数。倒排索引表生成步骤S0及查询词生成步骤S2分词方法的一个具体的实施方式为:例如“你好,我们都是中国人”,分成4个词,“你好我们都是中国人”,连续两分词组成新分词:“你好我们我们都是都是中国人”得到3个组合分词,使用上述7个词建立倒排索引表。倒排索引表生成步骤S0及查询词生成步骤S2所使用的上述构建倒排索引表的方法是将分词后的相邻的词语组合成一个新的词,即连续的两个词当做一个词存到倒排索引表中,检索时不需要判断位置,大大提高了检索效率,由于不用存储位置信息,大大减少了索引表所占的存储空间,节约了存储资源,这是本专利技术的重要专利技术点之一。本专利技术是为了进行精确检索,因此查询时需要同时命中了n-1个组合分词的文档。所查询文档的类型包括word、txt、web和pdf格式的文档至少之一,这些文档可以是存储在数据库。所述查询步骤S3的操作为:首先使用n个分词进行查询获取第一查询结果集,再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集,将需要精确查询的文本与第二查询结果集中的文档进行匹配,筛选出匹配率大于或等于第一阈值(如,第一阈值为100%)的文档作为查询命中的文档返回。通过该操作,逐步缩写查询范围,最后进行精确匹配,获得完全命中文本的文档,这是本专利技术的另一重要专利技术点。图2示出了本专利技术的一种文本精确查询的装置,该装置包括:获取单元21,获取需要进行精确查询的文本。查询词生成单元22,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词,将所述n个分词和n-1个组合分词作为查询词。查询单元23,使用所述查询词在倒排索本文档来自技高网...

【技术保护点】
1.一种文本精确查询的方法,其特征在于,该方法包括:获取步骤,获取需要进行精确查询的文本;查询词生成步骤,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n‑1个组合分词,将所述n个分词和n‑1个组合分词作为查询词;查询步骤,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。

【技术特征摘要】
1.一种文本精确查询的方法,其特征在于,该方法包括:获取步骤,获取需要进行精确查询的文本;查询词生成步骤,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词,将所述n个分词和n-1个组合分词作为查询词;查询步骤,使用所述查询词在倒排索引表中进行查询,并返回查询命中的文档;其中,n为大于1的整数。2.根据权利要求1的方法,其特征在于,所述方法还包括:倒排索引表生成步骤,对待查询的文档进行分词操作获得m个分词,再将m分词中相邻的分词进行组合得到m-1个组合分词,使用m个分词和m-1个组合分词构建倒排序索引表;其中,倒排索引表生成步骤在所述获取步骤之前,m为大于1的整数。3.根据权利要求2的方法,其特征在于,所述查询命中的文档是指同时命中了n-1个组合分词的文档。4.根据权利要求3的方法,其特征在于,所述文档包括word、txt、web和pdf格式的文档至少之一。5.根据权利要求4的方法,其特征在于,所述查询步骤的操作为:首先使用n个分词进行查询获取第一查询结果集,再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集,将需要精确查询的文本与第二查询结果集中的文档进行匹配,筛选出匹配率大于或等于第一阈值的文档作为查询命中的文档返回。6.根据权利要求4的方法,其特征在于,所述第一阈值为100%。7.一种文本精确查询的装置,其特征在于,该装置包括:获取单元,获取需要进行精确查询的文本;查询词生成单元,对所述文本进行分词操作获得n个分词,再将n分词中相邻的分词进行组合得到n-1个组合分词...

【专利技术属性】
技术研发人员:朱智佳吴鸿伟王海滨张永光
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1