列式分析存储格式的半结构化数据的概率文本索引制造技术

技术编号：37412988 阅读：20 留言：0更新日期：2023-04-30 09:37

本文是一种概率加索引技术，用于使用列式输入/输出(I/O)避免来搜索诸如Parquet之类的列式存储格式中的半结构化文本文档，并且需要最小的存储开销。在实施例中，计算机将列与半结构化文档中出现的文本串相关联。检测文本串中出现的文本词。分别为每个文本词生成多个位图中包含用于每一列的相应位的位图。基于位图中的至少一个位图，访问列中的一些列或半结构化文档中的一些半结构化文档。化文档中的一些半结构化文档。化文档中的一些半结构化文档。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】列式分析存储格式的半结构化数据的概率文本索引
[0001]相关申请的交叉引用
[0002]Hamed Ahmadi等人于2020年3月10日提交的标题为“PERSONAL INFORMATION INDEXING FOR COLUMNAR DATA STORAGE FORMAT”的相关美国专利申请16/814,855整体并入本文。以下非专利文献(NPL)通过引用整体并入本文：
[0003]·
Julien Le Dem的“DREMEL MADE SIMPLE WITHPARQUET”，2013年9月11日发布，网址：
[0004]https://blog.twitter.com/engineering/en_us/a/2013/dremel
‑
made
‑
simple
‑
with
‑
parquet.html
[0005]·
于2017年10月16日发布的“APACHE PARQUET”，网址：
[0006]https://github.com/apache/parquet
‑
format/blob/f1de77d31936f4d50f1286676a0034b6339918ee/README.md

[0007]本专利技术涉及对半结构化文本文档的集合的查询加速。本文介绍了基于位图关键字索引和列式持久化的全文搜索技术。

技术介绍

[0008]半结构化内容广泛用于持久化信...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法，包括：配置数据库的多个列式文件中的多个列；对于所述多个列式文件中的每个列式文件，在该列式文件中的多个列中持久化在数据库中持久化的多个半结构化文档的相应子集中出现的相应的多个文本串；检测出现在所述多个半结构化文档中的所述多个文本串中的多个文本词；分别为所述多个文本词中的每个文本词并且为所述多个列式文件中的每个列式文件生成多个位图中的相应位图，该相应位图包含用于所述多个列中的每一列的相应位，所述相应位指示该文本词是否出现在列式文件的列中；在所述多个列式文件中的每个列式文件中持久化用于该列式文件的位图；通过访问所述多个位图以检测所述多个列式文件中的哪些列式文件包含所述多个文本词中查询所指定的特定词来执行对数据库的查询。2.如权利要求1所述的计算机实现的方法，还包括：测量所述多个文本词中的第一文本词的第一位图与所述多个文本词中的第二文本词的第二位图之间的相似性；在所述多个位图中并且基于测量所述相似性，将第一文本词的第一位图和第二文本词的第二位图替换为单个位图，该单个位图具有用于所述多个列中的每一列的单个相应位。3.如权利要求2所述的计算机实现的方法，其中测量第一位图与第二位图之间的所述相似性包括Jaccard距离。4.如权利要求2所述的计算机实现的方法，其中访问所述多个位图包括：基于用于所述多个列中的特定列的所述单个位图的相应位，检测该特定列的值包含以下当中的至少一个：第一文本词和第二文本词；检测该特定列的所述值包含第一文本词而不包含第二文本词。5.如权利要求2所述的计算机实现的方法，其中：生成所述第一文本词的所述第一位图包括：为所述多个列中的每一列的第一部分生成第一位图的第一实例，以及为所述多个列中的每一列的第二部分生成第一位图的第二实例；所述计算...

【专利技术属性】
技术研发人员：温鉴，H，
申请(专利权)人：甲骨文国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人