基于全文检索分布式海量文本的存储方法及装置制造方法及图纸

技术编号：33352004 阅读：16 留言：0更新日期：2022-05-08 09:59

本发明专利技术公开了一种基于全文检索分布式海量文本的存储方法及装置，包括抽取内外部文档中的有用信息；将抽取的有用信息通过预先设置的匹配规则或模板进行解析，转换为统一的XML文件；将处理过的XML文件数据压缩打包成ZIP压缩格式，加载进内存，并建立索引；加载进内存进行存储时采用关键词矩阵存储和倒排索引；本发明专利技术提供的基于全文检索分布式海量文本的存储方法及装置，能将海量的文信息进行分布式存储，并能通过关键词对文本内容进行读取，解决了数据库对海量数据处理的局限，使文本处理更加有效，利用全文库实现了对海量数据的存取。利用全文库实现了对海量数据的存取。利用全文库实现了对海量数据的存取。

全部详细技术资料下载

【技术实现步骤摘要】
基于全文检索分布式海量文本的存储方法及装置

[0001]本专利技术涉及信息数据处理
，具体涉及一种基于全文检索分布式海量文本的存储方法及装置。

技术介绍

[0002]目前，随着信息数据处理需求的日益增长以及不同领域的业务种类的日益丰富，将外部文档与海量的数据库文档进行存取变得越来越重要。在现有的用于文本存取的方法中，通常采用如下方式：建立外部文本内容和数据库的向量空间模型；将文本和数据库建立数据库表，为了实现海量数据处理，对数据表进行处理，对数据表进行索引和分表操作。这种方式在存储和读取海量文本数据时存在着大量的局限性很难满足海量文本处理的要求。
[0003]而且由于传统海量数据处理大多采用关系型数据库，而关系数据库并不善长处理非结构化文本数据因此很难满足海量数据的存取，关系数据库在处理海量数据时常常需要进行分表处理，在数据存取方面，由于数据库单机数据存储十分有限，很难处理TB极数据。

技术实现思路

[0004]为此，本专利技术实施例提供一种基于全文检索分布式海量文本的存储方法及装置，以解决现有技术存在的存储和读取海量文本数据时存在着大量的局限性很难满足海量文本处理的要求以及很难处理TB极数据的问题。
[0005]为了实现上述目的，本专利技术实施例提供如下技术方案：
[0006]第一方面，一种基于全文检索分布式海量文本的存储方法，包括：
[0007]抽取内外部文档中的有用信息；
[0008]将抽取的有用信息通过预先设置的匹配规则或模板进行解析，转换为统一的...

【技术保护点】

【技术特征摘要】
1.一种基于全文检索分布式海量文本的存储方法，其特征在于，包括：抽取内外部文档中的有用信息；将抽取的有用信息通过预先设置的匹配规则或模板进行解析，转换为统一的XML文件；将处理过的XML文件数据压缩打包成ZIP压缩格式，加载进内存，并建立索引；所述加载进内存进行存储时采用关键词矩阵存储和倒排索引。2.根据权利要求1所述的基于全文检索分布式海量文本的存储方法，其特征在于，所述建立索引时，具体包括：获取原文档；将获取的所述原文档传输至分词组件，所述分词组件将所述原文档切分成单个单词；将单个单词与停词集合进行比对，将停词存储在所述分词组件中；去除标点；获取词元。3.根据权利要求2所述的基于全文检索分布式海量文本的存储方法，其特征在于，所述获取原文档时通过爬虫类工具进行获取。4.根据权利要求1所述的基于全文检索分布式海量文本的存储方法，其特征在于，增量索引时在倒排列表末尾追加倒排列表项。5.根据权利要求4所述的基于全文检索分布式海量文本的存储方法，其特征在于，所述增量索引将指定的内存消耗完时，将所述增量索引和原来...

【专利技术属性】
技术研发人员：王飞，许欢庆，曾雪峰，季仁通，孙敏，
申请(专利权)人：北京迅奥科技有限公司中科基大数据技术研究院北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人