基于全文检索分布式海量文本的存储方法及装置制造方法及图纸

技术编号:33352004 阅读:16 留言:0更新日期:2022-05-08 09:59
本发明专利技术公开了一种基于全文检索分布式海量文本的存储方法及装置,包括抽取内外部文档中的有用信息;将抽取的有用信息通过预先设置的匹配规则或模板进行解析,转换为统一的XML文件;将处理过的XML文件数据压缩打包成ZIP压缩格式,加载进内存,并建立索引;加载进内存进行存储时采用关键词矩阵存储和倒排索引;本发明专利技术提供的基于全文检索分布式海量文本的存储方法及装置,能将海量的文信息进行分布式存储,并能通过关键词对文本内容进行读取,解决了数据库对海量数据处理的局限,使文本处理更加有效,利用全文库实现了对海量数据的存取。利用全文库实现了对海量数据的存取。利用全文库实现了对海量数据的存取。

【技术实现步骤摘要】
基于全文检索分布式海量文本的存储方法及装置


[0001]本专利技术涉及信息数据处理
,具体涉及一种基于全文检索分布式海量文本的存储方法及装置。

技术介绍

[0002]目前,随着信息数据处理需求的日益增长以及不同领域的业务种类的日益丰富,将外部文档与海量的数据库文档进行存取变得越来越重要。在现有的用于文本存取的方法中,通常采用如下方式:建立外部文本内容和数据库的向量空间模型;将文本和数据库建立数据库表,为了实现海量数据处理,对数据表进行处理,对数据表进行索引和分表操作。这种方式在存储和读取海量文本数据时存在着大量的局限性很难满足海量文本处理的要求。
[0003]而且由于传统海量数据处理大多采用关系型数据库,而关系数据库并不善长处理非结构化文本数据因此很难满足海量数据的存取,关系数据库在处理海量数据时常常需要进行分表处理,在数据存取方面,由于数据库单机数据存储十分有限,很难处理TB极数据。

技术实现思路

[0004]为此,本专利技术实施例提供一种基于全文检索分布式海量文本的存储方法及装置,以解决现有技术存在的存储和读取海量文本数据时存在着大量的局限性很难满足海量文本处理的要求以及很难处理TB极数据的问题。
[0005]为了实现上述目的,本专利技术实施例提供如下技术方案:
[0006]第一方面,一种基于全文检索分布式海量文本的存储方法,包括:
[0007]抽取内外部文档中的有用信息;
[0008]将抽取的有用信息通过预先设置的匹配规则或模板进行解析,转换为统一的XML文件;
[0009]将处理过的XML文件数据压缩打包成ZIP压缩格式,加载进内存,并建立索引;所述加载进内存进行存储时采用关键词矩阵存储和倒排索引。
[0010]进一步的,所述建立索引时,具体包括:
[0011]获取原文档;
[0012]将获取的所述原文档传输至分词组件,所述分词组件将所述原文档切分成单个单词;
[0013]将单个单词与停词集合进行比对,将停词存储在所述分词组件中;
[0014]去除标点;
[0015]获取词元。
[0016]进一步的,所述获取原文档时通过爬虫类工具进行获取。
[0017]进一步的,增量索引时在倒排列表末尾追加倒排列表项。
[0018]进一步的,所述增量索引将指定的内存消耗完时,将所述增量索引和原来的所述倒排索引内容进行合并。
[0019]进一步的,所述内外部文档包括数据库数据、API数据、文档数据和网页数据。
[0020]进一步的,所述有用信息包括文档标题、文档类型和作者。
[0021]进一步的,所述倒排索引具体为倒排列表以字或词为关键字进行索引。
[0022]进一步的,所述倒排列表存放顺序是按照索引单词字典顺序由低到高进行排序的。
[0023]第二方面,一种基于全文检索分布式海量文本的存储装置,包括:
[0024]信息抽取模块,用于抽取内外部文档中的有用信息,并将抽取的有用信息通过预先设置的匹配规则或模板进行解析,转换为统一的XML文件;
[0025]数据加载模块,用于将处理过的XML文件数据压缩打包成ZIP压缩格式,加载进内存,并建立索引;
[0026]大数据存储与管理,用于采用关键词矩阵和倒排索引将加载进内存的数据进行存储与管理。
[0027]本专利技术至少具有以下有益效果:本专利技术提供一种基于全文检索分布式海量文本的存储方法及装置,包括抽取内外部文档中的有用信息;将抽取的有用信息通过预先设置的匹配规则或模板进行解析,转换为统一的XML文件;将处理过的XML文件数据压缩打包成ZIP压缩格式,加载进内存,并建立索引;加载进内存进行存储时采用关键词矩阵存储和倒排索引;本专利技术提供的基于全文检索分布式海量文本的存储方法及装置,能将海量的文信息进行分布式存储,并能通过关键词对文本内容进行读取,解决了数据库对海量数据处理的局限,使文本处理更加有效,利用全文库实现了对海量数据的存取。
附图说明
[0028]为了更清楚地说明现有技术以及本专利技术,下面将对现有技术以及本专利技术实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的附图。
[0029]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
能涵盖的范围内。
[0030]图1为本专利技术实施例提供的基于全文检索分布式海量文本的存储方法流程图;
[0031]图2为本专利技术实施例提供的信息抽取结构示意图;
[0032]图3为本专利技术实施例提供的数据加载结构示意图;
[0033]图4为本专利技术实施例提供的大数据存储与管理结构示意图;
[0034]图5为本专利技术实施例提供的倒排列表结构示意图。
具体实施方式
[0035]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0036]在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)旨在区别指代的对象。对于具有时序流程的方案,这种术语表述方式不必理解为描述特定的顺序或先后次序,对于装置结构的方案,这种术语表述方式也不存在对重要程度、位置关系的区分等。
[0037]此外,术语“包括”、“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元,而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元,或者基于本专利技术构思进一步的优化方案所增加的步骤或单元。
[0038]本专利技术采用全文检索技术建立以词为单位的到排文件并对文本进行存储,以检索词在文本中出现的频率,对包含这些检索词的文本进行排序,最后输出排序的结果,从而实现海量文本的读取。且能够直接以全文本信息作为主要处理对象,并根据数据资料的内容而不是外在特征来实现的信息检索,能够将所有包含检索词的文本检索出来,不管这个词出现在文本的什么位置,或者说文本中的任意一个词都可以作为检索到该文本的条件,快速查找到对应的文本信息,解决海量文本的存储问题。
[0039]请参阅图1,本专利技术的实施例提供一种基于全文检索分布式海量文本的存储方法,包括:
[0040]S1:抽取内外部文档中的有用信息;
[0041]具体的,有用信息包括文档的标题、文档类型和作者等相关信息;文本抽取包括:关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全文检索分布式海量文本的存储方法,其特征在于,包括:抽取内外部文档中的有用信息;将抽取的有用信息通过预先设置的匹配规则或模板进行解析,转换为统一的XML文件;将处理过的XML文件数据压缩打包成ZIP压缩格式,加载进内存,并建立索引;所述加载进内存进行存储时采用关键词矩阵存储和倒排索引。2.根据权利要求1所述的基于全文检索分布式海量文本的存储方法,其特征在于,所述建立索引时,具体包括:获取原文档;将获取的所述原文档传输至分词组件,所述分词组件将所述原文档切分成单个单词;将单个单词与停词集合进行比对,将停词存储在所述分词组件中;去除标点;获取词元。3.根据权利要求2所述的基于全文检索分布式海量文本的存储方法,其特征在于,所述获取原文档时通过爬虫类工具进行获取。4.根据权利要求1所述的基于全文检索分布式海量文本的存储方法,其特征在于,增量索引时在倒排列表末尾追加倒排列表项。5.根据权利要求4所述的基于全文检索分布式海量文本的存储方法,其特征在于,所述增量索引将指定的内存消耗完时,将所述增量索引和原来...

【专利技术属性】
技术研发人员:王飞许欢庆曾雪峰季仁通孙敏
申请(专利权)人:北京迅奥科技有限公司中科基大数据技术研究院北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1