当前位置: 首页 > 专利查询>东北大学专利>正文

一种面向刻面的学术大数据存储查询方法技术

技术编号:21891636 阅读:23 留言:0更新日期:2019-08-17 14:24
本发明专利技术提供一种面向刻面的学术大数据存储查询方法,涉及学术大数据技术领域。本发明专利技术基于Hadoop HDFS的键值对形式对数据进行存储,结合了关系型数据库、NoSQL及分布式文件各自的优势,利用刻面的概念对数据进行分区和索引,并且以多维逻辑数据模型和低成本的文件格式对数据进行存储,提供有效的指定属性式查询和搜索引擎式查询。本发明专利技术根据学术大数据的特点设计分区和索引,用来减少搜索空间,从而优化查询。

A Face-Oriented Query Method for Academic Large Data Storage

【技术实现步骤摘要】
一种面向刻面的学术大数据存储查询方法
本专利技术涉及学术大数据
,尤其涉及一种面向刻面的学术大数据存储查询方法。
技术介绍
随着互联网开放存取运动的发展,世界上越来越多的组织和个人为学术数据资源(指由世界各地的研究人员和学生每天撰写的研究论文,技术报告和学术文件等形式的学术文件)的发展做出了巨大的贡献,由此使得世界范围内的学术数据的数据量呈现指数形式的增长。学术数据大量,多样且对时效性要求较高,所以将其命名为学术大数据。众所周知,查询可以通过减少搜索空间或提高命中率来进行优化,目前学术大数据查询方法分为两种,即基于特定属性的查询和搜索引擎式查询。基于特定属性的查询是基于关系型数据库的,但关系数据库高并发读写IO是瓶颈,在海量数据下效率低,且关系数据库预定义分区良好,意味着不够灵活,而搜索引擎式查询是基于NoSQL的,虽然NoSQL比关系型数据库灵活,且在海量数据下性能较好,但NoSQL缺乏成熟的索引和分区机制。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种面向刻面的学术大数据存储查询方法,根据学术大数据的特点设计分区和索引,用来减少搜索空间,从而优化查询。为解决上述技术问题,本专利技术所采取的技术方案是:一种面向刻面的学术大数据存储查询方法,该方法中将一个刻面视为一个维度,该刻面的不同值视为维度值,则每条数据记录均表示为一个刻面立方体,并按刻面划分为小单元,单元作为分区,映射到学术文献的地址;刻面立方体是一个逻辑地址模型,该模型为一个多维逻辑数据模型,实际中并不存在;所述刻面为从各种学术文献中都能提取的共同属性,即必须属性;只是某种或某些类型的学术文献所具有的属性,即可选属性,为平凡属性;提取出刻面数据中具有代表性的词汇作为特征词,以这些特征词构建的元素索引为刻面树;刻面树通过映射到地址映射表构成一系列逻辑地址,从而得到物理地址;该方法的具体步骤如下:步骤1:数据预处理及特征词提取;对学术文献进行解析,将刻面属性数据的每个单词采用NLP技术得到准特征词,用以构建磁盘刻面树;根据基于正态分布的高频词阈值F计算方法计算高频词阈值,将准特征词中高于该阈值的单词作为特征词抽取出来,用以构建内存刻面树;特征词应尽可能地少,尽可能地完整,即每一个特征词都是一个完整的单词;所述特征词包含在查询条件和查询目标中;步骤2:构建刻面树;刻面树分为两个版本,即磁盘版本和内存版本;磁盘版本用于全盘数据索引,即对所有元素进行索;内存版本是根据刻面数据抽取出的最频繁的关键字建立的,用于索引查询刻面中最频繁最常用的数据,通过索引的多维度组合的逻辑地址映射到对应的物理地址;所述内存版本的刻面树,是采用Radix树作为索引,所述磁盘版本的刻面树,是在B+树上进行拓展的,两者皆是每个特征词都对应一个数字标识符;步骤3:寻址操作;寻址是定位包含搜索关键字的文件的过程,寻址操作采用地址映射表;将每个刻面视为一个维度,每个维度的值都包含所有刻面提取出来的特征词,但标识符不同;地址映射表是一个包括m+1列的表,最多包括nm行数据,其中m为维度数,即刻面数,n为特征词个数,前m列分别存储第一个维度的特征词标识符到第m个维度的特征词标识符,最后一列存储对应的物理目录;步骤4:数据的装载及存储;将解析后的数据通过与刻面树的映射关系按照一定的格式存储在HDFS上,具体的步骤如下:步骤4.1:对于每一条数据,将每条数据中的字符串与内存刻面树的索引做匹配,如果匹配,则根据内存刻面树的编码将该条数据的各刻面标识符的信息存入内存地址映射表,并将通过内存刻面树根据刻面立方体映射组成的逻辑地址同样写入内存地址映射表,如果与内存刻面树的索引不匹配,则根据磁盘刻面树的编码将该条数据的各刻面标识符的信息存入磁盘地址映射表,并将通过磁盘刻面树根据刻面立方体映射组成的逻辑地址同样写入磁盘地址映射表;步骤4.2:在把信息保存到对应的地址映射表后,需要将数据存储到HDFS中,将刻面数据和平凡属性数据垂直分区,存储在两个不同的文件中,两个文件以行号连接;对于刻面数据,键是已知且确定的,只需要按照顺序存储值即可;对于平凡属性,存储键值对;步骤5:查询;包括两种查询方式,指定属性式查询和搜索引擎式查询;所述指定属性式查询中,查询条件由刻面、刻面对应的关键字和所选择的逻辑与或者逻辑或组成,对于查询条件中的每个值,查询刻面树通过刻面立方体的映射得到,再通过数据库表得到确切的一系列逻辑地址,转换为对应的物理地址,然后通过执行MapReduce任务,并行搜索块文件,通过行号将刻面数据和平凡属性数据连接成一条完整的数据内容,并将指定刻面包含指定关键字的完整数据内容的搜索结果返回给客户端;对于搜索引擎式查询,每个关键字通过索引刻面树去查找地址映射表,得到一系列的逻辑地址,继而得到物理地址,执行MapReduce任务并行搜索区块文件,检索其中任一刻面包含关键字的记录,并将这些记录返回给客户端。采用上述技术方案所产生的有益效果在于:本专利技术提供的一种面向刻面的学术大数据存储查询方法,基于HadoopHDFS的键值对形式对数据进行存储,且结合了关系型数据库的性能优势,NoSQL的灵活性和分布式文件系统的并行性,并提供指定属性和搜引擎式查询这两种查询方式,根据学术大数据的特点设计分区和索引,用来减少搜索空间,从而优化查询。附图说明图1为本专利技术实施例提供的基于正态分布的高频词阈值F计算方法的流程图;图2为本专利技术实施例提供的内存刻面树的一个简单示例;图3为本专利技术实施例提供的存储流程图;图4为本专利技术实施例提供的查询流程图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术中涉及的定义包括:刻面:从学术文献中提取的属性的稀疏性是各种各样的,各种学术文献都有的一些共同的属性,即必须属性,如作者姓名和标题,定义必需属性为刻面。平凡属性:从学术文献中提取的属性只是某种或某些类型的文献所具有的,即可选的属性,如项目的发布日期等,定义可选属性为平凡属性。刻面立方体:该方法中将一个刻面视为一个维度,该刻面的不同值视为维度值,则每条数据记录都可以表示为一个刻面立方体,并按刻面划分为小单元,单元作为分区,映射到学术文献的地址。刻面立方体是一个逻辑地址模型,该模型为一个多维逻辑数据模型,实际中并不存在。刻面树:若将刻面的所有关键字都作为索引关键字以此构建刻面树的索引,检索时效果不好,速度过慢,所以需要提取出刻面数据中具有代表性的词汇作为特征词。以这些特征词构建的元素索引就是刻面树。刻面树通过映射到地址映射表构成一系列逻辑地址,从而得到物理地址。为了保证灵活性和提高查询性能,本专利技术将每个刻面作为一个维度结合在一起,并提供一个查询入口,学术文献根据刻面进行分区,从而在不丧失灵活性的情况下缩小查询范围。在此基础上,本专利技术提出了刻面树的概念,它是一个文本辅助索引,它有两个版本,即磁盘版本和内存版本,前者基于B+树实现,用于全盘数据索引,后者是根据刻面数据抽取出的最频繁的关键字建立的,基于Radix树实现,用于索引查询刻面中最频繁最常用的数据。将查询内容利用刻面立方体的概念通过刻面树映射地址映射表根据逻辑地址得到具体的一系列物本文档来自技高网...

【技术保护点】
1.一种面向刻面的学术大数据存储查询方法,其特征在于:该方法中将一个刻面视为一个维度,该刻面的不同值视为维度值,则每条数据记录均表示为一个刻面立方体,并按刻面划分为小单元,单元作为分区,映射到学术文献的地址;刻面立方体是一个逻辑地址模型,该模型为一个多维逻辑数据模型,实际中并不存在;所述刻面为从各种学术文献中都能提取的共同属性,即必须属性;只是某种或某些类型的学术文献所具有的属性,即可选属性,为平凡属性;提取出刻面数据中具有代表性的词汇作为特征词,以这些特征词构建的元素索引为刻面树;刻面树通过映射到地址映射表构成一系列逻辑地址,从而得到物理地址;该方法的具体步骤如下:步骤1:数据预处理及特征词提取;对学术文献进行解析,将刻面属性数据的每个单词采用NLP技术得到准特征词,用以构建磁盘刻面树;根据基于正态分布的高频词阈值F计算方法计算高频词阈值,将准特征词中高于该阈值的单词作为特征词抽取出来,用以构建内存刻面树;特征词应尽可能地少,尽可能地完整,即每一个特征词都是一个完整的单词;所述特征词包含在查询条件和查询目标中;步骤2:构建刻面树;刻面树分为两个版本,即磁盘版本和内存版本;磁盘版本用于全盘数据索引,即对所有元素进行索;内存版本是根据刻面数据抽取出的最频繁的关键字建立的,用于索引查询刻面中最频繁最常用的数据,通过索引的多维度组合的逻辑地址映射到对应的物理地址;所述内存版本的刻面树,是采用Radix树作为索引,所述磁盘版本的刻面树,是在B+树上进行拓展的,两者皆是每个特征词都对应一个数字标识符;步骤3:寻址操作;寻址是定位包含搜索关键字的文件的过程,寻址操作采用地址映射表;将每个刻面视为一个维度,每个维度的值都包含所有刻面提取出来的特征词,但标识符不同;地址映射表是一个包括m+1列的表,最多包括n...

【技术特征摘要】
1.一种面向刻面的学术大数据存储查询方法,其特征在于:该方法中将一个刻面视为一个维度,该刻面的不同值视为维度值,则每条数据记录均表示为一个刻面立方体,并按刻面划分为小单元,单元作为分区,映射到学术文献的地址;刻面立方体是一个逻辑地址模型,该模型为一个多维逻辑数据模型,实际中并不存在;所述刻面为从各种学术文献中都能提取的共同属性,即必须属性;只是某种或某些类型的学术文献所具有的属性,即可选属性,为平凡属性;提取出刻面数据中具有代表性的词汇作为特征词,以这些特征词构建的元素索引为刻面树;刻面树通过映射到地址映射表构成一系列逻辑地址,从而得到物理地址;该方法的具体步骤如下:步骤1:数据预处理及特征词提取;对学术文献进行解析,将刻面属性数据的每个单词采用NLP技术得到准特征词,用以构建磁盘刻面树;根据基于正态分布的高频词阈值F计算方法计算高频词阈值,将准特征词中高于该阈值的单词作为特征词抽取出来,用以构建内存刻面树;特征词应尽可能地少,尽可能地完整,即每一个特征词都是一个完整的单词;所述特征词包含在查询条件和查询目标中;步骤2:构建刻面树;刻面树分为两个版本,即磁盘版本和内存版本;磁盘版本用于全盘数据索引,即对所有元素进行索;内存版本是根据刻面数据抽取出的最频繁的关键字建立的,用于索引查询刻面中最频繁最常用的数据,通过索引的多维度组合的逻辑地址映射到对应的物理地址;所述内存版本的刻面树,是采用Radix树作为索引,所述磁盘版本的刻面树,是在B+树上进行拓展的,两者皆是每个特征词都对应一个数字标识符;步骤3:寻址操作;寻址是定位包含搜索关键字的文件的过程,寻址操作采用地址映射表;将每个刻面视为一个维度,每个维度的值都包含所有刻面提取出来的特征词,但标识符不同;地址映射表是一个包括m+1列的表,最多包括nm行数据,其中m...

【专利技术属性】
技术研发人员:宋杰王涵
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1