一种面向刻面的学术大数据存储查询方法技术

技术编号：21891636 阅读：23 留言：0更新日期：2019-08-17 14:24

本发明专利技术提供一种面向刻面的学术大数据存储查询方法，涉及学术大数据技术领域。本发明专利技术基于Hadoop HDFS的键值对形式对数据进行存储，结合了关系型数据库、NoSQL及分布式文件各自的优势，利用刻面的概念对数据进行分区和索引，并且以多维逻辑数据模型和低成本的文件格式对数据进行存储，提供有效的指定属性式查询和搜索引擎式查询。本发明专利技术根据学术大数据的特点设计分区和索引，用来减少搜索空间，从而优化查询。

A Face-Oriented Query Method for Academic Large Data Storage

全部详细技术资料下载

【技术实现步骤摘要】
一种面向刻面的学术大数据存储查询方法
本专利技术涉及学术大数据
，尤其涉及一种面向刻面的学术大数据存储查询方法。
技术介绍
随着互联网开放存取运动的发展，世界上越来越多的组织和个人为学术数据资源(指由世界各地的研究人员和学生每天撰写的研究论文，技术报告和学术文件等形式的学术文件)的发展做出了巨大的贡献，由此使得世界范围内的学术数据的数据量呈现指数形式的增长。学术数据大量，多样且对时效性要求较高，所以将其命名为学术大数据。众所周知，查询可以通过减少搜索空间或提高命中率来进行优化，目前学术大数据查询方法分为两种，即基于特定属性的查询和搜索引擎式查询。基于特定属性的查询是基于关系型数据库的，但关系数据库高并发读写IO是瓶颈，在海量数据下效率低，且关系数据库预定义分区良好，意味着不够灵活，而搜索引擎式查询是基于NoSQL的，虽然NoSQL比关系型数据库灵活，且在海量数据下性能较好，但NoSQL缺乏成熟的索引和分区机制。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足，提供一种面向刻面的学术大数据存储查询方法，根据学术大数据的特点设计分区和索引，用来减少搜索空间，从而优化查询。为解决上述技术问题，本专利技术所采取的技术方案是：一种面向刻面的学术大数据存储查询方法，该方法中将一个刻面视为一个维度，该刻面的不同值视为维度值，则每条数据记录均表示为一个刻面立方体，并按刻面划分为小单元，单元作为分区，映射到学术文献的地址；刻面立方体是一个逻辑地址模型，该模型为一个多维逻辑数据模型，实际中并不存在；所述刻面为从各种学术文献中都能提取的共同属性，即必须属性；...

【技术保护点】
1.一种面向刻面的学术大数据存储查询方法，其特征在于：该方法中将一个刻面视为一个维度，该刻面的不同值视为维度值，则每条数据记录均表示为一个刻面立方体，并按刻面划分为小单元，单元作为分区，映射到学术文献的地址；刻面立方体是一个逻辑地址模型，该模型为一个多维逻辑数据模型，实际中并不存在；所述刻面为从各种学术文献中都能提取的共同属性，即必须属性；只是某种或某些类型的学术文献所具有的属性，即可选属性，为平凡属性；提取出刻面数据中具有代表性的词汇作为特征词，以这些特征词构建的元素索引为刻面树；刻面树通过映射到地址映射表构成一系列逻辑地址，从而得到物理地址；该方法的具体步骤如下：步骤1：数据预处理及特征词提取；对学术文献进行解析，将刻面属性数据的每个单词采用NLP技术得到准特征词，用以构建磁盘刻面树；根据基于正态分布的高频词阈值F计算方法计算高频词阈值，将准特征词中高于该阈值的单词作为特征词抽取出来，用以构建内存刻面树；特征词应尽可能地少，尽可能地完整，即每一个特征词都是一个完整的单词；所述特征词包含在查询条件和查询目标中；步骤2：构建刻面树；刻面树分为两个版本，即磁盘版本和内存版本；磁盘版本用于...

【技术特征摘要】
1.一种面向刻面的学术大数据存储查询方法，其特征在于：该方法中将一个刻面视为一个维度，该刻面的不同值视为维度值，则每条数据记录均表示为一个刻面立方体，并按刻面划分为小单元，单元作为分区，映射到学术文献的地址；刻面立方体是一个逻辑地址模型，该模型为一个多维逻辑数据模型，实际中并不存在；所述刻面为从各种学术文献中都能提取的共同属性，即必须属性；只是某种或某些类型的学术文献所具有的属性，即可选属性，为平凡属性；提取出刻面数据中具有代表性的词汇作为特征词，以这些特征词构建的元素索引为刻面树；刻面树通过映射到地址映射表构成一系列逻辑地址，从而得到物理地址；该方法的具体步骤如下：步骤1：数据预处理及特征词提取；对学术文献进行解析，将刻面属性数据的每个单词采用NLP技术得到准特征词，用以构建磁盘刻面树；根据基于正态分布的高频词阈值F计算方法计算高频词阈值，将准特征词中高于该阈值的单词作为特征词抽取出来，用以构建内存刻面树；特征词应尽可能地少，尽可能地完整，即每一个特征词都是一个完整的单词；所述特征词包含在查询条件和查询目标中；步骤2：构建刻面树；刻面树分为两个版本，即磁盘版本和内存版本；磁盘版本用于全盘数据索引，即对所有元素进行索；内存版本是根据刻面数据抽取出的最频繁的关键字建立的，用于索引查询刻面中最频繁最常用的数据，通过索引的多维度组合的逻辑地址映射到对应的物理地址；所述内存版本的刻面树，是采用Radix树作为索引，所述磁盘版本的刻面树，是在B+树上进行拓展的，两者皆是每个特征词都对应一个数字标识符；步骤3：寻址操作；寻址是定位包含搜索关键字的文件的过程，寻址操作采用地址映射表；将每个刻面视为一个维度，每个维度的值都包含所有刻面提取出来的特征词，但标识符不同；地址映射表是一个包括m+1列的表，最多包括nm行数据，其中m...

【专利技术属性】
技术研发人员：宋杰，王涵，
申请(专利权)人：东北大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人