基于大数据数据管理服务系统技术方案

技术编号:11027297 阅读:140 留言:0更新日期:2015-02-11 14:45
一种基于大数据数据管理服务系统,包括:异构数据的归一化描述模块,数据语义化模块,数据存储性能模块,数据逻辑管理模块,数据场景化及服务匹配模块和数据展示模块。基于场景的大数据管理服务系统解决的问题如下:第一,现在数据体量(volumes)大,其次数据类别(variety)大,数据来自多种数据源,数据种类和格式丰富综合形成了存储困难的问题。第二,数据异构的描述。大数据多源的数据形成了一个个数据孤岛。在每种数据源中不但有各不相同的数据结构,同时也有不同的命名体系。即使同构的数据也无法互通。第三,数据匹配难题,由于数据种类的结构不同形成的数据匹配问题,查准率和召回率低下,查询代价高昂。

【技术实现步骤摘要】
基于大数据数据管理服务系统
本专利技术涉及大数据管理服务,属于计算机与网络技术应用领域。
技术介绍
根据IDC做出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律),这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35亿GB的数据量,相较于2010年,数据量将增长近30倍。这不是简单的数据增多的问题,而是全新的问题。“大数据”是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。它的特点首先是数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。整个网络系统会产生数量巨大的数据,如何存储产生的这些海量数据,已经是一个摆在面前亟待解决的问题。但是这只解决了大数据的一个问题,即数据存储。伴随着数据量的不断增长,还有一个问题日益凸显:数据查询。对海量数据来说驳杂的数据是没有价值的,并且精确的查找是难度很高且准确率不高的工作。
技术实现思路
本专利技术要解决的技术问题:海量数据的存储问题、异构数据的统一描述和数据服务匹配的查准率和召回率低的问题。提供可扩展、易用、高可靠性的大数据管理服务系统。本专利技术采用的技术方案:基于大数据数据管理服务系统,其特征在于:异构数据本体描述子系统、数据逻辑管理子系统和数据服务匹配子系统。异构数据本体描述子系统:提供本体数据的下载、查找和添加。管理系统在添加数据之前对该数据进行本体库内本体查找也可下载查看,若有相吻合的数据描述本体则将之引用在数据注册的本体描述中,反之则新建本体描述,按要求提供新建所需属性内容,并添加到本体描述库中。本体库的数据有层次和关联关系,支持用户进行数据推演任务。数据逻辑管理子系统:数据物理存储采用Hbase.HBase(Apache的开源技术)是一个分布式的、面向列的数据存储系统。通过在HDFS上提供随机读写来解决传统数据库不能处理的问题。第一,HBase自底层设计开始就聚焦于可伸缩性的问题:表可以很大,将其水平分区并在上千个普通节点上自动复制。(自动复制出多份以便备用、同时进行的)表的模式是物理存储的直接反映,使系统有可能提供高效的数据结构的序列化、存储和检索。第二,HBase没有真正的索引,由于行是顺序存储的,每行中的列也是顺序存储的所以不存在索引膨胀的问题,而且插入性能和表的大小无关。第三,自动分区:在表增长的时候,表会自动分裂成区域,并分布到可用的节点上。第四,线性扩展和对于新节点的自动处理:增加一个节点,把它指向现有集群,并运行Regionserver。区域自动重新进行平衡,负载会均匀分布。第五,普通商用硬件支持:集群可以用1000到5000美金的单个节点搭建。采用Hbase存储系统系统进行I/O优化和region热点问题解决。I/O优化,从系统的各种统计指标分析,系统读写HBase的环节耗时过长,读取HBase日志可知RegionServer在频繁地flush和compact。分析发现当前hbase版本里有PeriodicFlusher的机制,memstore中的数据若持续一段时间没有flush的话hbase会自动触发flush,这个时间间隔默认是1小时。在将这个配置调整为10小时后,Flush队列大小和文件读取延时都有明显变小。region热点,Hbase的写入过程中会出现数据堆积在一个regionserver的情况,写入效率极大降低,并且占用的网络信道,整个集群的其他任务均受影响。解决这个问题的办法是将热点regionserver下的region手动分散在多个regionserver中,在读写的过程中实现并行。查看Hbase中数据的存储结构,可以知道Hbase存储中rowkey是字典有序的,rowkey也决定了region的分配。因此本系统进行了rowkey原则设计。数据服务匹配子系统:数据匹配主要实现数据需求和共享数据的检索匹配工作,是数据共享系统的核心功能之一。数据匹配不仅要达到准确的目的还要尽可能的减少查询代价。本系统的数据匹配是基于场景的数据服务匹配,数据场景化如下:在数据分享到大数据系统中时会对数据服务中的数据信息进行抽取,若在抽象语义中通过语义分析,或本体验证,就能添加在此场景分类中,并验证下一个场景。但是新分享的数据通常不会出现在以上两种验证方式中,所以就需要更复杂的验证方法,属性验证,属性验证步骤如下:根据当前数据查询本体,并获得相应属性(这也是数据本体描述的目的之一,在不同结构,名称,描述下获得相同的属性标识)。根据该场景下属性维度,提取数据相应属性信息,在当前分类器下,判定数据是否符合该场景。记录结果验证下一场景。在此方法下就有一个关键问题,如何准确的对数据进行场景分类。因为每个场景识别是典型的二分类问题,对于不同的场景分类,有不同的维度,但平均维度均在20以上。对此SVM分类器有显著的优势。SVM结构简单,泛化能力强,同时在高维数据特征及非线性数据分类有较其他算法有计算代价小,时间复杂度低及全局收敛的特点。SVM对给定样本,利用非线性映射函数,将低维不可分样本投射到高纬度空间,在高维空间中线性分割,寻找决策分割超平面,使得两类样本正确分割。在场景识别的过程中,初期并不能将所有的数据都做好场景表示,并且用来训练分类器的已标识数据集的数据不能将分类器训练到准确可用的精度,这就需要在未标识的数据中扩大训练集,提高分类器精度。据此将K最近邻(k-NearestNeighbour,KNN)分类算法作为补充,来半监督SVM分类器,KNN适用于样本容量比较大的分类,对大数据的问题有天然优势。KNN对于未知的样本数据,计算比较它与其他所有已知数据集中数据的欧式距离,从而判定与它最近数据的同类关系。在大数据中大规模的数据样本是未含标记的,以人工的方式进行标记是耗费体力而又效率不高。仅仅采用少量已标记样本训练分类器,精度远远达不到可用标准。在此前提下如果能利用少数的已标记样本而获得精确的分类就尤为重要,所以引入了KNN来辅助SVM学习,对大量的未标记的数据分类标记,扩大训练集,训练SVM。首先对已标记的数据做粗略的训练,得到初期简单的分类器Q-SVM。此时的SVM由于样本较少,对未知数据的分类鉴别能力较弱,不能正确区分未标记数据,尤其边界数据分类模糊,置信度低。但是在分类边界的数据是分类器学习的关键数据,对分类器的精度有关键决定作用,所以要对边界有可能分类正确,也有可能分类错误的数据利用KNN来辅助鉴别和学习。SVM找到分类边界数据,和KNN共同标记数据,将新标记的数据样本放入训练样本,SVM进一步训练修正,以此方式直到SVM的分类精度通过验证。KNN半监督SVM的具体流程如下:算法的具体步骤如下:步骤一:对所有数据进行归一化处理,提取该场下相关维度数据。步骤二:将已标记样本作为训练样本,其余为测试样本,利用训练样本和测试样本SVM进行训练学习。步骤三:根据训练结果构建本文档来自技高网...
基于大数据数据管理服务系统

【技术保护点】
一种基于大数据数据管理服务系统,其特征在于:包括异构数据本体描述子系统、数据逻辑管理子系统和数据服务匹配子系统;数据描述子系统是数据逻辑管理和数据服务匹配的基础;通过异构数据本体描述将异构的不易理解的数据用相同方式表征出来,使得能够理解数据内容;在此基础上,根据异构数据本体描述的内容,抽取部分信息,在逻辑上建立关联关系实现数据逻辑管理子系统,数据服务匹配子系统根据数据的逻辑关系和描述信息进行查找和匹配。

【技术特征摘要】
1.一种基于大数据数据管理服务系统,其特征在于:包括异构数据本体描述子系统、数据逻辑管理子系统和数据服务匹配子系统;异构数据本体描述子系统是数据逻辑管理和数据服务匹配的基础;通过异构数据本体描述将异构的不易理解的数据用相同方式表征出来,使得能够理解数据内容;在此基础上,根据异构数据本体描述的内容,抽取部分信息,在逻辑上建立关联关系实现数据逻辑管理子系统,数据服务匹配子系统根据数据的逻辑关系和描述信息进行查找和匹配;数据逻辑管理子系统采用时间、空间和目录结构进行原始数据管理和采用场景化进行数据语义层次的数据分类管理;其中时间、空间和目录结构是单维度的数据关系,即从一个维度进行的数据关系的结构建立;场景化是多维度的数据关系管理,即在多个维度下共同符合同一场景的数据在一个数据场景中;场景定义是从属性、本体中抽取信息组成一个全方位立体的场景,包含不同种不同结构的相关数据;场景定义和场景匹配:1)场景定义:场景的定义由6个部分构成:场景名、本体集、属性集、语义集、属性权重和语义权重;场景的定义过程如下:A)定义本体集、定义属性集、定义语义集;B)确定属性集和语义集各元素权重;C)测试集测试;D)根据结果调节权值,返回C,至到权值稳定。2.根据权利要求1所述的一种基于大数据数据管理服务系统,其特征在于:异构数据本体描述子系统采用OWL(WebOntologyLanguage)进行异构数据的描述和采用WSDL(WebServicesDescriptionLanguage)进行数据服务本身接口、参数的描述;根据W3C标准,引用通用本体库并通过自建本体库的形式完善数据共享领域的本体库;WSDL对数据服务的接口、类型、参数信息进行描述并同时引用OWL对数据本体进行说明,通过WSDL和OWL共同描述数据和数据服务。3.根据权利要求1所述的一种基于大数据数据管理服务系统,其特征在于:数据服务匹配子系统能够通过本体、属性、和语义分别对数据服务进行匹配。4.根据权利要求2所述的一种基于大...

【专利技术属性】
技术研发人员:姜骁熊桂喜杜博文詹俊峰肖道锐
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1