The invention discloses a large-scale unstructured data extraction method, a system thereof and a distributed data management platform. The method comprises: acquiring a number of unstructured data objects, and the characteristics of non structured data object is abstracted as a multidimensional vector attribute; all attributes corresponding to the use of the non structured data objects representing the unstructured data object; the multi-dimensional vector as the basic unit of convolutional neural network input through; convolutional layer convolution neural network learning the training data of the local attribute; by pooling layer convolution neural network will operate the local statistical properties, second feature vectors; the input to the amount of the second characteristics of the convolutional neural network classifier is obtained by fully connected layer, unstructured data classification results.
【技术实现步骤摘要】
大规模非结构化数据提取方法、其系统、分布式数据管理平台
本专利技术涉及数据处理
,尤其涉及大规模非结构化数据提取方法、其系统、分布式数据管理平台。
技术介绍
随着社会的飞速发展,如今各个行业的信息、数据量都呈现爆炸性增长的趋势。在企业和公共事业中,各类业务变得越来越复杂,信息化水平迅速提高,进入了数据化时代。因此,数据成为了最重要的资产之一,其不仅仅体现在常规业务的操作需求,更为事业发展的方向提供数据支持,起到了重要的决策作用。与此同时,传统的数据类型的占比已逐渐下降。随着业务需求以及功能多样化意味着非结构化数据已经占据了较大比例。现有对非结构化数据的提取通常使用文件服务器系统记性管理,并人工筛选统筹分类等初级解决方案。该类方案操作复杂、准确度低,仅能应对简单的数据存储需求,且对非结构化数据的索引、分类、属性等高级特性的几乎无法支持。由于大数据具有数量大、运行速度快、分类多等特点,造成了大量异构和非结构化问题,使得许多现有的数据分析和挖掘的优秀算法工具,无法适用于非结构化大数据。这对于非结构化大数据的数据挖掘和利用造成了障碍。深度学习作为当前流行的通用工具适合解决上述大规模非结构化数据提取问题。在深度学习中,可以按照输入自动进行特征的学习,神经网络中的每层都将学习到对应的特征,低层网络学习到的特征抽象化组合后构成高层网络出入。这种深度学习的方法可以应用在图片分析等其他领域都体现出了超强的性能,近几年,深度学习及其神经网络模型已成为了特征抽取的重要方法。非结构化数据可以将其维度作为神经网络模型的输入,最后将高效地提取出特征并进行分类。为了更好的实现大规 ...
【技术保护点】
一种大规模非结构化数据提取方法,其特征在于,所述方法包括:获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。
【技术特征摘要】
1.一种大规模非结构化数据提取方法,其特征在于,所述方法包括:获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:训练所述卷积神经网络;所述训练所述卷积神经网络具体包括:设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:其中,T为训练的样本数量;构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。3.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络的卷积层学习所述训练数据的局部属性,具体包括:通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;其中,卷积过程通过如下算式表示:ci=f(W1di+b),i=1,2,...,n其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,...,ci,...,cn]。4.根据权利要求3所述的方法,其特征在于,所述通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量,具体包括:进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:5.一种大规模非结构化数据提取系统,其特征在于,所述系统包括:属性生成模块,用于获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象...
【专利技术属性】
技术研发人员:江有归,封雷,刘东升,
申请(专利权)人:杭州泰一指尚科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。