大规模非结构化数据提取方法、其系统、分布式数据管理平台技术方案

技术编号:16128987 阅读:49 留言:0更新日期:2017-09-01 20:56
本发明专利技术公开了大规模非结构化数据提取方法、其系统、分布式数据管理平台。所述方法包括:获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。

Large scale unstructured data extraction method, system and distributed data management platform

The invention discloses a large-scale unstructured data extraction method, a system thereof and a distributed data management platform. The method comprises: acquiring a number of unstructured data objects, and the characteristics of non structured data object is abstracted as a multidimensional vector attribute; all attributes corresponding to the use of the non structured data objects representing the unstructured data object; the multi-dimensional vector as the basic unit of convolutional neural network input through; convolutional layer convolution neural network learning the training data of the local attribute; by pooling layer convolution neural network will operate the local statistical properties, second feature vectors; the input to the amount of the second characteristics of the convolutional neural network classifier is obtained by fully connected layer, unstructured data classification results.

【技术实现步骤摘要】
大规模非结构化数据提取方法、其系统、分布式数据管理平台
本专利技术涉及数据处理
,尤其涉及大规模非结构化数据提取方法、其系统、分布式数据管理平台。
技术介绍
随着社会的飞速发展,如今各个行业的信息、数据量都呈现爆炸性增长的趋势。在企业和公共事业中,各类业务变得越来越复杂,信息化水平迅速提高,进入了数据化时代。因此,数据成为了最重要的资产之一,其不仅仅体现在常规业务的操作需求,更为事业发展的方向提供数据支持,起到了重要的决策作用。与此同时,传统的数据类型的占比已逐渐下降。随着业务需求以及功能多样化意味着非结构化数据已经占据了较大比例。现有对非结构化数据的提取通常使用文件服务器系统记性管理,并人工筛选统筹分类等初级解决方案。该类方案操作复杂、准确度低,仅能应对简单的数据存储需求,且对非结构化数据的索引、分类、属性等高级特性的几乎无法支持。由于大数据具有数量大、运行速度快、分类多等特点,造成了大量异构和非结构化问题,使得许多现有的数据分析和挖掘的优秀算法工具,无法适用于非结构化大数据。这对于非结构化大数据的数据挖掘和利用造成了障碍。深度学习作为当前流行的通用工具适合解决上述大规模非结构化数据提取问题。在深度学习中,可以按照输入自动进行特征的学习,神经网络中的每层都将学习到对应的特征,低层网络学习到的特征抽象化组合后构成高层网络出入。这种深度学习的方法可以应用在图片分析等其他领域都体现出了超强的性能,近几年,深度学习及其神经网络模型已成为了特征抽取的重要方法。非结构化数据可以将其维度作为神经网络模型的输入,最后将高效地提取出特征并进行分类。为了更好的实现大规模非结构化数据的分析,对于大规模的非结构化数据按照特征类别进行提取分类的需求越来越强烈。如何结合深度学习的强大功能,以满足这样的提取分类需求是一个有待解决的问题。
技术实现思路
鉴于上述现有技术的不足之处,本专利技术的目的在于提供大规模非结构化数据提取方法、其系统、分布式数据管理平台,旨在解决现有技术中大规模非结构化数据的提取分类的问题。为了达到上述目的,本专利技术采取了以下技术方案:一种大规模非结构化数据提取方法,其中,所述方法包括:获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。所述的方法,其中,所述方法还包括:训练所述卷积神经网络;所述训练所述卷积神经网络具体包括:设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:其中,T为训练的样本数量;构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。所述的方法,其中,所述通过卷积神经网络的卷积层学习所述训练数据的局部属性,具体包括:通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;其中,卷积过程通过如下算式表示:ci=f(W1di+b),i=1,2,...,n其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,…,ci,...,cn]。所述的方法,其中,所述通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量,具体包括:进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:一种大规模非结构化数据提取系统,其中,所述系统包括:属性生成模块,用于获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;卷积神经网络模块,用于将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;以及将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。所述的系统,其中,所述系统还包括:训练模块,用于训练所述卷积神经网络;所述训练过程具体包括:设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:其中,T为训练的样本数量;构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。所述的系统,其中,所述卷积神经网路模块具体用于:通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;其中,卷积过程通过如下算式表示:ci=f(W1di+b),i=1,2,…,n其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,…,ci,…,cn]。所述的系统,其中,所述卷积神经网路模块具体用于:进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:一种分布式数据平台,其中,包括:若干个存储设备组成的分布式存储集群以及如上所述的大规模非结构化数据提取系统;所述大规模非结构化数据提取系统用于根据用户指令,在所述分布式存储集群中的存储数据中提取与用户指令对应的数据。一种分布式数据管理方法,其中,包括:以分布式技术存储的大规模非结构化数据;通过如上所述的大规模非结构化数据提取方法,构建所述大规模非结构化数据的属性维度;接收用户指令并根据所述属性维度查询与所述用户指令对应的数据。有益效果:本专利技术提供的大规模非结构化数据提取方法、其系统、分布式数据管理平台,基于卷积神经网络的深度学习方法,有效克服了现有信息抽取算法,在应用进行大规模文本数据分析前,需要人工制定数据维度的弊端,对于结构化分析大规模非结构化文本数据这样的复杂问题具有较好的效果。附图说明图1为本专利技术实施例提供的大规模非结构化数据提取方法的方法流程图;图2为本专利技术实施例提供的非结构化数据的属性分类示意图;图3为本专利技术实施例提供的非结构化数据与属性之间的关系示意图;图4为本专利技术实施例提供的卷积神经网络模型的示意图;图5为本专利技术实施例提供的大规模非结构化数据提取系统的功能框图;图6为本专利技术实施例提供的分布式数据平台的系统架构图。具体实施方式本专利技术提供大数据异常点检测方法及其系统。为使本专利技术的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述本文档来自技高网
...
大规模非结构化数据提取方法、其系统、分布式数据管理平台

【技术保护点】
一种大规模非结构化数据提取方法,其特征在于,所述方法包括:获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。

【技术特征摘要】
1.一种大规模非结构化数据提取方法,其特征在于,所述方法包括:获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:训练所述卷积神经网络;所述训练所述卷积神经网络具体包括:设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:其中,T为训练的样本数量;构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。3.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络的卷积层学习所述训练数据的局部属性,具体包括:通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;其中,卷积过程通过如下算式表示:ci=f(W1di+b),i=1,2,...,n其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,...,ci,...,cn]。4.根据权利要求3所述的方法,其特征在于,所述通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量,具体包括:进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:5.一种大规模非结构化数据提取系统,其特征在于,所述系统包括:属性生成模块,用于获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象...

【专利技术属性】
技术研发人员:江有归封雷刘东升
申请(专利权)人:杭州泰一指尚科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1