一种基于多层LSTM模型的并行处理分类方法技术

技术编号:20364461 阅读:23 留言:0更新日期:2019-02-16 17:14
本发明专利技术提供一种基于多层LSTM模型的并行处理分类方法,涉及信息技术领域。该方法首先对数据进行预处理,根据数据的分类体系,提取多个待分类实体的基础信息;然后构建多层LSTM模型,将带有标注的训练数据输入到多层LSTM模型中,用最小平方误差为代价函数,计算多层LSTM模型输出的结果与标注结果之间的误差,并采用误差反向传播方法调整多层LSTM模型的参数,进而得到稳定收敛的多层LSTM模型;最后对于未分类的数据,进行预处理后输入到多层LSTM模型中,得到分类结果。本发明专利技术提供的基于多层LSTM模型的并行处理分类方法,能够将多组数据一起通过网络,从而在最后可以输出多个待分类实体的分类结果,这种高信息通量的网络结构大大提高了网络训练的效率。

【技术实现步骤摘要】
一种基于多层LSTM模型的并行处理分类方法
本专利技术涉及信息
,尤其涉及一种基于多层LSTM模型的并行处理分类方法。
技术介绍
我们处于一个信息化的时代,随着互联网的迅猛发展,每个人作为一个信息发布源,产生了大量的数据并在互联网中进行广泛的传播。特别是社交网站,以其庞大的用户量,是数据产生的一个重要来源。在Web2.0时代,一方面数据呈现爆发性增长,成为名副其实的海量数据,另一方面数据种类多种多样,从日志、文本再到图片视频,传统数据平台处理这样的容量非结构化的数据就显得力不从心了。为了从这些数据中找到所需要的信息,充分挖掘数据的价值,需要寻求更加高效的检索技术,而分类技术则是其中的一个关键技术。随着人工智能的不断发展,深度学习逐渐成为人工智能研究的热点和重点,在很多领域中取得了瞩目的成果与应用。深度学习通过模拟人脑思维对数据进行分析,可以得到最接近数据本质的表达和模式,具有强大的自我学习挖掘特征的能力。深度学习通过多个隐藏层实现对输入信息的多次抽象,使其拥有了解决复杂问题的能力,在众多方法中脱颖而出。深度学习可以自动地从大量的样本中学习到数据的内容信息,打破了特征工程局限于算法工程师的先验知识,通过与具体任务紧密结合,可以解决很多传统数据挖掘的各种实践应用问题。运用神经网络处理分类任务时,一般将结果向量作为待分类实体被分到各个类别的概率分布。虽然每个实体可以视作单独的分类任务进行网络训练,但是多次输入网络进行处理会使得训练速度变慢,特别现有应用场景处理的大多是网络中的海量数据,这个问题就更为严重。同时,神经网络一次处理一个实例,只能分析一个实例内容,对于互相有关联的实例数据,无法关联利用这些数据、得到更好的分类结果。因此,设计能够并行处理多个实体分类的网络结构,更大程度上利用关联数据的相互补充,在工程实践中具有重大意义。另外,现有的网络结构通常只针对一种类型的数据进行设计,在处理多类型的互联网数据时都每种数据需要使用特定结构的网络,网络结构设计上缺乏通用性,也会造成代码的冗余。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于多层LSTM模型的并行处理分类方法,同时处理多个实体的分类任务,并挖掘数据之间的关联性来对数据进行分类,达到更好的分类效果。为解决上述技术问题,本专利技术所采取的技术方案是:一种基于多层LSTM模型的并行处理分类方法,包括以下步骤:步骤1、对数据进行预处理,根据数据的分类体系,提取多个待分类实体的基础信息,并进行向量化处理;同时,按照基础信息的重要性进行选择,优先选择重要性大的信息;对于文本数据,所述基础信息为分词之后的词;对于图像数据,所述基础信息为RGB三色中某一色的一行像素色彩;步骤2、构建多层LSTM模型;所述多层LSTM模型包括三层神经网络;第一层神经网络为基础信息层级的神经网络,采用LSTM细胞单元,该层神经网络每个细胞单元对应每条数据中的一个基础信息,其输入为每个数据在步骤1中得到的基础信息,其输出对应数据局部信息的高维向量,该层神经网络分析数据的基础信息从而理解出数据的局部信息,并将局部信息映射为高维向量;第二层神经网络为局部信息层级的神经网络,采用LSTM细胞单元,保证数据信息的持久化,该层神经网络的每个细胞单元对应局部信息的高维向量,其接收第一层神经网络的输出向量,其输出为该数据全局信息的高维向量,该层神经网络通过分析数据中的局部信息达到理解全局信息的目的;第三层神经网络为全局信息层级的神经网络,其接收第二层神经网络的输出向量,对多个数据进行关联分析,并输出这些数据的综合信息;最后则进行降维并输出多个实体的分类结果;步骤3、将带有标注的训练数据输入到多层LSTM模型中,用最小平方误差为代价函数,计算多层LSTM模型输出的结果与标注结果之间的误差,并采用误差反向传播方法调整多层LSTM模型的参数,进而得到稳定收敛的多层LSTM模型;步骤4、对于未分类的数据,经过步骤1的预处理,并将其输入到步骤3得到的多层LSTM模型中,得到分类结果。采用上述技术方案所产生的有益效果在于:本专利技术提供的一种基于多层LSTM模型的并行处理分类方法,能够将多组数据一起通过网络,从而在最后可以输出多个待分类实体的分类结果,这种高信息通量的网络结构大大提高了网络训练的效率。在网络的最后一层对多个数据的结果进行处理,从而使网络能够在多个数据的分析结果上学习关联性,以达到更好的分类效果。一般的多层LSTM模型其每层的单元数量均一样,只能在同一粒度上进行分析,而本专利技术的多层LSTM模型则能分别从基础信息、局部信息、全局信息多个粒度上进行分析,探究之间的联系,从而达到更好的效果,且人们理解数据方式保持一致,具有很好的扩展性。同时,本专利技术采用LSTM细胞单元,它会对该数据信息进行判断,符合规则的数据信息会被留下,不符合的数据信息会被遗忘,从而解决神经网络中长序列依赖问题,达到信息的持久化。本专利技术提供的是一种通用的分类网络结构,应用范围广,对图片、文本数据均适用。在文本方面,通过分析关于某些实体或主题的大量文本,可以快速得到这些文本的分类信息;在图像方面,通过分析的一系列图片,可以发掘图片之间的关联性,从而对图片中包含的场景或实体进行分类。附图说明图1为本专利技术实施例提供的一种基于多层LSTM模型的并行处理分类方法的流程图;图2为本专利技术实施例提供的多层LSTM模型的结构的示意图;图3为本专利技术实施例提供的三幅图片数据,其中,(a)为第一幅图,(b)为第二幅图,(c)为第三幅图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。一种基于多层LSTM模型的并行处理分类方法,如图1所示,包括以下步骤:步骤1、对数据进行预处理,针对分类体系,提取多组待分类实体的基础信息并进行向量化处理。对文本数据进行预处理,基础信息为分词之后的词;本实施例中,通过文本分词和去掉停用词两个过程提取文本的基础信息。不同于英文的天然空格间隔,中文的词语显然比字包含更多的信息,因而好的分词结果是较为重要的;停用词是文本中一些高频的代词连词介词等对文本分类无意义的词,这些词频繁出现,但对于文本分类来说并不含有重要的信息,去掉可以保证更好的效果。对于图像数据,基础信息为RGB三色中某一色的一行像素色彩;本实施例中可以对图片数据进行直方图均衡化等操作,使图片数据信息分布均匀,进而提取文本的基础信息。针对不同的分类领域,需要确定相应的分类标准,从而提取数据的基础信息。提取出数据的基础信息后,还需要将基础信息转为计算机可理解的方式,即进行向量化。例如对于文本数据,需要将基础信息转换成一个高维的向量,将文本内容处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,最大程度上保留语义;对于图片信息,基础信息则对应一行或一列像素的RGB单个通道的值。另外,本专利技术可以接收多个分类实体作为输入。对于文本数据,可以将多个文本的词向量作为输入,图像数据则是将多张图片的一行(列)像素的单通道数据作为输入。多个待分类实体的数据在神经网络中一次输入的好处在于,神经网络可以承载更大的信息量,以前整个神经网络一次只能判断一个实体的分类的信息,本文档来自技高网
...

【技术保护点】
1.一种基于多层LSTM模型的并行处理分类方法,其特征在于:包括以下步骤:步骤1、对数据进行预处理,根据数据的分类体系,提取多个待分类实体的基础信息,并进行向量化处理;步骤2、构建多层LSTM模型;步骤3、将带有标注的训练数据输入到多层LSTM模型中,用最小平方误差为代价函数,计算多层LSTM模型输出的结果与标注结果之间的误差,并采用误差反向传播方法调整多层LSTM模型的参数,进而得到稳定收敛的多层LSTM模型;步骤4、对于未分类的数据,经过步骤1的预处理,并将其输入到步骤3得到的多层LSTM模型中,得到分类结果。

【技术特征摘要】
1.一种基于多层LSTM模型的并行处理分类方法,其特征在于:包括以下步骤:步骤1、对数据进行预处理,根据数据的分类体系,提取多个待分类实体的基础信息,并进行向量化处理;步骤2、构建多层LSTM模型;步骤3、将带有标注的训练数据输入到多层LSTM模型中,用最小平方误差为代价函数,计算多层LSTM模型输出的结果与标注结果之间的误差,并采用误差反向传播方法调整多层LSTM模型的参数,进而得到稳定收敛的多层LSTM模型;步骤4、对于未分类的数据,经过步骤1的预处理,并将其输入到步骤3得到的多层LSTM模型中,得到分类结果。2.根据权利要求1所述的一种基于多层LSTM模型的分类方法,其特征在于,步骤1所述根据数据的分类体系,提取多个待分类实体的基础信息,需要按照其重要性进行选择,优先选择重要性大的信息。3.根据权利要求1所述的一种基于多层LSTM模型的并行处理分类方法,其特征在于:步骤1所述提取多个待分类实体的基础信息,具体为:对于文本数据,所述基础信息为分词之后的词;对于图像...

【专利技术属性】
技术研发人员:杨可静兰云飞陈钟李青山吴振豪高健博王晓青
申请(专利权)人:北京国信云服科技有限公司北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1