自编码神经网络处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21850916 阅读:23 留言:0更新日期:2019-08-14 00:24
本申请公开了一种自编码神经网络处理方法、装置、计算机设备及存储介质,该方法通过将文本样本转化为样本词向量,将样本词向量输入到卷积神经网络模型中对样本词向量进行初步特征提取,得到样本初步隐含特征;将样本初步隐含特征输入到多个自编码神经网络中,对自编码神经网络进行训练,得到多个自编码神经网络模型,将样本初步隐含特征输入到自编码神经网络模型中进行特征提取,得到自编码神经网络模型输出的样本隐含特征;对提取出的样本隐含特征的特征样本进行聚类,得到聚类结果;根据聚类结果确定是否要重新构建自编码神经网络;若确定要重新构建自编码神经网络,则根据轮廓系数构建目标自编码神经网络,得到聚类准确率高的自编码神经网络。

Self-coding Neural Network Processing Method, Device, Computer Equipment and Storage Media

【技术实现步骤摘要】
自编码神经网络处理方法、装置、计算机设备及存储介质
本申请涉及计算机领域,尤其涉及一种自编码神经网络处理方法、装置、计算机设备及存储介质。
技术介绍
随着现代人生活节奏的加快,为了能在短时间内浏览到尽可能多的信息,网络中涌现了越来越多的短文本。这些短文本结构和内容各不相同。为了对这些短文本进行分析和统计,通常做法是采用词袋模型进行文本特征的提取,再通过聚类算法对提取出来的特征进行聚类。然而,由于词袋模型需要忽略文本的词序、语法、句法等要素,将文本拆分为一个个词,这样的做法由于缺少神经网络进行特征提取,往往导致文本特征信息丢失,从而导致文本特征提取准确率降低,从而影响聚类准确率。因此,如何确定出出一个能够提高聚类准确率的神经网络还有待解决。
技术实现思路
本申请提供一种自编码神经网络处理方法、装置、计算机设备及存储介质,以训练出一个能提高聚类准确率的自编码神经网络模型。一种自编码神经网络处理方法,包括:获取文本样本;将所述文本样本转化为样本词向量;将所述样本词向量输入到预先训练完毕的卷积神经网络模型中,以对所述样本词向量进行初步特征提取,得到样本初步隐含特征;将所述样本初步隐含特征输入到多个自编码神经网络中,对所述自编码神经网络进行训练,得到多个自编码神经网络模型,其中,各个所述自编码神经网络的隐层和隐层单元数量不同;分别将所述样本初步隐含特征输入到每个所述自编码神经网络模型中进行特征提取,分别得到每个所述自编码神经网络模型输出的样本隐含特征;采用聚类算法对每个所述自编码神经网络模型提取出的所述样本隐含特征的特征样本分别进行聚类,得到每一个所述自编码神经网络模型对应的聚类结果;根据每个所述自编码神经网络模型对应的所述聚类结果确定是否要重新构建自编码神经网络;若确定要重新构建自编码神经网络,则根据所述聚类结果的轮廓系数构建目标自编码神经网络。一种自编码神经网络处理装置,包括:获取模块,用于获取文本样本;转化模块,用于将所述文本样本转化为样本词向量;第一特征提取模块,用于将所述样本词向量输入到预先训练完毕的卷积神经网络模型中,以对所述样本词向量进行初步特征提取,得到样本初步隐含特征;训练模块,用于将所述样本初步隐含特征输入到多个自编码神经网络中,对所述自编码神经网络进行训练,得到多个自编码神经网络模型,其中,各个所述自编码神经网络的隐层和隐层单元数量不同;第二特征提取模块,用于分别将所述样本初步隐含特征输入到每个所述自编码神经网络模型中进行特征提取,分别得到每个所述自编码神经网络模型输出的样本隐含特征;聚类模块,用于采用聚类算法对每个所述自编码神经网络模型提取出的所述样本隐含特征的特征样本分别进行聚类,得到每一个所述自编码神经网络模型对应的聚类结果;确定模块,用于根据每个所述自编码神经网络模型对应的所述聚类结果确定是否要重新构建自编码神经网络;重构模块,用于若确定要重新构建自编码神经网络,则根据所述聚类结果的轮廓系数构建目标自编码神经网络。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述自编码神经网络处理方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述自编码神经网络处理方法。上述自编码神经网络处理方法、装置、计算机设备及存储介质,通过对文本样本进行预处理、初步特征提取以及自编码神经网络训练,得到自编码神经网络模型,再采用自编码神经网络模型进行进一步地特征提取,得到样本隐含特征,使得样本隐含特征包含了更多文本样本中的有效信息;再对样本隐含特征进行聚类,最后根据聚类结果来构建目标自编码神经网络以得到一个能提高聚类准确率的自编码神经网络。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请一实施例中自编码神经网络处理方法的一应用环境示意图;图2是本申请一实施例中自编码神经网络处理方法的一流程图;图3是本申请一实施例中自编码神经网络处理方法的一示例图;图4是本申请一实施例中自编码神经网络处理方法的一示例图;图5是本申请一实施例中自编码神经网络处理方法的一示例图;图6是本申请一实施例中自编码神经网络处理方法的一示例图;图7是本申请一实施例中自编码神经网络处理方法的一示例图;图8是本申请一实施例中自编码神经网络处理装置的一原理框图;图9是本申请一实施例中自编码神经网络处理装置的一示意图;图10是本申请一实施例中计算机设备的一示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供的自编码神经网络处理方法,可应用在如图1所述的网络架构中,其中服务器在获取到文本样本之后,对文本样本进行预处理,得到初步样本隐含特征之后,开始训练自编码神经网络,在得到训练完成的自编码神经网络模型之后,进行进一步地特征提取,并将提取出的特征对应的特征样本进行聚类,最后根据聚类结果的轮廓系数重新构建出目标自编码神经网络。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种自编码神经网络处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:S10:获取文本样本。其中,文本样本是指包括字符、词语、语句或者字符的组合。文本样本可以是通过爬虫技术从网络上获取得到,这里对文本样本的获取方式不做限定。S20:将文本样本转化为样本词向量。其中,样本词向量是指能被计算机识别的,用于对神经网络进行训练的向量样本。具体地,可以采用word2vec算法,将文本样本转化为样本词向量,将所述样本词向量作为样本词向量,或者通过其他样本词向量转化方式得到上述样本词向量,例如glove算法将文本样本转化为样本词向量,具体这里不做限定。S30:将样本词向量输入到预先训练完毕的卷积神经网络模型中,以对样本词向量进行初步特征提取,得到样本初步隐含特征。其中,预先训练完毕的卷积神经网络模型(TextinConvolutionalNeuralNetwork,TextCNN)是指提前对该卷积神经网络模型进行训练的,并且已经达到预期的特征提取效果的神经网络。具体地,将样本词向量作为卷积神经网络模型的输入样本,输入到卷积神经网络模型的输入层,并依次经过卷积层、激活函数、池化层、全连接层的处理,在输出层进行特征输出,得到样本词向量的样本初步隐含特征。其中,样本隐含特征为卷积神经网络模型所提取出来的特征向量,样本初步隐含特征是高维度的隐含特征,通常里面包含了很多干扰信息。在该具体实施例中,通过将样本词向量输入到预先训练完毕的卷积神经网络模型中,以对所述样本词向量进行初步特征提取,得到样本初步隐含特征。通过采用预先训练完毕的卷积神经网络模型对样本词向量进行本文档来自技高网...

【技术保护点】
1.一种自编码神经网络处理方法,其特征在于,包括:获取文本样本;将所述文本样本转化为样本词向量;将所述样本词向量输入到预先训练完毕的卷积神经网络模型中,以对所述样本词向量进行初步特征提取,得到样本初步隐含特征;将所述样本初步隐含特征输入到多个自编码神经网络中,对所述自编码神经网络进行训练,得到多个自编码神经网络模型,其中,各个所述自编码神经网络的隐层和隐层单元数量不同;分别将所述样本初步隐含特征输入到每个所述自编码神经网络模型中进行特征提取,分别得到每个所述自编码神经网络模型输出的样本隐含特征;采用聚类算法对每个所述自编码神经网络模型提取出的所述样本隐含特征的特征样本分别进行聚类,得到每一个所述自编码神经网络模型对应的聚类结果;根据每个所述自编码神经网络模型对应的所述聚类结果确定是否要重新构建自编码神经网络;若确定要重新构建自编码神经网络,则根据所述聚类结果的轮廓系数构建目标自编码神经网络。

【技术特征摘要】
1.一种自编码神经网络处理方法,其特征在于,包括:获取文本样本;将所述文本样本转化为样本词向量;将所述样本词向量输入到预先训练完毕的卷积神经网络模型中,以对所述样本词向量进行初步特征提取,得到样本初步隐含特征;将所述样本初步隐含特征输入到多个自编码神经网络中,对所述自编码神经网络进行训练,得到多个自编码神经网络模型,其中,各个所述自编码神经网络的隐层和隐层单元数量不同;分别将所述样本初步隐含特征输入到每个所述自编码神经网络模型中进行特征提取,分别得到每个所述自编码神经网络模型输出的样本隐含特征;采用聚类算法对每个所述自编码神经网络模型提取出的所述样本隐含特征的特征样本分别进行聚类,得到每一个所述自编码神经网络模型对应的聚类结果;根据每个所述自编码神经网络模型对应的所述聚类结果确定是否要重新构建自编码神经网络;若确定要重新构建自编码神经网络,则根据所述聚类结果的轮廓系数构建目标自编码神经网络。2.如权利要求1所述的自编码神经网络处理方法,其特征在于,所述根据每个所述自编码神经网络模型对应的所述聚类结果确定是否要重新构建自编码神经网络,包括:分别计算每一个所述自编码神经网络模型对应的聚类结果的轮廓系数;判断每一个所述聚类结果的轮廓系数是否满足预设条件;若所述每一个所述聚类结果的轮廓系数都不满足所述预设条件,则确定要重新构建自编码神经网络。3.如权利要求2所述的自编码神经网络处理方法,其特征在于,所述聚类结果包括多个簇,每个所述簇包含一个或多个所述特征样本,所述分别计算每一个所述自编码神经网络模型对应的聚类结果的轮廓系数,包括:计算同一所述聚类结果中,每一个所述特征样本到所述特征样本所属的簇中的其他特征样本的平均距离;计算同一所述聚类结果中,每一个所述特征样本到所述样本非所属的所述簇中的其他特征样本的平均距离;计算同一所述聚类结果中,所述每一个所述特征样本的轮廓系数,其中,所述轮廓系数为:其中,i表示同一所述聚类结果的特征样本i;S(i)为所述特征样本i的轮廓系数;b(i)为所述特征样本i到特征样本i非所属的簇中的其他特征样本的平均距离;a(i)为所述特征样本i到特征样本i所属的簇中的其他特征样本的平均距离;max{a(i),b(i)}表示取a(i)和b(i)中的最大值;取同一所述聚类结果中,所有所述特征样本的轮廓系数的平均值,作为同一所述聚类结果的轮廓系数。4.如权利要求1所述的自编码神经网络处理方法,其特征在于,所述若确定要重新构建自编码神经网络,则根据所述轮廓系数构建目标自编码神经网络,包括:确定所有所述聚类结果的轮廓系数与所有所述自编码神经网络模型的隐层和隐层单元的数量之间的隐含规律;将所述隐含规律作为目标自编码神经网络的隐层和隐层单元的数量的设置依据;根据所述设置依据来设置所述目标自编码神经网络的隐层和隐层单元的数量。5.如权利要求1所述的自编码神经网络处理方法,其特征在于,在所...

【专利技术属性】
技术研发人员:金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1