神经网络语言模型、文本预测方法、装置及存储介质制造方法及图纸

技术编号:21914036 阅读:20 留言:0更新日期:2019-08-21 12:27
本发明专利技术实施例公开了一种神经网络语言模型、文本预测方法、装置及存储介质;神经网络语言模型包括:输入层,用于将输入的文本映射为相应的特征向量;隐藏层,用于调用激活函数,输出对应特征向量的第一隐层表达至输出层;输出层,用于将第一隐层表达进行分解,得到第一隐层表达分别在不同隐主题下对应的第二隐层表达;以及,分别确定每个第二隐层表达所对应的聚类,并调用所述聚类对应的归一化指数函数得到第二隐层表达对应的概率分布;其中,聚类包括头聚类及尾聚类,头聚类中文本分类的输出概率不同于尾聚类中文本分类的输出概率;以及,融合各第二隐层表达对应的概率分布,并基于融合后得到的概率分布输出对应所述文本的目标文本。

Neural Network Language Model, Text Prediction Method, Device and Storage Media

【技术实现步骤摘要】
神经网络语言模型、文本预测方法、装置及存储介质
本专利技术涉及自然语言处理技术,尤其涉及一种神经网络语言模型、文本预测方法、装置及存储介质。
技术介绍
随着自然语言处理技术的发展,基于循环神经网络(RNN,RecurrentNeuralNetwork)架构的语言模型被越来越多的应用于处理多分类问题,然而当所要处理的类别巨大(如100K甚至1B)时,相关技术中的语言模型的训练效率低下,甚至由于计算资源受限导致无法进行训练。
技术实现思路
本专利技术实施例提供一种神经网络语言模型、文本预测方法、装置及存储介质,能够提升语言模型的表征能力,提高语言模型的训练效率。本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供一种神经网络语言模型,所述神经网络语言模型包括:输入层,用于将输入的文本映射为相应的特征向量,并输入所述特征向量至隐藏层;所述隐藏层,用于基于输入的所述特征向量,调用激活函数,输出对应所述特征向量的第一隐层表达至输出层;所述输出层,用于将所述第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;以及,分别确定每个所述第二隐层表达所对应的聚类类别,并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中文本分类的输出概率不同于所述尾聚类中文本分类的输出概率;以及,融合各所述第二隐层表达对应的概率分布,并基于融合后得到的概率分布输出所述文本所对应的目标文本。第二方面,本专利技术实施例提供一种基于神经网络语言模型的文本预测方法,包括:输入文本至所述神经网络语言模型的输入层,以将所述文本映射为相应的特征向量;通过所述神经网络语言模型的隐藏层,调用激活函数得到对应所述特征向量的第一隐层表达;通过所述神经网络语言模型的输出层,将所述第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个所述第二隐层表达所对应的聚类类别,并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中文本分类的输出概率不同于所述尾聚类中文本分类的输出概率;融合各所述第二隐层表达对应的概率分布,并基于融合后得到的概率分布输出所述文本所对应的目标文本。第三方面,本专利技术实施例提供一种基于神经网络语言模型的文本预测装置,所述装置包括:存储器,用于存储可执行程序;处理器,用于执行所述存储器中存储的可执行程序时,实现上述的基于神经网络语言模型的文本预测方法。第四方面,本专利技术实施例提供一种存储介质,存储有可执行程序,所述可执行程序被处理器执行时,实现上述的基于神经网络语言模型的文本预测方法。应用本专利技术上述实施例具有以下有益效果:1)、神经网络语言模型的输出层将文本的第一隐层表达进行分解,得到第一隐层表达分别在不同隐主题下对应的第二隐层表达;扩充了模型的实际表达维度,提升了模型整体的表征能力;2)、多个文本分类被聚类,形成包括头聚类及尾聚类的多个聚类类别,具体的聚类类别与归一化指数函数相对应,不同的聚类类别对应不同的归一化指数函数;由于头聚类中文本分类的输出概率不同于尾聚类中文本分类的输出概率,使得神经网络语言模型在训练过程中,对应不同聚类类别的归一化指数函数的训练机会不对等,文本分类的输出概率高的聚类类别所对应的归一化指数函数的参数,在训练过程中显然被更新的频率高,当文本分类的数目巨大时,避免了模型训练过程中频繁的更新输出概率低的聚类类别所对应的归一化指数函数的参数,提高了模型训练效率的同时也节约了硬件资源。附图说明图1为本专利技术实施例提供的神经网络语言模型的架构示意图;图2为本专利技术实施例提供的神经网络语言模型的架构示意图;图3为本专利技术实施例提供的softmax层的功能示意图;图4为本专利技术实施例提供的神经网络语言模型的架构示意图;图5为本专利技术实施例提供的神经网络语言模型的架构示意图;图6为本专利技术实施例提供的基于神经网络语言模型的文本预测方法流程示意图;图7为本专利技术实施例提供的基于神经网络语言模型的文本预测装置结构示意图。具体实施方式以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本专利技术,并不用于限定本专利技术。另外,以下所提供的实施例是用于实施本专利技术的部分实施例,而非提供实施本专利技术的全部实施例,在不冲突的情况下,本专利技术实施例记载的技术方案可以任意组合的方式实施。需要说明的是,在本专利技术实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。本专利技术实施例提供的神经网络语言模型用于通过输入的n-1个单词,来预测第n个单词的概率分布,也即在得知前面的若干个单词的时候,通过神经网络语言模型预测下一个位置上出现的某个单词的概率。作为神经网络语言模型的一个实施例,图1为本专利技术实施例提供的神经网络语言模型的架构示意图,参见图1,神经网络语言模型包括输入层、隐藏层及输出层;输入层:通过一个映射矩阵C(矩阵的规模为|V|*m,其中|V|是词表大小,V={w1,w2,…w|V|},m是词向量的维度),将前n-1个离散的单词映射成n-1个m维向量,也就是通过查表的方式将单词变成词向量,然后将这n-1个m维向量首尾相接形成一个m(n-1)的向量,该向量就是神经网络的输入向量x。隐藏层:隐藏层的节点个数为h,为了将输入层输出的m(n-1)向量x转化为隐藏层(维度为h)的输入,在输入层和隐藏层之间需要一个参数矩阵H(H的规模为h*m(n-1)),同时需要一个偏置d,该变化可以表示为f(x)=Hx+d,这是一个线性变换,隐藏层的输出需要将经过线性变换的向量再做一次非线性变换,在一实施例中选择的激活函数1为tanh/th(双曲正切),相应的隐藏层的输出就是tanh(Hx+d)。输出层:从隐藏层到输出层的传递同样需要一个线性变换和一个非线性变换,首先通过线性变换将隐藏层的输出向量的维数转化为和输出层的节点数一致,为了将输出表示成概率分布的形式(每个维度上的值之和为1),需要对输出层的输入(也就是隐藏层的输出)进行一个非线性变换,在一实施例中,采用的激活函数2为softmax(归一化指数函数)输出概率分布p。在一实施例中,神经网络语言模型的隐藏层的数量为两层,分别作为特征层存在,图2为本专利技术实施例提供的神经网络语言模型的架构示意图,参见图2,softmax层作为输出层存在,数据经输入层及两个特征层的处理,最后通过softmax层得到类别分别为y=0、y=1、y=2的概率值。继续参见图3,图3为本专利技术实施例提供的softmax层的功能示意图,其中,1、2、3代表三个输入,三个输入通过softmax后得到一个数组[0.88,0.12,0],分别表征对应类别的输出概率。作为神经网络语言模型的一本文档来自技高网...

【技术保护点】
1.一种基于神经网络语言模型的文本预测方法,其特征在于,包括:输入文本至所述神经网络语言模型的输入层,以将所述文本映射为相应的特征向量;通过所述神经网络语言模型的隐藏层,调用激活函数得到对应所述特征向量的第一隐层表达;通过所述神经网络语言模型的输出层,将所述第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个所述第二隐层表达所对应的聚类类别,并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中文本分类的输出概率不同于所述尾聚类中文本分类的输出概率;融合各所述第二隐层表达对应的概率分布,并基于融合后得到的概率分布输出所述文本所对应的目标文本。

【技术特征摘要】
1.一种基于神经网络语言模型的文本预测方法,其特征在于,包括:输入文本至所述神经网络语言模型的输入层,以将所述文本映射为相应的特征向量;通过所述神经网络语言模型的隐藏层,调用激活函数得到对应所述特征向量的第一隐层表达;通过所述神经网络语言模型的输出层,将所述第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个所述第二隐层表达所对应的聚类类别,并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中文本分类的输出概率不同于所述尾聚类中文本分类的输出概率;融合各所述第二隐层表达对应的概率分布,并基于融合后得到的概率分布输出所述文本所对应的目标文本。2.如权利要求1所述的方法,其特征在于,所述方法还包括:依据文本分类出现在训练数据中的频次,对多个文本分类进行聚类,得到至少一个所述头聚类及至少一个所述尾聚类。3.如权利要求2所述的方法,其特征在于,所述依据文本分类出现在训练数据中的频次,对多个文本分类进行聚类,包括:按照所述频次由高到低的顺序对所述多个文本分类进行排序,得到文本分类序列;遍历所述文本分类序列,并对文本分类的频次进行累加;当文本分类的累计频次满足预设条件时,停止所述遍历,并将所述文本分类序列中遍历过的所有文本分类所形成的集合作为所述头聚类。4.如权利要求3所述的方法,其特征在于,所述方法还包括:重复执行下述操作直至获得预定数量的尾聚类:遍历所述文本分类序列中剩余未遍历的文本分类序列,并对文本分类的频次进行累加;当文本分类的累计频次满足预设条件时,停止所述遍历,并将所述文本分类序列中本次遍历过的所有文本分类所形成的集合作为尾聚类。5.如权利要求4所述的方法,其特征在于,所述方法还包括:分别为每个所述尾聚类分配类标识ID;相应的,所述头聚类中还包括所述预定数量的尾聚类的类ID。6.如权利要求1所述的方法,其特征在于,所述分别确定每个所述第二隐层表达所对应的聚类类别,包括:对所述第二隐层表达应用所述头聚类对应的归一化指数函数,得到所述第二隐层表达对应的概率分布;确定所述第二隐层表达对应的概率分布的最大值所对应的文本;依据所确定的所述文本确定所述第二隐层表达所对应的聚类类别。7.如权利要求1所述的方法,其特征在于,所述方法还包括:确定训练数据的第二隐层表达所对应的聚类类别;以所述训练数据的第二隐层表达作为输入,以所述训练数据对应的目标数据作为输出,训练所述聚类类别对应的归一化指数函数根据训练数据的第二隐层表达预测相应的目标数据的性能。8.如权利要求1所述的方法,其特征在于,所述融合各...

【专利技术属性】
技术研发人员:陈强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1