神经网络语言模型、训练方法、装置及存储介质制造方法及图纸

技术编号:22531927 阅读:18 留言:0更新日期:2019-11-13 09:12
本发明专利技术实施例公开了一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质,应用于人工智能中的自然语言处理;神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型,方法包括:通过多个对应不同隐主题的全连接网络模型,将训练数据的特征向量所对应的第一隐层表达进行分解,得到第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个第二隐层表达所对应的聚类类别;以第二隐层表达作为输入,以训练数据对应的目标数据作为输出,训练聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。

Neural network language model, training method, device and storage medium

The embodiment of the invention discloses a training method, a neural network language model, a device and a storage medium of the neural network language model, which are applied to natural language processing in artificial intelligence; the output layer of the neural network model includes a plurality of fully connected network models and a plurality of normalized exponential function models, and the method includes: through a plurality of fully connected networks corresponding to different hidden topics In the model, the first hidden layer representation corresponding to the feature vector of training data is decomposed to obtain the second hidden layer representation corresponding to the first hidden layer representation under different hidden topics; the corresponding clustering categories of each second hidden layer representation are determined respectively; the second hidden layer representation is used as the input, the target data corresponding to the training data is used as the output, and the corresponding clustering categories are trained to be unified The index function model predicts the performance of the target data according to the second hidden layer representation of the input data.

【技术实现步骤摘要】
神经网络语言模型、训练方法、装置及存储介质分案说明本申请基于申请号为201811435778.X、申请日为2018年11月28日、专利技术名称为神经网络语言模型、文本预测方法、装置及存储介质的中国专利申请提出,在该中国专利申请记载的范围内提出分案,该中国专利申请的全部内容在此引入本申请作为参考。
本专利技术涉及人工智能领域的自然语言处理技术,尤其涉及一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着自然语言处理技术的发展,基于循环神经网络(RNN,RecurrentNeuralNetwork)架构的语言模型被越来越多的应用于处理多分类问题,然而当所要处理的类别巨大(如100K甚至1B)时,相关技术中的语言模型的训练效率低下,甚至由于计算资源受限导致无法进行训练。
技术实现思路
本专利技术实施例提供一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质,能够提升语言模型的表征能力,提高语言模型的训练效率。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种神经网络语言模型的训练方法,所述神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型,所述方法包括:通过多个对应不同隐主题的全连接网络模型,将训练数据的特征向量所对应的第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个所述第二隐层表达所对应的聚类类别;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中数据分类的输出概率不同于所述尾聚类中数据分类的输出概率;以所述第二隐层表达作为输入,以所述训练数据对应的目标数据作为输出,训练所述聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。上述方案中,所述神经网络语言模型还包括输入层及隐藏层,所述方法还包括:通过所述神经网络语言模型的输入层将所述训练数据映射为相应的特征向量;通过所述神经网络语言模型的隐藏层,调用激活函数得到所述训练数据的特征向量所对应的第一隐层表达。上述方案中,所述方法还包括:输入文本至所述神经网络语言模型的输入层,以将所述文本映射为相应的特征向量;通过所述神经网络语言模型的隐藏层,调用激活函数得到对应所述特征向量的第一隐层表达;通过所述神经网络语言模型的输出层,将所述第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个所述第二隐层表达所对应的聚类类别,并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中文本分类的输出概率不同于所述尾聚类中文本分类的输出概率;融合各所述第二隐层表达对应的概率分布,并基于融合后得到的概率分布输出所述文本所对应的目标文本。本专利技术实施例还提供一种基于神经网络语言模型,所述神经网络语言模型的输出层包括多个对应不同隐主题的全连接网络模型、以及多个归一化指数函数模型;所述全连接网络模型,用于将训练数据的特征向量所对应的第一隐层表达进行分解,得到所述第一隐层表达在相应隐主题下的第二隐层表达;所述归一化指数函数模型,用于确定所述第二隐层表达所对应的聚类类别;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中数据分类的输出概率不同于所述尾聚类中数据分类的输出概率;以及,用于根据输入数据的第二隐层表达预测所述聚类类别对应的目标数据。上述方案中,所述神经网络语言模型还包括输入层及隐藏层;输入层,用于将输入的所述训练数据映射为相应的特征向量,并输入所述特征向量至隐藏层;所述隐藏层,用于基于输入的所述特征向量,调用激活函数,输出对应所述特征向量的第一隐层表达至所述输出层。上述方案中,所述输入层,还用于将输入的文本映射为相应的特征向量,并输入所述特征向量至隐藏层;所述隐藏层,还用于基于输入的所述特征向量,调用激活函数,输出对应所述特征向量的第一隐层表达至输出层;所述输出层,还用于将所述第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;以及,分别确定每个所述第二隐层表达所对应的聚类类别,并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布;以及,融合各所述第二隐层表达对应的概率分布,并基于融合后得到的概率分布输出所述文本所对应的目标文本。本专利技术实施例还提供一种神经网络语言模型的训练装置,所述装置包括:存储器,用于存储可执行程序;处理器,用于执行所述存储器中存储的可执行程序时,实现上述的神经网络语言模型的训练方法。本专利技术实施例提供一种存储介质,存储有可执行程序,所述可执行程序被处理器执行时,实现上述的神经网络语言模型的训练方法。应用本专利技术上述实施例具有以下有益效果:1)、神经网络语言模型的输出层将训练数据的第一隐层表达进行分解,得到第一隐层表达分别在不同隐主题下对应的第二隐层表达;扩充了模型的实际表达维度,提升了模型整体的表征能力;2)、聚类类别与归一化指数函数相对应,不同的聚类类别对应不同的归一化指数函数;由于头聚类中数据分类的输出概率不同于尾聚类中数据分类的输出概率,使得神经网络语言模型在训练过程中,对应不同聚类类别的归一化指数函数的训练机会不对等,数据分类的输出概率高的聚类类别所对应的归一化指数函数的参数,在训练过程中显然被更新的频率高,当数据分类的数目巨大时,避免了模型训练过程中频繁的更新输出概率低的聚类类别所对应的归一化指数函数的参数,提高了模型训练效率的同时也节约了硬件资源。附图说明图1为本专利技术实施例提供的神经网络语言模型的架构示意图;图2为本专利技术实施例提供的神经网络语言模型的架构示意图;图3为本专利技术实施例提供的softmax层的功能示意图;图4为本专利技术实施例提供的神经网络语言模型的架构示意图;图5为本专利技术实施例提供的神经网络语言模型的架构示意图;图6为本专利技术实施例提供的基于神经网络语言模型的文本预测方法流程示意图;图7为本专利技术实施例提供的基于神经网络语言模型的文本预测装置结构示意图。具体实施方式以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本专利技术,并不用于限定本专利技术。另外,以下所提供的实施例是用于实施本专利技术的部分实施例,而非提供实施本专利技术的全部实施例,在不冲突的情况下,本专利技术实施例记载的技术方案可以任意组合的方式实施。需要说明的是,在本专利技术实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固本文档来自技高网...

【技术保护点】
1.一种神经网络语言模型的训练方法,其特征在于,所述神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型,所述方法包括:通过多个对应不同隐主题的全连接网络模型,将训练数据的特征向量所对应的第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个所述第二隐层表达所对应的聚类类别;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中数据分类的输出概率不同于所述尾聚类中数据分类的输出概率;以所述第二隐层表达作为输入,以所述训练数据对应的目标数据作为输出,训练所述聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。

【技术特征摘要】
1.一种神经网络语言模型的训练方法,其特征在于,所述神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型,所述方法包括:通过多个对应不同隐主题的全连接网络模型,将训练数据的特征向量所对应的第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个所述第二隐层表达所对应的聚类类别;其中,所述聚类类别包括头聚类及尾聚类,所述头聚类中数据分类的输出概率不同于所述尾聚类中数据分类的输出概率;以所述第二隐层表达作为输入,以所述训练数据对应的目标数据作为输出,训练所述聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。2.如权利要求1所述的方法,其特征在于,所述神经网络语言模型还包括输入层及隐藏层,所述方法还包括:通过所述神经网络语言模型的输入层将所述训练数据映射为相应的特征向量;通过所述神经网络语言模型的隐藏层,调用激活函数得到所述训练数据的特征向量所对应的第一隐层表达。3.如权利要求2所述的方法,其特征在于,所述方法还包括:输入文本至所述神经网络语言模型的输入层,以将所述文本映射为相应的特征向量;通过所述神经网络语言模型的隐藏层,调用激活函数得到对应所述特征向量的第一隐层表达;通过所述神经网络语言模型的输出层,将所述第一隐层表达进行分解,得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达;分别确定每个所述第二隐层表达所对应的聚类类别,并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布;融合各所述第二隐层表达对应的概率分布,并基于融合后得到的概率分布输出所述文本所对应的目标文本。4.如权利要求3所述的方法,其特征在于,所述方法还包括:依据文本分类出现在训练数据中的频次,对多个文本分类进行聚类,得到至少一个所述头聚类及至少一个所述尾聚类。5.如权利要求4所述的方法,其特征在于,所述依据文本分类出现在训练数据中的频次,对多个文本分类进行聚类,包括:按照所述频次由高到低的顺序对所述多个文本分类进行排序,得到文本分类序列;遍历所述文本分类序列,并对文本分类的频次进行累加;当文本分类的累计频次满足预设条件时,停止所述遍历,并将所述文本分类序列中遍历过的所有文本分类所形成的集合作为所述头聚类。6.如权利要求5所述的方法,其特征在于,所述方法还包括:重复执行下述操作直至获得预定数量的尾聚类:遍历所述文本分类序列中剩余未遍历的文本分类序列,并对文本分类的频次进行累加;当文本分类的累计频次满足预设条件时,停止所述遍历,并将所述文本分类序列中本次遍历过的所有文本分类所形成的集合作为尾聚类。7.如权利要求6所述的方法,其特征在于,所述方法还包括:分别为每个所述尾聚类分配类标识ID;相应的,所述头聚类中还包括所述预定数量的尾聚类的类ID。8.如权利要求1所述的方法,其特征在于,所述分别确定每个所述第二隐层表达所对应的聚...

【专利技术属性】
技术研发人员:陈强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1