神经网络语言模型、训练方法、装置及存储介质制造方法及图纸

技术编号：22531927 阅读：18 留言：0更新日期：2019-11-13 09:12

本发明专利技术实施例公开了一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质，应用于人工智能中的自然语言处理；神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型，方法包括：通过多个对应不同隐主题的全连接网络模型，将训练数据的特征向量所对应的第一隐层表达进行分解，得到第一隐层表达分别在不同隐主题下对应的第二隐层表达；分别确定每个第二隐层表达所对应的聚类类别；以第二隐层表达作为输入，以训练数据对应的目标数据作为输出，训练聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。

Neural network language model, training method, device and storage medium

The embodiment of the invention discloses a training method, a neural network language model, a device and a storage medium of the neural network language model, which are applied to natural language processing in artificial intelligence; the output layer of the neural network model includes a plurality of fully connected network models and a plurality of normalized exponential function models, and the method includes: through a plurality of fully connected networks corresponding to different hidden topics In the model, the first hidden layer representation corresponding to the feature vector of training data is decomposed to obtain the second hidden layer representation corresponding to the first hidden layer representation under different hidden topics; the corresponding clustering categories of each second hidden layer representation are determined respectively; the second hidden layer representation is used as the input, the target data corresponding to the training data is used as the output, and the corresponding clustering categories are trained to be unified The index function model predicts the performance of the target data according to the second hidden layer representation of the input data.

全部详细技术资料下载

【技术实现步骤摘要】
神经网络语言模型、训练方法、装置及存储介质分案说明本申请基于申请号为201811435778.X、申请日为2018年11月28日、专利技术名称为神经网络语言模型、文本预测方法、装置及存储介质的中国专利申请提出，在该中国专利申请记载的范围内提出分案，该中国专利申请的全部内容在此引入本申请作为参考。
本专利技术涉及人工智能领域的自然语言处理技术，尤其涉及一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质。
技术介绍
人工智能(AI，ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着自然语言处理技术的发展，基于循环神经网络(RNN，RecurrentNeuralNetwork)架构的语言模型被越来越多的应用于处理多分类问题，然而当所要处理的类别巨大(如100K甚至1B)时，相关技术中的语言模型的训练效率低下，甚至由于计算资源受限导致无法进行训练。
技术实现思路
本专利技术实施例提供一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质，能够提升语言模型的表征能力，提高语言模型的训练效率。本专利技术实...

【技术保护点】
1.一种神经网络语言模型的训练方法，其特征在于，所述神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型，所述方法包括：通过多个对应不同隐主题的全连接网络模型，将训练数据的特征向量所对应的第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达；分别确定每个所述第二隐层表达所对应的聚类类别；其中，所述聚类类别包括头聚类及尾聚类，所述头聚类中数据分类的输出概率不同于所述尾聚类中数据分类的输出概率；以所述第二隐层表达作为输入，以所述训练数据对应的目标数据作为输出，训练所述聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。

【技术特征摘要】
1.一种神经网络语言模型的训练方法，其特征在于，所述神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型，所述方法包括：通过多个对应不同隐主题的全连接网络模型，将训练数据的特征向量所对应的第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达；分别确定每个所述第二隐层表达所对应的聚类类别；其中，所述聚类类别包括头聚类及尾聚类，所述头聚类中数据分类的输出概率不同于所述尾聚类中数据分类的输出概率；以所述第二隐层表达作为输入，以所述训练数据对应的目标数据作为输出，训练所述聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。2.如权利要求1所述的方法，其特征在于，所述神经网络语言模型还包括输入层及隐藏层，所述方法还包括：通过所述神经网络语言模型的输入层将所述训练数据映射为相应的特征向量；通过所述神经网络语言模型的隐藏层，调用激活函数得到所述训练数据的特征向量所对应的第一隐层表达。3.如权利要求2所述的方法，其特征在于，所述方法还包括：输入文本至所述神经网络语言模型的输入层，以将所述文本映射为相应的特征向量；通过所述神经网络语言模型的隐藏层，调用激活函数得到对应所述特征向量的第一隐层表达；通过所述神经网络语言模型的输出层，将所述第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达；分别确定每个所述第二隐层表达所对应的聚类类别，并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布；融合各所述第二隐层表达对应的概率分布，并基于融合后得到的概率分布输出所述文本所对应的目标文本。4.如权利要求3所述的方法，其特征在于，所述方法还包括：依据文本分类出现在训练数据中的频次，对多个文本分类进行聚类，得到至少一个所述头聚类及至少一个所述尾聚类。5.如权利要求4所述的方法，其特征在于，所述依据文本分类出现在训练数据中的频次，对多个文本分类进行聚类，包括：按照所述频次由高到低的顺序对所述多个文本分类进行排序，得到文本分类序列；遍历所述文本分类序列，并对文本分类的频次进行累加；当文本分类的累计频次满足预设条件时，停止所述遍历，并将所述文本分类序列中遍历过的所有文本分类所形成的集合作为所述头聚类。6.如权利要求5所述的方法，其特征在于，所述方法还包括：重复执行下述操作直至获得预定数量的尾聚类：遍历所述文本分类序列中剩余未遍历的文本分类序列，并对文本分类的频次进行累加；当文本分类的累计频次满足预设条件时，停止所述遍历，并将所述文本分类序列中本次遍历过的所有文本分类所形成的集合作为尾聚类。7.如权利要求6所述的方法，其特征在于，所述方法还包括：分别为每个所述尾聚类分配类标识ID；相应的，所述头聚类中还包括所述预定数量的尾聚类的类ID。8.如权利要求1所述的方法，其特征在于，所述分别确定每个所述第二隐层表达所对应的聚...

【专利技术属性】
技术研发人员：陈强，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人