使用聚类损失训练神经网络制造技术

技术编号:21554082 阅读:39 留言:0更新日期:2019-07-07 01:37
用于训练神经网络的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括:获得一批次的训练项目和真实分配;使用神经网络处理批次中的训练项目以为每个训练项目生成相应的嵌入;并且,通过执行神经网络训练过程的迭代来调整网络参数的当前值以优化目标函数,该目标函数惩罚用于生成针对除所述真实分配之外的每个可能聚类分配不导致所述oracle聚类分值比所述可能聚类分配的聚类分值高至少在所述可能聚类分配和所述真实分配之间的结构化差额的嵌入的神经网络。

Using Clustering Loss to Train Neural Networks

【技术实现步骤摘要】
【国外来华专利技术】使用聚类损失训练神经网络
本说明书涉及训练神经网络。
技术介绍
神经网络是使用非线性单元的一个或多个层来针对所接收的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。一些神经网络是递归神经网络。递归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地,递归神经网络可以使用来自前一个时间步长的网络的一些或全部内部状态来在当前时间步长计算输出。递归神经网络的示例是包括一个或多个LSTM存储器块的长短期(LSTM)神经网络。每个LSTM存储器块可以包括一个或多个细胞,每个细胞包括输入门、遗忘门和输出门,它们允许细胞存储该细胞的先前状态,例如,以用于生成当前激活或被提供到LSTM神经网络的其他组件。
技术实现思路
该说明书描述了在一个或多个位置上的一个或多个计算机上实现为计算机程序的系统,该系统训练神经网络,所述神经网络具有网络参数并且被配置为接收输入数据项目并根据网络参数处理输入数据项目以生成输入数据项目的嵌入。在一些特定的本文档来自技高网...

【技术保护点】
1.一种训练神经网络的方法,所述神经网络具有多个网络参数并且被配置为接收输入数据项目并根据所述网络参数处理所述输入数据项目以生成所述输入数据项目的嵌入,所述方法包括:获得一批次训练项目和对所述批次中的所述训练项目到多个聚类的真实分配;使用所述神经网络并根据所述网络参数的当前值处理所述批次中的所述训练项目以为每个所述训练项目生成相应的嵌入;基于所述相应的嵌入确定所述真实分配的oracle聚类分值;以及通过执行神经网络训练过程的迭代来调整所述网络参数的所述当前值以优化目标函数,所述目标函数惩罚用于生成针对除所述真实分配之外的每个可能聚类分配不导致所述oracle聚类分值比所述可能聚类分配的聚类分值...

【技术特征摘要】
【国外来华专利技术】2016.11.15 US 62/422,5551.一种训练神经网络的方法,所述神经网络具有多个网络参数并且被配置为接收输入数据项目并根据所述网络参数处理所述输入数据项目以生成所述输入数据项目的嵌入,所述方法包括:获得一批次训练项目和对所述批次中的所述训练项目到多个聚类的真实分配;使用所述神经网络并根据所述网络参数的当前值处理所述批次中的所述训练项目以为每个所述训练项目生成相应的嵌入;基于所述相应的嵌入确定所述真实分配的oracle聚类分值;以及通过执行神经网络训练过程的迭代来调整所述网络参数的所述当前值以优化目标函数,所述目标函数惩罚用于生成针对除所述真实分配之外的每个可能聚类分配不导致所述oracle聚类分值比所述可能聚类分配的聚类分值高至少在所述可能聚类分配和所述真实分配之间的结构化差额的嵌入的神经网络。2.根据权利要求1所述的方法,其中,所述结构化差额测量所述可能聚类分配相对于所述真实分配的质量。3.根据权利要求2所述的方法,其中,所述结构化差额基于在所述可能聚类分配与所述真实分配之间的标准化互信息度量。4.根据权利要求1至3中的任一项所述的方法,其中,执行所述神经网络训练过程的所述迭代包括:确定除所述真实分配之外的具有最高增强聚类分值的可能聚类分配,其中,增强聚类分值是所述可能聚类分配的所述聚类分值加上在所述可能聚类分配与所述真实分配之间的所述结构化差额。5.根据权利要求4所述的方法,其中,确定除所述真实分配之外的具有所述最高增强聚类分值的可能聚类分配包括:使用迭代损失增强推理技术来确定初始最佳可能聚类分配。6.根据权利要求5所述的方法,其中,使用所述迭代损失增强推理技术来确定所述初始最佳可能聚类分配包括:...

【专利技术属性】
技术研发人员:宋贤吴
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1