【技术实现步骤摘要】
【国外来华专利技术】训练图像嵌入模型和文本嵌入模型
本说明书涉及使用机器学习模型来处理数据。
技术介绍
机器学习模型接收输入,并基于接收到的输入产生输出,例如预测输出。一些机器学习模型是参数模型,并基于接收到的输入和模型的参数值产生输出。一些机器学习模型是深度模型,其采用多层模型针对接收到的输入产生输出。例如,深度神经网络是包括输出层和一个或更多个隐藏层的深度机器学习模型,每个隐藏层将非线性转换应用于接收到的输入以产生输出。
技术实现思路
本说明书描述一种被实现为在一个或更多个位置中的一台或更多台计算机上的计算机程序的训练系统,该训练系统使用从搜索系统的历史查询日志导出的训练数据来训练图像嵌入模型和文本嵌入模型。根据第一方面,提供一种由一个或更多个数据处理装置执行的方法,该方法包括:获得包括多个训练示例的训练数据,其中每个训练示例包括:包括第一图像和第二图像的图像对;以及指示以下中的一项或更多项的选择数据:(i)图像对的共同点击率,以及(ii)图像对的相似图像点击率,其中:图像对的共同点击率表征用户响应于第一 ...
【技术保护点】
1.一种由一个或更多个数据处理装置执行的方法,该方法包括:/n获得包括多个训练示例的训练数据,其中每个训练示例包括:/n图像对,包括第一图像和第二图像;以及/n选择数据,指示以下中的一项或更多项:(i)图像对的共同点击率,以及(ii)图像对的相似图像点击率,其中:/n图像对的共同点击率表征用户响应于第一图像和第二图像两者由搜索查询的搜索结果同时识别而选择第一图像和第二图像两者的频率;以及/n图像对的相似图像点击率表征用户响应于第一图像或第二图像由分别包括第二图像或第一图像的搜索查询的搜索结果识别而选择第一图像或第二图像的频率;以及/n使用训练数据来训练具有多个图像嵌入模型参 ...
【技术特征摘要】
【国外来华专利技术】20190201 US 16/265,7931.一种由一个或更多个数据处理装置执行的方法,该方法包括:
获得包括多个训练示例的训练数据,其中每个训练示例包括:
图像对,包括第一图像和第二图像;以及
选择数据,指示以下中的一项或更多项:(i)图像对的共同点击率,以及(ii)图像对的相似图像点击率,其中:
图像对的共同点击率表征用户响应于第一图像和第二图像两者由搜索查询的搜索结果同时识别而选择第一图像和第二图像两者的频率;以及
图像对的相似图像点击率表征用户响应于第一图像或第二图像由分别包括第二图像或第一图像的搜索查询的搜索结果识别而选择第一图像或第二图像的频率;以及
使用训练数据来训练具有多个图像嵌入模型参数的图像嵌入模型,其中,对于所述多个训练示例中的每个,所述训练包括:
使用图像嵌入模型处理训练示例的第一图像,以生成第一图像的嵌入;
使用图像嵌入模型处理训练示例的第二图像,以生成第二图像的嵌入;
确定第一图像的嵌入与第二图像的嵌入之间的相似性度量;以及
至少部分地基于以下来调整图像嵌入模型参数:(i)第一图像的嵌入与第二图像的嵌入之间的相似性度量,以及(ii)训练示例的选择数据。
2.根据权利要求1所述的方法,其中训练数据使用网络搜索系统的历史查询日志生成。
3.根据权利要求1或2所述的方法,其中每个训练示例的共同点击率指示用户响应于该训练示例的第一图像和第二图像两者由搜索查询的搜索结果同时识别而选择该训练示例的第一图像和第二图像两者的次数的分数。
4.根据权利要求1、2或3所述的方法,其中每个训练示例的相似图像点击率指示用户响应于第一图像或第二图像由分别包括第二图像或第一图像的搜索查询的搜索结果识别而选择第一图像或第二图像的次数的分数。
5.根据权利要求1、2、3或4所述的方法,其中图像嵌入模型包括卷积神经网络。
6.根据权利要求5所述的方法,其中调整图像嵌入模型参数包括:
确定损失函数的梯度,该损失函数取决于:(i)第一图像的嵌入与第二图像的嵌入之间的相似性度量,以及(ii)训练示例的选择数据;以及
使用该梯度来调整图像嵌入模型参数。
7.根据权利要求6所述的方法,其中损失函数包括基于训练示例的选择数据确定的倍数缩放因子。
8.根据权利要求7所述的方法,其中倍数缩放因子被确定为训练示例的共同点击率和相似图像点击率的线性组合。
9.根据任一前述权利要求所述的方法,其中确定第一图像的嵌入与第二图像的嵌入之间的相似性度量包括:
确定第一图像的嵌入与第二图像的嵌入之间的欧几里德距离。
10.一种系统,包括:
一台或更多台计算机;以及
通信上耦合到所述一台或更多台计算机的一个或更多个存储设备,其中所述一个或更多个存储设备存储指令,该指令在由所述一台或更多台计算机运行时使所述一台或更多台计算机执行包括以下的操作:
获得包括多个训练示例的训练数据,其中每个训练示例包括:
图像对,包括第一图像和第二图像;以及
选择数据,指示以下中的一项或更多项:(i)图像对的共同点击率,以及(ii)图像对的相似图像点击率,其中:
图像对的共同点击率表征用户响应于第一图像和第二图像两者由搜索查询的搜索结果同时识别而选择第一图像和第二图像两者的频率;以及
图像对的相似图像点击率表征用户响应于第一图像或第二图像由分别包括第二图像或第一图像的搜索查询的搜索结果识别而选择第一图像或第二图像的频率;以及
使用训练...
【专利技术属性】
技术研发人员:李臻,YT陈,Y高,DC隽,A蒂莫费耶夫,CT卢,F彭,S拉维,A汤姆金斯,TJ迪里格,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。