作为用于直接预测资源检索结果的可微分搜索索引的机器学习模型制造技术

技术编号:42784315 阅读:13 留言:0更新日期:2024-09-21 00:43
提供了用于训练和/或使用机器学习模型的系统和方法,该机器学习模型可以直接预测响应于查询的一个或多个资源作为该模型的输出。具体地,本公开表明信息检索可以利用(例如,具有神经网络架构,例如,诸如Transformer架构的)单个机器学习模型来完成,其中有关语料库的所有信息都被编码在模型的参数中。为此,本公开引入了可微分搜索索引(DSI),这是一种学习查询到结果(例如,文本到文本格式)模型的新范式,该查询到结果模型将查询(例如,文本字符串)直接映射到相关资源标识符(“docid”)(例如,标识相关资源的文本和/或数字字符串);换句话说,DSI模型仅使用其参数直接回答查询,从而显著地简化检索。

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及用于(例如,从定义的资源集合)检索响应于查询的资源的系统和方法。更具体地,本公开涉及用于训练和/或使用机器学习模型的系统和方法,该机器学习模型可以直接预测响应于查询的一个或多个资源作为模型的输出。


技术介绍

1、信息检索(ir)系统通常将用户查询q映射到通常由称为资源标识符(可称为“docid”)的整数或短字符串表示的相关资源的排序列表d1;...;dn。最广泛使用的ir方法基于静态相似性度量(例如,tfidf或bm25),或者更近期地,双编码器(de)系统。


技术实现思路

1、本公开的实施例的方面和优点将部分地在以下描述中阐述,或者可从描述中学习,或者可通过实施例的实践来学习。

2、一个示例方面涉及一种用于以改进的计算效率执行资源检索的计算机实现的方法。该方法包括由包括一个或多个计算装置的计算系统获得查询。该方法包括由计算系统利用机器学习资源检索模型处理查询以从机器学习资源检索模型生成模型预测。模型预测直接从包含多个资源的资源语料库中预测被预测为响应于查询的一个或多个资源。多个资本文档来自技高网...

【技术保护点】

1.一种用于以改进的计算效率执行资源检索的计算机实现的方法,所述方法包括:

2.如权利要求1所述的计算机实现的方法,其中:

3.如任一项前述权利要求所述的计算机实现的方法,其中与所述多个资源中的每个资源相关联的相应资源标识符包括非结构化原子标识符。

4.如任一项前述权利要求所述的计算机实现的方法,其中与所述多个资源中的每个资源相关联的所述相应资源标识符包括非结构化字符串标识符。

5.如权利要求2所述的计算机实现的方法,其中与所述多个资源中的每个资源相关联的所述相应资源标识符包括结构化语义标识符。

6.如权利要求5所述的计算机实现...

【技术特征摘要】
【国外来华专利技术】

1.一种用于以改进的计算效率执行资源检索的计算机实现的方法,所述方法包括:

2.如权利要求1所述的计算机实现的方法,其中:

3.如任一项前述权利要求所述的计算机实现的方法,其中与所述多个资源中的每个资源相关联的相应资源标识符包括非结构化原子标识符。

4.如任一项前述权利要求所述的计算机实现的方法,其中与所述多个资源中的每个资源相关联的所述相应资源标识符包括非结构化字符串标识符。

5.如权利要求2所述的计算机实现的方法,其中与所述多个资源中的每个资源相关联的所述相应资源标识符包括结构化语义标识符。

6.如权利要求5所述的计算机实现的方法,其中,与所述多个资源中的每个资源相关联的相应的所述结构化语义标识符已经经由对分别与所述多个资源相关联的多个嵌入进行迭代聚类来生成。

7.如任一项前述权利要求所述的计算机实现的方法,其中所述机器学习资源检索模型已经使用索引损失函数进行训练,其中所述索引损失函数评估所述机器学习资源检索模型当被提供描述特定资源的数据作为输入时输出与所述特定资源相关联的所述资源标识符的能力。

8.如权利要求7所述的计算机实现的方法,其中描述所述特定资源的所述数据包括:

9.如任一项前述权利要求所述的计算机实现的方法,其中所述机器学习资源检索模型已经使用检索损失函数进行训练,其中所述检索损失函数评估所述机器学习资源检索模型当被提供特定资源针对其已经被标记为响应的训练查询时输出与所述特定资源相关联的所述资源标识符的能力。

10.如任一项前述权利要求所述的计算机实现的方法,其中所述机...

【专利技术属性】
技术研发人员:Y·泰伊V·Q·特兰W·W·科恩D·A·小梅茨勒
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1