用于序列生成的大规模检索制造技术

技术编号：41408880 阅读：3 留言：0更新日期：2024-05-20 19:35

用于生成最终输出序列的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面中，一种方法包括：接收包括一个或多个当前输出分段的当前输出序列；接收参考分段的集合以及每个参考分段的已经使用嵌入神经网络生成的相应参考分段嵌入；对于每个当前输出分段：使用嵌入神经网络来处理当前输出分段以生成当前输出分段的当前输出分段嵌入；并且使用参考分段嵌入和当前输出分段嵌入来选择当前输出分段的k个最相似参考分段；以及处理当前输出序列和每个当前输出分段的k个最相似参考分段以生成在最终输出序列中紧跟当前输出序列之后的附加输出分段。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本说明书涉及使用机器学习模型来处理数据。

技术介绍

1、机器学习模型接收输入并且基于所接收到的输入来生成输出，例如，预测输出。一些机器学习模型是参数模型并且基于所接收到的输入和模型的参数的值来生成输出。

2、一些机器学习模型是采用模型的多个层来针对接收到的输入生成输出的深度模型。例如，深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型，每个隐藏层对接收到的输入应用非线性变换以生成输出。

技术实现思路

1、本说明书描述了一种作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统，该系统生成在输入序列以及输入序列中的一个或多个输入分段中的每一个输入分段的k个最相似参考分段上调节的输出序列。

2、根据第一方面，提供了一种由一个或多个计算机执行并且用于生成最终输出序列的方法，方法包括：接收网络输入；接收包括一个或多个当前输出分段的当前输出序列；接收参考分段的集合，并且对于集合中的每个参考分段，接收参考分段的已经使用嵌入神经网络从参考分段生成的相应参考分段嵌入；对于当前输出序列中的一个或多个当前输出分段中的每一个当前输出分段：使用嵌入神经网络来处理当前输出分段以生成当前输出分段的当前输出分段嵌入；并且使用相应参考分段嵌入和当前输出分段嵌入来从参考分段的集合中选择相应当前输出分段的k个最相似参考分段；以及使用解码器神经网络来处理网络输入、当前输出序列、以及当前输出序列的一个或多个当前输出分段中的每一个当前输出分段的k个最相似参考分段，以生成在最终输出序

3、在一些实现方式中，网络输入包括输入序列，并且方法还包括：使用编码器神经网络来处理输入序列以生成输入序列的编码表示，并且使用解码器神经网络来处理当前输出序列以及一个或多个当前输出分段中的每一个当前输出分段的k个最相似参考分段包括：处理当前输出序列、一个或多个当前输出分段中的每一个当前输出分段的k个最相似参考分段、以及输入序列的编码表示。

4、在一些实现方式中，网络输入包括由用户作为输入提供的一个或多个提示分段，并且当前输出序列被更新以包括一个或多个提示分段。

5、在一些实现方式中，最终输出序列的附加输出分段包括一个或多个输出词元(token)。

6、在一些实现方式中，解码器神经网络通过使用注意力块序列处理组合序列来自回归地生成附加输出分段的在当前输出序列、每个当前输出分段的k个最相似分段、以及在附加输出分段中在输出词元之前的任何输出词元上调节的每个输出词元，该组合序列包括至少当前输出序列和在前输出词元的级联。

7、在一些实现方式中，注意力块序列中的注意力块中的一个或多个中的每一个注意力块包括相应交叉注意力神经网络层，该相应交叉注意力神经网络层按从至少当前输出分段导出的查询以及从至少每个当前输出分段的k个最相似参考分段导出的键和值而应用交叉注意力。

8、在一些实现方式中，按从至少当前输出分段导出的查询以及从至少每个当前输出分段的k个最相似参考分段导出的键和值而应用交叉注意力包括：对于当前输出序列中的每个当前输出分段，按从至少当前输出分段导出的查询以及从至少每个当前输出分段的k个最相似参考分段导出的键和值而应用交叉注意力。

9、在一些实现方式中，按从至少当前输出分段导出的查询以及从至少每个当前输出分段的k个最相似参考分段导出的键和值而应用交叉注意力包括：对于当前输出序列中的第一当前输出分段，(通过注意力块，特别地通过交叉注意力神经网络层)不变地传递由交叉注意力神经网络层接收到的第一当前输出分段的表示；以及对于当前输出序列中在第一当前输出分段之后的每个当前输出分段，按从至少当前输出分段导出的查询以及从至少在当前输出序列中紧接在当前输出分段之前的前一个当前输出分段的k个最相似参考分段导出的键和值而应用交叉注意力。

10、在一些实现方式中，解码器神经网络使用编码器神经网络块来生成每个当前输出分段的k个最相似参考分段中的每一个最相似参考分段的相应参考分段编码，并且键和值是从至少当前输出分段的k个最相似参考分段的相应参考分段编码导出的。

11、在一些实现方式中，使用相应参考分段嵌入和相应输出分段嵌入来从参考分段的集合中选择当前输出分段的k个最相似参考分段包括：从参考分段嵌入确定当前输出分段的当前输出分段嵌入的k个最近邻居。

12、在一些实现方式中，参考分段的集合中的每个参考分段包括初始子分段和作为初始子分段的继续的继续子分段，并且已经使用嵌入神经网络从参考分段的初始子分段生成每个参考分段的相应参考分段嵌入。

13、在一些实现方式中，方法还包括，在使用解码器神经网络来生成在最终输出序列中紧跟当前输出序列的附加输出分段中的最终输出词元之后：通过级联当前输出序列和附加输出分段来更新当前输出序列。

14、在一些实现方式中，方法还包括：通过用附加输出分段更新当前输出序列来生成最终输出序列，其中，用附加输出分段更新当前输出序列包括将附加输出分段追加到当前输出序列的末尾。

15、在一些实现方式中，提供了一种由一个或多个计算机执行并且用于训练解码器神经网络的方法，方法包括：接收包括多个训练示例的训练数据，其中，每个训练示例包括训练网络输入、训练当前输出序列和训练附加输出分段，该训练当前输出序列包括一个或多个训练当前输出分段，该训练附加输出分段在对应的目标最终输出序列中紧跟训练当前输出序列之后；接收训练参考分段的集合，其中，训练参考分段包括来自训练数据中的训练当前输出序列的训练当前输出分段、来自训练数据中的目标最终输出序列的训练附加输出分段或两者；对于每个训练当前输出序列，处理训练当前输出序列，并且对于训练当前输出序列中的一个或多个训练当前输出分段中的每一个训练当前输出分段，处理训练当前输出分段的k个最相似训练参考分段以生成最终输出序列；以及训练解码器神经网络，其中，解码器神经网络包括多个神经网络参数，并且其中，训练解码器神经网络包括使用目标最终输出序列和由解码器神经网络生成的最终输出序列来更新解码器神经网络的神经网络参数。

16、在一些实现方式中，参考分段的集合与用于训练解码器神经网络的训练参考分段的集合相同。

17、在一些实现方式中，参考分段的集合与用于训练解码器神经网络的训练参考分段的集合不同。

18、在一些实现方式中，嵌入神经网络是预训练后的神经网络，并且在解码器神经网络的训练期间不更新嵌入神经网络的神经网络参数。

19、在一些实现方式中，在解码器神经网络的训练期间更新嵌入神经网络的神经网络参数。

20、在一些实现方式中，存在处理网络输入和当前输出序列以生成最终输出序列并且不包括编码器神经网络块、也不包括注意力块序列中的注意力块中的一个或多个的初始解码器神经网络，该注意力块中的一个或多个各自包括相应交叉注意力神经网络层，并且训练解码器神经网络包括：预训练初始解码器神经网络；将编码器神经网络块和各自包括本文档来自技高网...

【技术保护点】

1.一种由一个或多个计算机执行并且用于生成最终输出序列的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述网络输入包括输入序列，并且其中，所述方法还包括：

3.根据任一前述权利要求所述的方法，其中，所述网络输入包括由用户作为输入提供的一个或多个提示分段，并且其中，当前输出序列被更新以包括所述一个或多个提示分段。

4.根据任一前述权利要求所述的方法，其中，所述最终输出序列的所述附加输出分段包括一个或多个输出词元。

5.根据权利要求4所述的方法，其中，所述解码器神经网络通过使用注意力块序列处理组合序列以自回归地生成所述附加输出分段的在所述当前输出序列、每个当前输出分段的k个最相似分段、以及在所述附加输出分段中在每个输出词元之前的任何输出词元上调节的所述输出词元，所述组合序列包括至少所述当前输出序列和在前输出词元的级联。

6.根据权利要求5所述的方法，其中，所述注意力块序列中的一个或多个注意力块中的每一个包括相应交叉注意力神经网络层，所述相应交叉注意力神经网络层按从至少所述当前输出分段导出的查询以及从至少每个当前输

7.根据权利要求6所述的方法，其中，按从至少所述当前输出分段导出的查询以及从至少每个当前输出分段的所述k个最相似参考分段导出的键和值而应用交叉注意力包括：

8.根据权利要求6所述的方法，其中，按从至少所述当前输出分段导出的查询以及从至少每个当前输出分段的所述k个最相似参考分段导出的键和值而应用交叉注意力包括：

9.根据权利要求6至8中任何一项所述的方法，其中，所述解码器神经网络使用编码器神经网络块来生成每个当前输出分段的所述k个最相似参考分段中的每一个最相似参考分段的相应参考分段编码，并且其中，所述键和值是从至少所述当前输出分段的所述k个最相似参考分段的所述相应参考分段编码导出的。

10.根据任一前述权利要求所述的方法，其中，使用所述相应参考分段嵌入和所述相应当前输出分段嵌入来从所述参考分段的集合中选择所述当前输出分段的k个最相似参考分段包括：

11.根据权利要求10所述的方法，其中，所述参考分段的集合中的每个参考分段包括初始子分段和作为所述初始子分段的继续的继续子分段，并且其中，已经使用所述嵌入神经网络从参考分段的所述初始子分段生成每个参考分段的相应参考分段嵌入。

12.根据任一前述权利要求所述的方法，所述方法还包括，在使用所述解码器神经网络来生成在所述最终输出序列中紧跟所述当前输出序列的所述附加输出分段中的最终输出词元之后：

13.根据任一前述权利要求所述的方法，所述方法还包括：

14.一种由一个或多个计算机执行并且用于训练根据任一前述权利要求所述的解码器神经网络的方法，所述方法包括：

15.根据任一前述权利要求所述的方法，其中，所述参考分段的集合与用于训练所述解码器神经网络的训练参考分段的集合相同。

16.根据权利要求1至14中任何一项所述的方法，其中，所述参考分段的集合与用于训练所述解码器神经网络的训练参考分段的集合不同。

17.根据权利要求14至16中的任一项所述的方法，其中，所述嵌入神经网络是预训练后的神经网络，并且其中，在所述解码器神经网络的训练期间不更新所述嵌入神经网络的所述神经网络参数。

18.根据权利要求14至16中的任一项所述的方法，其中，在所述解码器神经网络的训练期间更新所述嵌入神经网络的所述神经网络参数。

19.根据任一前述权利要求所述的方法，其中，处理网络输入和当前输出序列以生成最终输出序列的初始解码器神经网络不包括编码器神经网络块、且在从属于权利要求5时也不包括所述注意力块序列中各自包括相应交叉注意力神经网络层的所述一个或多个注意力块，并且其中，训练所述解码器神经网络包括：

20.根据权利要求1至19中的任一项所述的方法，其中，所述网络输入表征详述了实体的健康的输入，并且其中，所述最终输出序列表示针对所述实体的诊断。

21.一种系统，所述系统包括：

22.根据权利要求21所述的系统，其中，所述系统是医疗诊断系统，其中，所述网络输入表征详述了患者的健康的输入，并且其中，所述最终输出序列表示医疗诊断。

23.一种或多种存储指令的非暂时性计算机存储介质，所述指令当由一个或多个计算机运行时，使所述一个或多个计算机执行根据权利要求1至20中任一项所述的相应操作。

...

【技术特征摘要】
【国外来华专利技术】

1.一种由一个或多个计算机执行并且用于生成最终输出序列的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述网络输入包括输入序列，并且其中，所述方法还包括：

4.根据任一前述权利要求所述的方法，其中，所述最终输出序列的所述附加输出分段包括一个或多个输出词元。

6.根据权利要求5所述的方法，其中，所述注意力块序列中的一个或多个注意力块中的每一个包括相应交叉注意力神经网络层，所述相应交叉注意力神经网络层按从至少所述当前输出分段导出的查询以及从至少每个当前输出分段的所述k个最相似参考分段导出的键和值而应用交叉注意力。

11.根据权利要求10所述的方法，其中，所述参考分段的集合中的每个参考分...

【专利技术属性】
技术研发人员：塞巴斯蒂安·博尔若迪特阿沃卡，劳伦特·西弗尔，阿瑟·门驰，乔丹·霍夫曼，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人