一种向量模型的训练方法和相关装置制造方法及图纸

技术编号：40974424 阅读：5 留言：0更新日期：2024-04-18 21:23

本申请公开了一种向量模型的训练方法和相关装置，可应用于云技术、人工智能、车载场景等场景，所述方法包括：获取第一文本训练数据。获取待训练网络模型，待训练网络模型的位置编码嵌入矩阵中包括原始位置编码和扩展位置编码，扩展位置编码是用于对原始位置编码进行扩展的位置编码，通过扩展位置编码对原始位置编码进行扩展使得位置编码嵌入矩阵的序列长度从原始序列长度扩展到目标序列长度。对待训练网络模型的模型参数进行初始化，得到初始网络模型。利用第一文本训练数据，对初始网络模型的扩展位置编码进行训练，得到目标向量模型。本申请提供的方法在处理长文档时无需进行分段处理或滑动窗口处理，避免因上下文信息的丢失影响检索性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机领域，特别是涉及一种向量模型的训练方法和相关装置。

技术介绍

1、向量检索方法是一种用于信息检索的高效方法，通过将文档和查询文本表示为向量，并利用向量之间的相似度来快速找到相关文档。向量检索方法在各种产品上有着广泛的应用场景，例如可以用在搜索引擎、问答系统等场景中。

2、目前可以采用各种深度学习模型来进行向量检索，然而这些深度学习模型无法直接处理序列长度超过512的长文档，为此，通常会采用分段处理或滑动窗口的方法来处理长文档检索。

3、通过分段处理或滑动窗口处理长文档时，通过将长文档划分为较短的子段或使用滑动窗口，可能会导致一些上下文信息的丢失，特别是当子段之间存在紧密的语义关联时，这种划分可能会割裂相关的信息，从而影响检索性能。

技术实现思路

1、为了解决上述技术问题，本申请提供了一种向量模型的训练方法和相关装置，以解决因割裂相关的信息，影响检索性能的问题。

2、本申请实施例公开了如下技术方案：

3、一方面，本申请实施例提供一种向量模型的训练方法，所述方法包括：

4、获取由第一查询文本和与所述第一查询文本具有关联关系的目标文档构成的第一文本训练数据；

5、获取待训练网络模型，所述待训练网络模型的位置编码嵌入矩阵中包括原始位置编码和扩展位置编码，所述原始位置编码的序列长度为原始序列长度，所述扩展位置编码是用于对所述原始位置编码进行扩展的位置编码，通过所述扩展位置编码对所述原始位置编码进行扩展使得

6、对所述待训练网络模型的模型参数进行初始化，得到初始网络模型，所述初始网络模型中扩展位置编码的初始化参数值是随机初始化得到的，所述初始网络模型中剩余模型参数的初始化参数值是基于预训练完成的开源向量模型的模型参数进行初始化得到的，所述剩余模型参数为所述初始网络模型的全部模型参数中除所述扩展位置编码之外的模型参数，所述剩余模型参数包括所述原始位置编码；

7、利用所述第一文本训练数据，对所述初始网络模型的扩展位置编码进行训练，得到目标向量模型。

8、一方面，本申请实施例提供一种向量模型的训练装置，所述装置包括第一获取单元、第二获取单元、初始化单元和训练单元：

9、所述第一获取单元，用于获取由第一查询文本和与所述第一查询文本具有关联关系的目标文档构成的第一文本训练数据；

10、所述第二获取单元，用于获取待训练网络模型，所述待训练网络模型的位置编码嵌入矩阵中包括原始位置编码和扩展位置编码，所述原始位置编码的序列长度为原始序列长度，所述扩展位置编码是用于对所述原始位置编码进行扩展的位置编码，通过所述扩展位置编码对所述原始位置编码进行扩展使得所述位置编码嵌入矩阵的序列长度从所述原始序列长度扩展到目标序列长度，所述目标序列长度大于所述原始序列长度；

11、所述初始化单元，用于对所述待训练网络模型的模型参数进行初始化，得到初始网络模型，所述初始网络模型中扩展位置编码的初始化参数值是随机初始化得到的，所述初始网络模型中剩余模型参数的初始化参数值是基于预训练完成的开源向量模型的模型参数进行初始化得到的，所述剩余模型参数为所述初始网络模型的全部模型参数中除所述扩展位置编码之外的模型参数，所述剩余模型参数包括所述原始位置编码；

12、所述训练单元，用于利用所述第一文本训练数据，对所述初始网络模型的扩展位置编码进行训练，得到目标向量模型。

13、一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

14、所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

15、所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。

16、一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行前述任一方面所述的方法。

17、一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方面所述的方法。

18、由上述技术方案可以看出，本申请在已有模型结构的基础上，通过扩展位置编码对位置编码嵌入矩阵中的原始位置编码进行扩展，原始位置编码的序列长度为原始序列长度，使得位置编码嵌入矩阵的序列长度从原始序列长度扩展到目标序列长度。由于目标序列长度大于原始序列长度，故基于该待训练网络模型训练得到的目标向量模型可以处理序列长度大于原始序列长度的长文档。在训练过程中，先对待训练网络模型的模型参数进行初始化得到初始网络模型。初始网络模型中扩展位置编码的初始化参数值是随机初始化得到的，初始网络模型中剩余模型参数的初始化参数值是基于预训练完成的开源向量模型的模型参数进行初始化得到的，剩余模型参数为初始网络模型的全部模型参数中除扩展位置编码之外的模型参数，剩余模型参数包括原始位置编码，从而训练时可以冻结已经预训练好的剩余模型参数，利用获取的第一文本训练数据，只对初始网络模型的扩展位置编码进行训练得到目标向量模型。由此可以保留预训练好的向量模型学习到的丰富的语言知识，减少训练时间，加快训练速度。本申请将待训练模型的位置编码嵌入矩阵的序列长度进行扩展，并对待训练网络模型的部分模型参数进行训练，从而在保留预先学习到的短文本的语言知识，保证训练速度的前提下，提升和扩展目标向量模型的最大序列长度。这样，在处理长文档时无需进行分段处理或滑动窗口处理，避免因上下文信息的丢失影响检索性能。

本文档来自技高网...

【技术保护点】

1.一种向量模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一文本训练数据，对所述初始网络模型的扩展位置编码进行训练，得到目标向量模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一文本训练数据的数量为多条，每条所述第一文本训练数据中包括第一查询文本和与所述第一查询文本具有关联关系的目标文档，所述利用所述第一文本训练数据，对所述初始网络模型的扩展位置编码进行训练，得到中间网络模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述第二文本训练数据的数量为多条，每条所述第二文本训练数据中包括第二查询文本和与所述第二查询文本具有关联关系的目标文档，所述利用所述第二文本训练数据对所述中间网络模型的全部模型参数进行微调，得到所述目标向量模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二损失函数构建目标损失函数，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，与所述第一查询文本具有关联关系的目标文档的文本序列长度大于所述原始序列长

7.根据权利要求6所述的方法，其特征在于，所述从文本序列长度大于所述原始序列长度的文档中确定所述目标文档，包括：

8.根据权利要求7所述的方法，其特征在于，所述候选文档的数量为多个，所述基于所述候选文档确定所述目标文档，包括：

9.根据权利要求8所述的方法，其特征在于，所述确定所述候选文档的关键信息在所述候选文档中的位置，包括：

10.根据权利要求6所述的方法，其特征在于，所述从文本序列长度大于所述原始序列长度的文档中确定所述目标文档，包括：

11.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

12.一种向量模型的训练装置，其特征在于，所述装置包括第一获取单元、第二获取单元、初始化单元和训练单元：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-11任一项所述的方法。

15.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-11任一项所述的方法。

...

【技术特征摘要】

1.一种向量模型的训练方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二损失函数构建目标损失函数，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，与所述第一查询文本具有关联关系的目标文档的文本序列长度大于所述原始序列长度，所述获取由第一查询文本和与所述第一查询文本具有关联关系的目标文档构成的第一文本训练数据，包括：...

【专利技术属性】
技术研发人员：陈春全，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人