一种文本检索模型的训练方法及装置制造方法及图纸

技术编号：36986344 阅读：19 留言：0更新日期：2023-03-25 18:04

本公开涉及人工智能技术领域，提供了一种文本检索模型的训练方法、装置、计算机设备及计算机可读存储介质。该方法利用每组训练文本样本中的一样本查询文本以及所述样本查询文本对应的真实文章标题，对训练文本样本进行分类，甄别出不同的样本类型，以便可以根据不同的样本类型设置不同的损失函数权重值，有效改善不同样本类型的训练文本样本的训练权重(即损失函数权重值)分布，从而让文本检索模型的训练过程更为充分，可以提升了文本检索模型的训练效率和效果，进而提升文本检索模型的性能，进一步提高实际业务场景中文本检索模型的文本检索效果(比如提高文本检索模型的文本检索结果的精准度)。索结果的精准度)。索结果的精准度)。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本检索模型的训练方法及装置

[0001]本公开涉及人工智能
，尤其涉及一种文本检索模型的训练方法及装置。

技术介绍

[0002]在搜索业务中，常用的基于神经网路的文本检索模型训练过程中，会通过负采样获得大量对神经网络训练作用相对较小的易分负样本。这些可大量获得的比较容易区分的负样本，对于模型的训练增益很有限，会导致在文本检索模型的训练过程中，会由于负样本的表征特征中的信息不足，出现模型过拟合、泛化能力弱的问题，这样，会使得利用文本检索模型进行文本检索的场景下，所检索到的文本检索结果并不是用户真正想要的检索结果，从而导致用户体验较差。

技术实现思路

[0003]有鉴于此，本公开实施例提供了一种文本检索模型的训练方法、装置、计算机设备及计算机可读存储介质，以解决现有技术中通过负采样获得大量对神经网络训练作用相对较小的易分负样本，对于模型的训练增益很有限，会导致在文本检索模型的训练过程中，会由于负样本的表征特征中的信息不足，出现模型过拟合、泛化能力弱的问题，这样，会使得利用文本检索模型进行文本检索的场景下，所检索到的文本检索结果并不是用户真正想要的检索结果，从而导致用户体验较差的问题。
[0004]本公开实施例的第一方面，提供了一种文本检索模型的训练方法，所述方法包括：
[0005]获取训练文本样本集；其中，所述训练文本样本集包括若干训练文本样本，每组训练文本样本包括一样本查询文本以及所述样本查询文本对应的真实文章标题；所述真实文章标题为所述预设的文本数据库中的一文章标题；/>[0006]针对每一组训练文本样本的每一轮训练，将所述训练文本样本中的样本查询文本输入预设的文本检索模型，得到所述样本查询文本对应的文本语句特征；根据所述样本查询文本对应的文本语句特征，在所述预设的文本数据库中进行查询，得到所述样本查询文本对应的预测文章标题，其中，所述预测文章标题为所述预设的文本数据库中的一文章标题；根据所述预测文章标题与所述真实文章标题，确定所述训练文本样本的本轮的损失函数值；
[0007]根据所述训练文本样本集中每组训练文本样本分别在N轮训练中的每一轮训练中的损失函数值，确定每组训练文本样本的样本类型；
[0008]利用所述训练文本样本集、所述训练文本样本集中每个训练文本样本的样本类型和预设的样本类型对应的损失函数权重值，对所述文本检索模型进行训练，得到已训练的文本检索模型。
[0009]本公开实施例的第二方面，提供了一种文本检索模型的训练装置，所述装置包括：
[0010]集合获取单元，用于获取训练文本样本集；其中，所述训练文本样本集包括若干训练文本样本，每组训练文本样本包括一样本查询文本以及所述样本查询文本对应的真实文
章标题；所述真实文章标题为所述预设的文本数据库中的一文章标题；
[0011]数值确定单元，用于针对每一组训练文本样本的每一轮训练，将所述训练文本样本中的样本查询文本输入预设的文本检索模型，得到所述样本查询文本对应的文本语句特征；根据所述样本查询文本对应的文本语句特征，在所述预设的文本数据库中进行查询，得到所述样本查询文本对应的预测文章标题，其中，所述预测文章标题为所述预设的文本数据库中的一文章标题；根据所述预测文章标题与所述真实文章标题，确定所述训练文本样本的本轮的损失函数值；
[0012]类型确定单元，用于根据所述训练文本样本集中每组训练文本样本分别在N轮训练中的每一轮训练中的损失函数值，确定每组训练文本样本的样本类型；
[0013]模型训练单元，用于利用所述训练文本样本集、所述训练文本样本集中每个训练文本样本的样本类型和预设的样本类型对应的损失函数权重值，对所述文本检索模型进行训练，得到已训练的文本检索模型。
[0014]本公开实施例的第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。
[0015]本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。
[0016]本公开实施例与现有技术相比存在的有益效果是：本公开实施例可以先获取训练文本样本集；其中，所述训练文本样本集包括若干训练文本样本，每组训练文本样本包括一样本查询文本以及所述样本查询文本对应的真实文章标题；所述真实文章标题为所述预设的文本数据库中的一文章标题。然后，针对每一组训练文本样本的每一轮训练，将所述训练文本样本中的样本查询文本输入预设的文本检索模型，得到所述样本查询文本对应的文本语句特征；根据所述样本查询文本对应的文本语句特征，在所述预设的文本数据库中进行查询，得到所述样本查询文本对应的预测文章标题，其中，所述预测文章标题为所述预设的文本数据库中的一文章标题；根据所述预测文章标题与所述真实文章标题，确定所述训练文本样本的本轮的损失函数值。接着，可以根据所述训练文本样本集中每组训练文本样本分别在N轮训练中的每一轮训练中的损失函数值，确定每组训练文本样本的样本类型。最后，可以利用所述训练文本样本集、所述训练文本样本集中每个训练文本样本的样本类型和预设的样本类型对应的损失函数权重值，对所述文本检索模型进行训练，得到已训练的文本检索模型。可见，本实施例中先利用每组训练文本样本中的一样本查询文本以及所述样本查询文本对应的真实文章标题，确定每组训练文本样本分别在每一轮训练中的损失函数值，然后，依据每组训练文本样本分别在每一轮训练中的损失函数值为每组训练文本样本进行分类，确定组训练文本样本的样本类型；这样，对训练文本样本进行了充分的全局分析和挖掘，通过对训练文本样本在第一阶段训练过程中(即N轮训练)的损失函数值进行分类，甄别出不同的样本类型(比如简单样本，普通样本和难样本)，由于不同样本类型的训练文本样本对于文本检索模型的训练效果的影响程度(比如影响文本检索模型的泛化能力)不同，因此，可以根据不同的样本类型设置不同的损失函数权重值，以便在利用所述训练文本样本集、所述训练文本样本集中每组训练文本样本的样本类型和预设的样本类型对应的损失函数权重值，对所述文本检索模型进行训练的过程中，可以减少不影响模型训练效果
的样本类型的训练文本样本的损失函数权重值，以及提高对模型训练效果影响较大的样本类型的训练文本样本的损失函数权重值，以充分发挥对模型训练效果影响较大的样本类型的训练文本样本的潜力，减少对模型训练效果没有影响或者影响较差的样本类型的训练文本样本对于文本检索模型训练的影响；可见，本实施例可以有效改善不同样本类型的训练文本样本的训练权重(即损失函数权重值)分布，从而让文本检索模型的训练过程更为充分，可以提升了文本检索模型的训练效率和效果，进而提升文本检索模型的性能，进一步提高实际业务场景中文本检索模型的文本检索效果(比如提高文本检索模型的文本检索结果的精准度)。
附图说明
[0017]为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本检索模型的训练方法，其特征在于，所述方法包括：获取训练文本样本集；其中，所述训练文本样本集包括若干训练文本样本，每组训练文本样本包括一样本查询文本以及所述样本查询文本对应的真实文章标题；所述真实文章标题为所述预设的文本数据库中的一文章标题；针对每一组训练文本样本的每一轮训练，将所述训练文本样本中的样本查询文本输入预设的文本检索模型，得到所述样本查询文本对应的文本语句特征；根据所述样本查询文本对应的文本语句特征，在所述预设的文本数据库中进行查询，得到所述样本查询文本对应的预测文章标题，其中，所述预测文章标题为所述预设的文本数据库中的一文章标题；根据所述预测文章标题与所述真实文章标题，确定所述训练文本样本的本轮的损失函数值；根据所述训练文本样本集中每组训练文本样本分别在N轮训练中的每一轮训练中的损失函数值，确定每组训练文本样本的样本类型；利用所述训练文本样本集、所述训练文本样本集中每个训练文本样本的样本类型和预设的样本类型对应的损失函数权重值，对所述文本检索模型进行训练，得到已训练的文本检索模型。2.根据权利要求1所述的方法，其特征在于，所述预设的文本数据库存储有多个文章标题以及各个文章标题各自分别对应的文本语句特征；所述根据所述样本查询文本对应的文本语句特征，在所述预设的文本数据库中进行查询，得到所述样本查询文本对应的预测文章标题，包括：针对所述预设的文本数据库中的每个文章标题，根据所述文章标题对应的文本语句特征与所述样本查询文本对应的文本语句特征，确定所述文章标题与所述样本查询文本之间的匹配值；将所述预设的文本数据库中与所述样本查询文本之间的匹配值最高的文章标题作为所述样本查询文本对应的预测文章标题。3.根据权利要求1所述的方法，其特征在于，所述文本检索模型为循环神经网络、自注意力网络。4.根据权利要求1所述的方法，其特征在于，所述根据所述训练文本样本集中每组训练文本样本分别在N轮训练中的每一轮训练中的损失函数值，确定每组训练文本样本的样本类型，包括：针对所述训练文本样本集中的每组训练文本样本，根据所述训练文本样本分别在每一轮训练中的损失函数值，确定所述训练文本样本的训练全程损失下降度；根据所述所述训练文本样本集中的各组训练文本样本的训练全程损失下降度，确定每组训练文本样本的样本类型。5.根据权利要求4所述的方法，其特征在于，所述根据所述训练文本样本分别在每一轮训练中的损失函数值，确定所述训练文本样本的训练全程损失下降度，包括：根据所述训练文本样本分别在每一轮训练中的损失函数值，确定前M轮训练的损失函数值平均值和后X轮训练的损失函数值，其中，M、X均小于N；根据所述前M轮训练的损失函数值平均值和所述后X轮训练的损失函数值，确定所...

【专利技术属性】
技术研发人员：暴宇健，董辉，
申请(专利权)人：北京龙智数科科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人