文本搜索模型的训练方法及装置、计算设备制造方法及图纸

技术编号：37679279 阅读：32 留言：0更新日期：2023-05-26 04:46

一种文本搜索模型的训练方法及装置、计算设备，方法包括：获取当前批次的训练数据，当前批次的训练数据包括样本事件文本组和样本规范文本组，样本事件文本组包括N条样本事件文本，样本规范文本组包括N条样本规范文本；根据预测矩阵和标签矩阵，计算模型损失值，其中，预测矩阵中第i行第j列的元素是根据样本事件文本组中第i条样本事件文本的向量表示和样本规范文本组中第j条样本规范文本的向量表示计算得到的相似度，标签矩阵中第i行第j列的元素用于指示第i条样本事件文本和第j条样本规范文本是否匹配；根据模型损失值更新文本搜索模型中的编码器。通过本申请实施例提供的训练方法，能够训练得到准确度较高的文本搜索模型。能够训练得到准确度较高的文本搜索模型。能够训练得到准确度较高的文本搜索模型。

全部详细技术资料下载

【技术实现步骤摘要】
文本搜索模型的训练方法及装置、计算设备

[0001]本申请涉及文本搜索
，尤其涉及一种文本搜索模型的训练方法及装置、计算设备。

技术介绍

[0002]近年来，随着大数据技术的快速发展及人工智能算法的落地，数字化赋能各行各业。在一些场景中，用户期待基于大数据技术完成文本搜索任务，以在海量的文本数据库中获取目标文本。然而，目前的文本搜索方法的准确性仍有待提高。

技术实现思路

[0003]本申请实施例提供一种文本搜索模型的训练方法及装置、计算设备，能够有利于提高文本搜索的准确性。
[0004]本申请实施例提供一种文本搜索模型的训练方法，所述文本搜索模型包括编码器，所述方法包括：获取当前批次的训练数据，所述当前批次的训练数据包括样本事件文本组和样本规范文本组，所述样本事件文本组包括N条样本事件文本，所述样本规范文本组包括N条样本规范文本，N为大于1的正整数；采用所述编码器分别对所述样本事件文本组和所述样本规范文本组进行编码，得到各条样本事件文本的向量表示和各条样本规范文本的向量表示；根据预测矩阵和标签矩...

【技术保护点】

【技术特征摘要】
1.一种文本搜索模型的训练方法，其特征在于，所述文本搜索模型包括编码器，所述方法包括：获取当前批次的训练数据，所述当前批次的训练数据包括样本事件文本组和样本规范文本组，所述样本事件文本组包括N条样本事件文本，所述样本规范文本组包括N条样本规范文本，N为大于1的正整数；采用所述编码器分别对所述样本事件文本组和所述样本规范文本组进行编码，得到各条样本事件文本的向量表示和各条样本规范文本的向量表示；根据预测矩阵和标签矩阵，计算模型损失值，其中，所述预测矩阵中第i行第j列的元素是根据所述样本事件文本组中第i条样本事件文本的向量表示和所述样本规范文本组中第j条样本规范文本的向量表示计算得到的相似度，所述标签矩阵中第i行第j列的元素用于指示所述第i条样本事件文本和所述第j条样本规范文本是否匹配，1≤i≤N，1≤j≤N，i，j为正整数；根据所述模型损失值更新所述编码器。2.根据权利要求1所述的文本搜索模型的训练方法，其特征在于，所述N条样本事件文本所属的事件类别各不相同。3.根据权利要求1所述的文本搜索模型的训练方法，其特征在于，获取当前批次的训练数据包括：获取所述N条样本事件文本；根据所述标签矩阵中第j列的N个元素和所述N条样本事件文本，从规范文本数据库中抽取所述第j条样本规范文本。4.根据权利要求3所述的文本搜索模型的训练方法，其特征在于，所述标签矩阵中第j列的元素中仅单个元素为1，所述规范文本数据库包括多个规范文本集合，根据所述标签矩阵中第j列的N个元素和所述N条样本事件文本，从规范文本数据库中抽取所述第j条样本规范文本包括：确定所述第j列的元素中值为1的元素对应的样本事件文本，记为第j列的正例事件文本；从所述第j列的正例事件文本关联的规范文本集合中抽取所述第j条样本规范文本。5.根据权利要求4所述的文本搜索模型的训练方法，其特征在于，所述规范文本集合包括多个样本规范文本单元，从所述第j列的正例事件文本关联的规范文本集合中抽取所述第j条样本规范文本包括：从所述第j列的正例事件文本关联的样本规范文本单元中抽取所述第j条样本规范文本。6.根据权利要求1所述的文本搜索模型的训练方法，其特征在于，所述标签矩阵中第i行第i列的元素均为1，其余元素均为0。7.根据权利要求1所述的文本搜索模型的训练方法，其特征在于，所...

【专利技术属性】
技术研发人员：姚昱材，张晓丹，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人