文本匹配方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：30145415 阅读：16 留言：0更新日期：2021-09-23 15:18

本申请实施例公开了一种文本匹配方法、装置、存储介质及计算机设备，其中，该方法包括：获取原始样本集，原始样本集中的每一原始样本包括第一样本文本和第二样本文本，以及第一样本文本和第二样本文本的真实相似度标签；对原始样本集中的每一原始样本进行目标词遮掩处理，以构建原始样本集对应的句对相似模式样本集，句对相似模式样本集中包含有与每一原始样本对应的具有真实相似度标签的句对相似模式样本；根据原始样本集和/或句对相似模式样本集训练目标模型，以得到训练后的目标模型；基于训练后的目标模型对待测文本对进行文本匹配，以确定待测文本对的相似度标签，以低成本、高效率的方式提高文本匹配的准确率。高效率的方式提高文本匹配的准确率。高效率的方式提高文本匹配的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本匹配方法、装置、存储介质及计算机设备

[0001]本申请涉及计算机
，具体涉及一种文本匹配方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着自然语言处理技术的发展，预训练语言模型开始被广泛的应用在智能问答、文本匹配、信息检索等下游任务中。由于预训练任务和下游任务的不一致性，在构建预训练语言模型时，通常需要设计复杂的预训练方式，并需要构建大规模预训练语料进行训练，甚至需要设计和添加额外的复杂网络结构或者模型，从而导致成本高昂，且模型复杂度较高。

技术实现思路

[0003]本申请实施例提供一种文本匹配方法、装置、存储介质及计算机设备，无需设计复杂的预训练方式，无需添加额外的复杂神经网络，以低成本、高效率的方式提高文本匹配的准确率。
[0004]第一方面，提供一种文本匹配方法，所述方法包括：获取原始样本集，所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本，以及所述第一样本文本和第二样本文本的真实相似度标签；对所述原始样本集中的每一原始样本进行目标词遮掩处理，以构建所述原始样本集对应的句对相似模式样本集，所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本；根据所述原始样本集和/或所述句对相似模式样本集训练目标模型，以得到训练后的目标模型；基于所述训练后的目标模型对待测文本对进行文本匹配，以确定所述待测文本对的相似度标签。
[0005]第二方面，提供一种文本匹配装置，所述装置包括：获取单元，用于获取原始样本集，所述原始...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法，其特征在于，所述方法包括：获取原始样本集，所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本，以及所述第一样本文本和第二样本文本的真实相似度标签；对所述原始样本集中的每一原始样本进行目标词遮掩处理，以构建所述原始样本集对应的句对相似模式样本集，所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本；根据所述原始样本集和/或所述句对相似模式样本集训练目标模型，以得到训练后的目标模型；基于所述训练后的目标模型对待测文本对进行文本匹配，以确定所述待测文本对的相似度标签。2.如权利要求1所述的文本匹配方法，其特征在于，所述目标词包括近义词，所述对所述原始样本集中的每一原始样本进行目标词遮掩处理，以构建所述原始样本集对应的句对相似模式样本集，包括：判断每一所述原始样本的所述第一样本文本中的每个单词与所述第二样本文本中每个单词的相似度，以确定每一所述原始样本的所述第一样本文本与所述第二样本文本之间的所有近义词对；将每一所述原始样本的所有近义词对对应的近义词进行遮掩，以构建每一所述原始样本对应的句对相似模式样本，并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。3.如权利要求2所述的文本匹配方法，其特征在于，在所述确定所述第一样本文本与所述第二样本文本之间的所有近义词对之后，还包括：判断每一所述原始样本的所有近义词对中的近义词的词性是否满足预设词性约束条件；将每一所述原始样本的所有近义词对中词性满足预设词性约束条件的近义词进行遮掩，以构建每一所述原始样本对应的句对相似模式样本，并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。4.如权利要求1所述的文本匹配方法，其特征在于，所述根据所述原始样本集和/或所述句对相似模式样本集训练目标模型，以得到训练后的目标模型，包括：将所述原始样本集输入所述目标模型进行模型参数优化训练，以得到训练后的目标模型；或者将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练，以得到训练后的目标模型；或者将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练，以得到训练后的目标模型。5.如权利要求4所述的文本匹配方法，其特征在于，所述将所述原始样本集输入所述目标模型进行模型参数优化训练，以得到训练后的目标模型，包括：将所述原始样本集中的每一所述原始样本输入所述目标模型以得到每一所述原始样本的第一相似概率；根据每一所述原始样本对应的所述第一相似概率与所述真实相似度标签计算第一损
失函数的值，并根据所述第一损失函数的值优化所述模型参数，以得到训练后的目标模型。6.如权利要求4所述的文本匹配方法，其特征在于，所述将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练，以得到训练后的目标模型，包括：将所述句对相似模式样本集中的每一所述句对相似模式样本输入所述目标模型以得到每一所述句对相似模式样本的第二相似概率；根据每一所述句对相似模式样本对应的所述第二相似概率与所述真实相似度标签计算第二损失函数的值，并根据所述第二损失函数的值优化所述模型参数，以得到训练后的目标模型。7.如权利要求4所述的文本匹配方法，其特征在于，将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练，以得到训练后的目标模型，包括：将所述原始样本集与所述句对相似模式样本集作为同一个批次，同时输入所述目标模型进行模型参数优化训练，以得到训练后的目标模型。8.如权利要求7所述的文本匹配方法，其特征在于，所述将所述原始样本集与所述句对相似模式样本集作为同一个批次，同时输入所述目标模型进行模型参数优化训练，以得到训练后的目标模型，包括：将每一所述原始样本与每一所述原始样本对应的句对相似模式样本作为一个输入参数，将所述输入参数输入所述目标模型以得到每一所述输入参数的第一输出概率，其中，所述第一输出概率为第一相似概率与第二相似概率的平均值，所述...

【专利技术属性】
技术研发人员：罗培祥，张金超，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人