文本匹配方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:30145415 阅读:16 留言:0更新日期:2021-09-23 15:18
本申请实施例公开了一种文本匹配方法、装置、存储介质及计算机设备,其中,该方法包括:获取原始样本集,原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及第一样本文本和第二样本文本的真实相似度标签;对原始样本集中的每一原始样本进行目标词遮掩处理,以构建原始样本集对应的句对相似模式样本集,句对相似模式样本集中包含有与每一原始样本对应的具有真实相似度标签的句对相似模式样本;根据原始样本集和/或句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于训练后的目标模型对待测文本对进行文本匹配,以确定待测文本对的相似度标签,以低成本、高效率的方式提高文本匹配的准确率。高效率的方式提高文本匹配的准确率。高效率的方式提高文本匹配的准确率。

【技术实现步骤摘要】
文本匹配方法、装置、存储介质及计算机设备


[0001]本申请涉及计算机
,具体涉及一种文本匹配方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着自然语言处理技术的发展,预训练语言模型开始被广泛的应用在智能问答、文本匹配、信息检索等下游任务中。由于预训练任务和下游任务的不一致性,在构建预训练语言模型时,通常需要设计复杂的预训练方式,并需要构建大规模预训练语料进行训练,甚至需要设计和添加额外的复杂网络结构或者模型,从而导致成本高昂,且模型复杂度较高。

技术实现思路

[0003]本申请实施例提供一种文本匹配方法、装置、存储介质及计算机设备,无需设计复杂的预训练方式,无需添加额外的复杂神经网络,以低成本、高效率的方式提高文本匹配的准确率。
[0004]第一方面,提供一种文本匹配方法,所述方法包括:获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
[0005]第二方面,提供一种文本匹配装置,所述装置包括:获取单元,用于获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;构建单元,用于对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;训练单元,用于根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;匹配单元,用于基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
[0006]第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的文本匹配方法中的步骤。
[0007]第四方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上任一实施例所述的文本匹配方法中的步骤。
[0008]本申请实施例通过获取原始样本集,原始样本集中的每一原始样本包括第一样本
文本和第二样本文本,以及第一样本文本和第二样本文本的真实相似度标签;对原始样本集中的每一原始样本进行目标词遮掩处理,以构建原始样本集对应的句对相似模式样本集,句对相似模式样本集中包含有与每一原始样本对应的具有真实相似度标签的句对相似模式样本;根据原始样本集和/或句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于训练后的目标模型对待测文本对进行文本匹配,以确定待测文本对的相似度标签。本申请实施例能够直接基于原始样本构建近义词对遮掩构造句对相似模式,并基于句对相似模式训练模型,无需设计复杂的预训练方式,无需添加额外的复杂神经网络,以低成本、高效率的方式提高文本匹配的准确率。
附图说明
[0009]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为基于情感知识增强的预训练语言模型的具体算法流程示意图。
[0011]图2为基于主题模型增强的文本匹配模型示意图。
[0012]图3为本申请实施例提供的文本匹配方法的应用场景示意图。
[0013]图4为本申请实施例提供的文本匹配方法的流程示意图。
[0014]图5为本申请实施例提供的第一应用场景示意图。
[0015]图6为本申请实施例提供的第二应用场景示意图。
[0016]图7为本申请实施例提供的第三应用场景示意图。
[0017]图8为本申请实施例提供的区块链网络的应用架构示意图。
[0018]图9为本申请实施例提供的区块链网络中区块链的可选的结构示意图。
[0019]图10为本申请实施例提供的区块链网络的功能架构示意图。
[0020]图11为本申请实施例提供的文本匹配装置的结构示意图。
[0021]图12为本申请实施例提供的文本匹配装置的另一结构示意图。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]本申请实施例提供一种文本匹配方法、装置、计算机设备和存储介质。具体地,本申请实施例的文本匹配方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。
[0024]首先,对本申请进行描述的过程中出现的部分名词或者术语作如下解释:机器学习(Machine Learning, ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机
器学习是人工智能核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0025]深度学习(Deep Learning, DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
[0026]神经网络(Neural Network,NN):在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。
[0027]文本匹配:文本匹配是自然语言处理中的核心问题,主要用于判断两个文本是否具有相似的语义信息。其中,包括信息检索、问答系统、对话系统在内的很多自然语言处理任务都可以抽象成文本匹配问题。
[0028]句对相似模式:指从需要判断是否相似的原始句对中提取出的相似模式,该模式代表了句子蕴含的模式信息,相比于带有噪声信息的完整句子,更能反映句子主要特点及关键信息。
[0029]微调阶段:微调阶段指针对在下游任务采用预训练语言模型,基于下游任务数据进行模型参数更新、学习的过程,通过微调使得预训练模型能够适配于下游任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括:获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。2.如权利要求1所述的文本匹配方法,其特征在于,所述目标词包括近义词,所述对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,包括:判断每一所述原始样本的所述第一样本文本中的每个单词与所述第二样本文本中每个单词的相似度,以确定每一所述原始样本的所述第一样本文本与所述第二样本文本之间的所有近义词对;将每一所述原始样本的所有近义词对对应的近义词进行遮掩,以构建每一所述原始样本对应的句对相似模式样本,并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。3.如权利要求2所述的文本匹配方法,其特征在于,在所述确定所述第一样本文本与所述第二样本文本之间的所有近义词对之后,还包括:判断每一所述原始样本的所有近义词对中的近义词的词性是否满足预设词性约束条件;将每一所述原始样本的所有近义词对中词性满足预设词性约束条件的近义词进行遮掩,以构建每一所述原始样本对应的句对相似模式样本,并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。4.如权利要求1所述的文本匹配方法,其特征在于,所述根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型,包括:将所述原始样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型;或者将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型;或者将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。5.如权利要求4所述的文本匹配方法,其特征在于,所述将所述原始样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将所述原始样本集中的每一所述原始样本输入所述目标模型以得到每一所述原始样本的第一相似概率;根据每一所述原始样本对应的所述第一相似概率与所述真实相似度标签计算第一损
失函数的值,并根据所述第一损失函数的值优化所述模型参数,以得到训练后的目标模型。6.如权利要求4所述的文本匹配方法,其特征在于,所述将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将所述句对相似模式样本集中的每一所述句对相似模式样本输入所述目标模型以得到每一所述句对相似模式样本的第二相似概率;根据每一所述句对相似模式样本对应的所述第二相似概率与所述真实相似度标签计算第二损失函数的值,并根据所述第二损失函数的值优化所述模型参数,以得到训练后的目标模型。7.如权利要求4所述的文本匹配方法,其特征在于,将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。8.如权利要求7所述的文本匹配方法,其特征在于,所述将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将每一所述原始样本与每一所述原始样本对应的句对相似模式样本作为一个输入参数,将所述输入参数输入所述目标模型以得到每一所述输入参数的第一输出概率,其中,所述第一输出概率为第一相似概率与第二相似概率的平均值,所述...

【专利技术属性】
技术研发人员:罗培祥张金超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1