一种文本相似度检测模型的训练方法、装置及其相关介质制造方法及图纸

技术编号:38767624 阅读:19 留言:0更新日期:2023-09-10 10:40
本发明专利技术公开了一种文本相似度检测模型的训练方法、装置及其相关介质,该方法包括获取公开文本数据集和私有文本数据集,并进行文本相似度标注和混合,得到混合数据集;利用预训练的文本相似度检测模型对所述混合数据集进行文本推理,得到文本特征向量和域标签;根据所述文本特征向量和域标签计算分别得到对比损失结果、域差异损失结果和域分类损失结果;并相加后进行反向传播所述预训练的文本相似度检测模型的参数,得到最终的文本相似度检测模型。本发明专利技术通过对计算得到的对比损失结果、域差异损失结果和域分类损失结果进行相加和反向传播,得到最终的文本相似度检测模型,如此,提高了文本之间的区分度,优化了文本相似度检测效果。度检测效果。度检测效果。

【技术实现步骤摘要】
一种文本相似度检测模型的训练方法、装置及其相关介质


[0001]本专利技术涉及自然语言处理
,特别涉及一种文本相似度检测模型的训练方法、装置及其相关介质。

技术介绍

[0002]目前,关于文本相似度检测技术大多数都使用预训练语言模型,将预训练语言模型的推理输出作为句向量,或者针对预训练语言模型,在有标注的语料上进行微调;但是,在单一领域上的语料微调得到的模型在另外一领域上的表现通常较差。针对上述存在的问题,现有技术中已经有解决方法,例如,现有技术(CN113672718A)中实现域自适应的方法是使用LDA变换,能够将原始句向量投影到另一个空间,使得在这个空间内域间差异最大,域内差异最小,实现了域自适应转换;但是上述现有技术依旧存在问题,如直接使用模型提取出的句向量中,高频词会占更大的权重,这将导致文本之间区分度较差;微调训练的语料和实际使用的语料之间存在较大的领域差异,这将导致跨领域的文本相似度检测效果变差。

技术实现思路

[0003]本专利技术实施例提供了一种文本相似度检测模型的训练方法、装置及其相关介质,旨在解决现有技术中相似文本之间区分度较差,导致检测效果较差的问题。
[0004]第一方面,本专利技术实施例提供了一种文本相似度检测模型的训练方法,包括:
[0005]获取预训练的文本相似度检测模型;
[0006]获取公开文本数据集,并对所述公开文本数据集进行文本相似度标注,得到第一文本数据;
[0007]获取私有文本数据集,并对所述私有文本数据集进行文本相似度标注,得到第二文本数据;
[0008]将所述第一文本数据和第二文本数据进行语料混合,得到混合数据集;
[0009]利用所述预训练的文本相似度检测模型对所述混合数据集进行文本推理,分别得到第一文本特征向量和第二文本特征向量;其中,所述第一文本特征向量和第二文本特征向量均对应有域标签;
[0010]根据所述第一文本特征向量和第二文本特征向量计算对比损失,得到对比损失结果;
[0011]根据所述域标签计算域差异损失,得到域差异损失结果;
[0012]根据所述第一文本特征向量计算域分类损失,得到域分类损失结果;
[0013]将所述对比损失结果、域差异损失结果和域分类损失结果进行相加,并进行反向传播所述预训练的文本相似度检测模型的参数,得到最终的文本相似度检测模型。
[0014]第二方面,本专利技术实施例提供了一种文本相似度检测模型的训练装置,包括:
[0015]第一获取单元,用于获取预训练的文本相似度检测模型;
[0016]第二获取单元,用于获取公开文本数据集,并对所述公开文本数据集进行文本相
似度标注,得到第一文本数据;
[0017]第三获取单元,用于获取私有文本数据集,并对所述私有文本数据集进行文本相似度标注,得到第二文本数据;
[0018]数据混合单元,用于将所述第一文本数据和第二文本数据进行语料混合,得到混合数据集;
[0019]模型推理单元,用于利用所述预训练的文本相似度检测模型对所述混合数据集进行文本推理,分别得到第一文本特征向量和第二文本特征向量;其中,所述第一文本特征向量和第二文本特征向量均对应有域标签;
[0020]第一损失单元,用于根据所述第一文本特征向量和第二文本特征向量计算对比损失,得到对比损失结果;
[0021]第二损失单元,用于根据所述域标签计算域差异损失,得到域差异损失结果;
[0022]第三损失单元,用于根据所述第一文本特征向量计算域分类损失,得到域分类损失结果;
[0023]模型输出单元,用于将所述对比损失结果、域差异损失结果和域分类损失结果进行相加,并进行反向传播所述预训练的文本相似度检测模型的参数,得到最终的文本相似度检测模型。
[0024]第三方面,本专利技术实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述第一方面的文本相似度检测模型的训练方法。
[0025]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述第一方面的文本相似度检测模型的训练方法。
[0026]本专利技术实施例提供一种文本相似度检测模型的训练方法,包括获取公开文本数据集和私有文本数据集,并进行文本相似度标注和混合,得到混合数据集;利用预训练的文本相似度检测模型对所述混合数据集进行文本推理,得到文本特征向量和域标签;根据所述文本特征向量和域标签计算分别得到对比损失结果、域差异损失结果和域分类损失结果;并相加后进行反向传播所述预训练的文本相似度检测模型的参数,得到最终的文本相似度检测模型。本专利技术通过对计算得到的对比损失结果、域差异损失结果和域分类损失结果进行相加和反向传播,得到最终的文本相似度检测模型,如此,提高了文本之间的区分度,优化了文本相似度检测效果。
[0027]本专利技术实施例还提供一种文本相似度检测模型的训练装置、计算机设备和存储介质,同样具有上述有益效果。
附图说明
[0028]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1为本专利技术实施例提供的一种文本相似度检测模型的训练方法的流程示意图;
[0030]图2为本专利技术实施例提供的一种文本相似度检测模型的训练方法的另一流程示意
图;
[0031]图3为本专利技术实施例提供的一种文本相似度检测模型的训练装置的示意性框图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0034]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0035]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0036]下面请参见图1,图1为本专利技术实施例提供的一种文本相似度检测模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度检测模型的训练方法,其特征在于,包括:获取预训练的文本相似度检测模型;获取公开文本数据集,并对所述公开文本数据集进行文本相似度标注,得到第一文本数据;获取私有文本数据集,并对所述私有文本数据集进行文本相似度标注,得到第二文本数据;将所述第一文本数据和第二文本数据进行语料混合,得到混合数据集;利用所述预训练的文本相似度检测模型对所述混合数据集进行文本推理,分别得到第一文本特征向量和第二文本特征向量;其中,所述第一文本特征向量和第二文本特征向量均对应有域标签;根据所述第一文本特征向量和第二文本特征向量计算对比损失,得到对比损失结果;根据所述域标签计算域差异损失,得到域差异损失结果;根据所述第一文本特征向量计算域分类损失,得到域分类损失结果;将所述对比损失结果、域差异损失结果和域分类损失结果进行相加,并进行反向传播所述预训练的文本相似度检测模型的参数,得到最终的文本相似度检测模型。2.根据权利要求1所述的文本相似度检测模型的训练方法,其特征在于,所述利用所述预训练的文本相似度检测模型对所述混合数据集进行文本推理,分别得到第一文本特征向量和第二文本特征向量,包括:判断所述第一文本特征向量和第二文本特征向量是否语义相似,并标记句对标签;若是,则将所述句对标签标记为1;若否,则将所述句对标签标记为0。3.根据权利要求1所述的文本相似度检测模型的训练方法,其特征在于,所述根据所述第一文本特征向量和第二文本特征向量计算对比损失,得到对比损失结果,包括:根据所述第一文本特征向量和第二文本特征向量计算得到句对之间的余弦相似度;利用所述余弦相似度分别计算得到句对之间的相似度差异值和标签差异值;根据所述标签差异值筛选得到负样本,并基于所述负样本和所述相似度差异值利用指数函数计算负样本采样概率;根据所述负样本采样概率对所述相似度差异值进行采样,得到采样结果;根据所述采样结果进行对比损失计算,得到所述对比损失结果。4.根据权利要求3所述的文本相似度检测模型的训练方法,其特征在于,所述根据所述采样结果进行对比损失计算,得到所述对比损失结果,包括:按如下公式计算得到所述对比损失结果:loss
contrast
=log(∑exp(s
i,j

s
k,l
)+1)其中,loss
contrast
表示所述对比损失结果;exp()表示指数函数;s
i,j
表示句对i,j;s
k,l
表示句对k,l。5.根据权利要求1所述的文本相似度检测模型的训练方法,其特征在于,所述根据所述域标签计...

【专利技术属性】
技术研发人员:王力马汉林邓超
申请(专利权)人:武汉市万睿数字运营有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1