一种文本相似度检测模型的训练方法、装置及其相关介质制造方法及图纸

技术编号：38767624 阅读：19 留言：0更新日期：2023-09-10 10:40

本发明专利技术公开了一种文本相似度检测模型的训练方法、装置及其相关介质，该方法包括获取公开文本数据集和私有文本数据集，并进行文本相似度标注和混合，得到混合数据集；利用预训练的文本相似度检测模型对所述混合数据集进行文本推理，得到文本特征向量和域标签；根据所述文本特征向量和域标签计算分别得到对比损失结果、域差异损失结果和域分类损失结果；并相加后进行反向传播所述预训练的文本相似度检测模型的参数，得到最终的文本相似度检测模型。本发明专利技术通过对计算得到的对比损失结果、域差异损失结果和域分类损失结果进行相加和反向传播，得到最终的文本相似度检测模型，如此，提高了文本之间的区分度，优化了文本相似度检测效果。度检测效果。度检测效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度检测模型的训练方法、装置及其相关介质

[0001]本专利技术涉及自然语言处理
，特别涉及一种文本相似度检测模型的训练方法、装置及其相关介质。

技术介绍

[0002]目前，关于文本相似度检测技术大多数都使用预训练语言模型，将预训练语言模型的推理输出作为句向量，或者针对预训练语言模型，在有标注的语料上进行微调；但是，在单一领域上的语料微调得到的模型在另外一领域上的表现通常较差。针对上述存在的问题，现有技术中已经有解决方法，例如，现有技术(CN113672718A)中实现域自适应的方法是使用LDA变换，能够将原始句向量投影到另一个空间，使得在这个空间内域间差异最大，域内差异最小，实现了域自适应转换；但是上述现有技术依旧存在问题，如直接使用模型提取出的句向量中，高频词会占更大的权重，这将导致文本之间区分度较差；微调训练的语料和实际使用的语料之间存在较大的领域差异，这将导致跨领域的文本相似度检测效果变差。

技术实现思路

[0003]本专利技术实施例提供了一种文本相似度检测模型的训练方法、装置及其相关介质，旨在解决现有技术中相似文本之间区分度较差，导致检测效果较差的问题。
[0004]第一方面，本专利技术实施例提供了一种文本相似度检测模型的训练方法，包括：
[0005]获取预训练的文本相似度检测模型；
[0006]获取公开文本数据集，并对所述公开文本数据集进行文本相似度标注，得到第一文本数据；
[0007]获取私有文本数据集，并对所述私有文本数据集进行文本相似度...

【技术保护点】

【技术特征摘要】
1.一种文本相似度检测模型的训练方法，其特征在于，包括：获取预训练的文本相似度检测模型；获取公开文本数据集，并对所述公开文本数据集进行文本相似度标注，得到第一文本数据；获取私有文本数据集，并对所述私有文本数据集进行文本相似度标注，得到第二文本数据；将所述第一文本数据和第二文本数据进行语料混合，得到混合数据集；利用所述预训练的文本相似度检测模型对所述混合数据集进行文本推理，分别得到第一文本特征向量和第二文本特征向量；其中，所述第一文本特征向量和第二文本特征向量均对应有域标签；根据所述第一文本特征向量和第二文本特征向量计算对比损失，得到对比损失结果；根据所述域标签计算域差异损失，得到域差异损失结果；根据所述第一文本特征向量计算域分类损失，得到域分类损失结果；将所述对比损失结果、域差异损失结果和域分类损失结果进行相加，并进行反向传播所述预训练的文本相似度检测模型的参数，得到最终的文本相似度检测模型。2.根据权利要求1所述的文本相似度检测模型的训练方法，其特征在于，所述利用所述预训练的文本相似度检测模型对所述混合数据集进行文本推理，分别得到第一文本特征向量和第二文本特征向量，包括：判断所述第一文本特征向量和第二文本特征向量是否语义相似，并标记句对标签；若是，则将所述句对标签标记为1；若否，则将所述句对标签标记为0。3.根据权利要求1所述的文本相似度检测模型的训练方法，其特征在于，所述根据所述第一文本特征向量和第二文本特征向量计算对比损失，得到对比损失结果，包括：根据所述第一文本特征向量和第二文本特征向量计算得到句对之间的余弦相似度；利用所述余弦相似度分别计算得到句对之间的相似度差异值和标签差异值；根据所述标签差异值筛选得到负样本，并基于所述负样本和所述相似度差异值利用指数函数计算负样本采样概率；根据所述负样本采样概率对所述相似度差异值进行采样，得到采样结果；根据所述采样结果进行对比损失计算，得到所述对比损失结果。4.根据权利要求3所述的文本相似度检测模型的训练方法，其特征在于，所述根据所述采样结果进行对比损失计算，得到所述对比损失结果，包括：按如下公式计算得到所述对比损失结果：loss
contrast
＝log(∑exp(s
i,j
‑
s
k,l
)+1)其中，loss
contrast
表示所述对比损失结果；exp()表示指数函数；s
i,j
表示句对i,j；s
k,l
表示句对k,l。5.根据权利要求1所述的文本相似度检测模型的训练方法，其特征在于，所述根据所述域标签计...

【专利技术属性】
技术研发人员：王力，马汉林，邓超，
申请(专利权)人：武汉市万睿数字运营有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人