基于对比学习的相似句子搜索方法及装置制造方法及图纸

技术编号：38377587 阅读：10 留言：0更新日期：2023-08-05 17:37

本发明专利技术涉及一种基于对比学习的相似句子搜索方法及装置，方法包括：接收来自用户的待搜索语句；基于预训练好的句子相似特征提取模型，确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征；其中，所述句子相似特征提取模型为基于对比学习的自监督学习模型；通过各个分布式计算节点，确定所述第一特征与所述句子库中的各个语句的第二特征的第一相似度；基于在各个分布式计算节点上分别确定的多个第一相似度，确定与所述句子库中与所述待搜索语句相似的句子。基于此，提高相似句子搜索的准确性以及进行相似句子的搜索的速度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
基于对比学习的相似句子搜索方法及装置

[0001]本专利技术涉及人工智能
，特别是涉及基于对比学习的相似句子搜索方法及装置。

技术介绍

[0002]基于机器学习或深度学习的相似句子的搜索，通常没有标注数据，因此通常难以进行有监督的学习，使用无监督的方式进行相似句子的搜索，句向量的表示往往质量不高，导致相似句子的搜索准确性很难得到保证。且由于进行相似句子的搜索通常是海量搜索，因此，存在搜索耗时严重的问题。
[0003]因此，如何在没有标注数据的情况下，提高相似句子搜索的准确性以及进行相似句子的搜索的速度是目前的一个研究方向。

技术实现思路

[0004]本专利技术提供一种基于对比学习的相似句子搜索方法及装置，用以解决现有技术中句向量的表示往往质量不高，导致相似句子的搜索准确性很难得到保证，且由于进行相似句子的搜索通常是海量搜索，因此，存在搜索耗时严重的问题，实现提高相似句子搜索的准确性以及进行相似句子的搜索的速度。
[0005]一种基于对比学习的相似句子搜索方法，所述方法包括：接收来自用户的待搜索语句；基于预训练好的句子相似特征提取模型，确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征；其中，所述句子相似特征提取模型为基于对比学习的自监督学习模型；通过各个分布式计算节点，确定所述第一特征与所述句子库中的各个语句的第二特征的第一相似度；基于在各个分布式计算节点上分别确定的多个第一相似度，确定与所述句子库中与所述待搜索语句相似的句子。
[0006]在其中一个实施例中，...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的相似句子搜索方法，其特征在于，所述方法包括：接收来自用户的待搜索语句；基于预训练好的句子相似特征提取模型，确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征；其中，所述句子相似特征提取模型为基于对比学习的自监督学习模型；通过各个分布式计算节点，确定所述第一特征与所述句子库中的各个语句的第二特征的第一相似度；基于在各个分布式计算节点上分别确定的多个第一相似度，确定与所述句子库中与所述待搜索语句相似的句子。2.如权利要求1所述的基于对比学习的相似句子搜索方法，其特征在于，在所述基于预训练好的句子相似特征提取模型，确定所述待搜索语句的第一特征以及句子库中的各个语句的第二特征之前，所述方法还包括：基于预设的句子库中的各个语句和预设的预训练方法，训练得到预训练好的Bert模型；其中，预设的预训练方法中包括对所述各个语句的预处理，所述预处理过程中包括：先对各个语句进行分词处理得到各个语句的分词序列，针对每个语句的分词序列中的不同长度的词语采用不同的百分比进行掩码处理；基于所述预设的句子库中的各个语句、所述预训练好的Bert模型的参数和预设的对比学习损失函数，训练得到所述预训练好的句子相似特征提取模型。3.如权利要求2所述的基于对比学习的相似句子搜索方法，其特征在于，所述预训练好的句子相似特征提取模型为MoCo模型中的encoder，所述基于所述预设的句子库中的各个语句、所述预训练好的Bert模型的参数和预设的对比学习损失函数，训练得到所述预训练好的句子相似特征提取模型，包括：对同批次输入的各个目标语句分别进行词语重复以及同义词替换，确定各个目标语句的正样本；所述同批次输入的各个目标语句为所述预设的句子库中的目标语句；基于同批次输入的各个目标语句中与各个目标语句本身不同的其他样本，确定各个目标语句的负样本；并基于所述预训练好的Bert模型的参数，确定MoCo模型中的momentum encoder和encoder的初始参数值；基于各个目标语句的正样本和负样本，以及所述momentum encoder和encoder的初始参数值以及所述预设的对比学习损失函数，训练得到最终的momentum encoder和encoder；基于所述最终的encoder对应的参数确定为预训练好的句子相似特征提取模型的参数。4.如权利要求3所述的基于对比学习的相似句子搜索方法，其特征在于，所述预设的对比学习损失函数为：其中，表示第i个目标语句的编码表示hi与第i个目标语句对应的第s个正样本的momentum encoder编码表示的相似度；表示第i个目标语句的编码表示hi与第i个目
标语句对应的第p个正样本的encoder编码表示的相似度；表示第i个目标语句的编码表示hi与第i个目标语句对应的第j...

【专利技术属性】
技术研发人员：邹游，聂虎，何英杰，
申请(专利权)人：特斯联科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人