【技术实现步骤摘要】
一种最近邻增强对比学习预训练的文本匹配方法
[0001]本专利技术涉及一种最近邻增强对比学习预训练的文本匹配方法,属于自然语言处理
技术介绍
[0002]文本匹配任务是自然语言处理领域中非常重要的基础任务之一,它旨在学习源文本和目标文本之间的语义关系,在很多的应用场景中都有体现,比如信息检索系统,智能推荐系统、文本数据去重等等。文本匹配任务随着场景的不同,其含义也会有所不同。在文本数据去重中,系统可以通过计算文本之间的语义匹配情况,衡量两个文本之间的相似性。在问答系统中,文本匹配还能用来为问题匹配到合适的答案,可以减少对人工客服的需求。因此,对于文本匹配任务的研究具有重大意义。传统的文本匹配模型主要是解决词汇层次的匹配问题,例如BM25、TF-IDF等,此类模型会造成文本语义或知识缺陷等问题。为此,基于深度学习的文本匹配模型可以学习文本之间的交互模式,挖掘出文本之间复杂语义关系,得到了广泛的研究和关注。
[0003]深度文本匹配模型可以分为两类:基于表示的文本匹配模型和基于交互的文本匹配模型。基于表示的文本 ...
【技术保护点】
【技术特征摘要】
1.一种最近邻增强对比学习预训练的文本匹配方法,其特征在于,所述方法包括:建立源文本集和目标文本集;对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量;利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集;计算源相似实例集的相似权重集、目标相似实例集的相似权重集;基于源相似实例集的相似权重集合并源文本向量和源相似实例集,得到源文本加权向量;基于目标相似实例集的相似权重集合并目标文本向量和目标相似实例集,得到目标文本加权向量;利用文本匹配模型训练源文本加权向量和目标文本加权向量,得到匹配结果。2.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,建立源文本集和目标文本集,包括:令表示源文本集,其中,p
[i]
为第i个源文本,1≤i≤N;令表示目标文本集,其中,q
[i]
为第i个目标文本,1≤i≤N。3.根据权利要求2所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量,包括:采用对比学习模型Simcse预训练源文本集、目标文本集,源文本集经过对比学习后得到新的源文本向量为目标文本集经过对比学习后得到新的目标文本向量为4.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集,包括:令是包含所有源文本向量和目标文本向量的2N个文本向量集,表示的第j个文本向量,1≤j≤2N;利用欧式距离公式计算源文本向量和中除了之外其余文本向量的相似度,统计结果并选出相似度top
‑
K的文本为源相似实例;利用欧式距离公式计算目标文本向量和中除了之外其余文本向量的相似度,统计结果并选出相似度top
‑
K的文本为目标相似实例;通过最近邻检索得到K个源相似实例和K个目标相似实例,分别构成源相似实例集和目标相似实例集5.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,计算源相似实例集的相似权重集、目标相似实例集的相似权重集,包括:对源文本向量和源相似实例集的欧式距离值倒数做归一化处理作为源相似实例集的相似权重集,对目标文本向量和目标相似实例集的欧式距离值倒数做归一化处理作为目标
相似实例集的相似权重集,其中,归一化使用sigmoid激活函数。6.根据权利要求5所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,对源文本向量和源相似实例集的欧式距离值倒数做归...
【专利技术属性】
技术研发人员:陈家绪,刘鲁缘,刘琳,王帅威,张兆维,潘甦,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。