文本检索匹配方法及装置制造方法及图纸

技术编号:38841070 阅读:9 留言:0更新日期:2023-09-17 09:54
本申请公开了一种文本检索匹配方法及装置。其中,该方法包括:获取检索文本与被检索文本;采用向量分析模型分别对检索文本和被检索文本进行特征提取,得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量,其中,向量分析模型是利用正负样本对和对抗样本进行训练,利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的;依据第二嵌入式表征向量构建ANNOY索引树;从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量,确定目标嵌入式表征向量对应的文本为目标检索结果。本申请解决了相关技术中进行文本检索时训练模型需要使用大量标注数据,且最终匹配准确率和效率不佳的技术问题。率和效率不佳的技术问题。率和效率不佳的技术问题。

【技术实现步骤摘要】
文本检索匹配方法及装置


[0001]本申请涉及文本检索
,具体而言,涉及一种文本检索匹配方法及装置。

技术介绍

[0002]近年来,随着人工智能技术的迅速发展,特别是自然语言处理(Natural Language Processing,NLP)的日益更新,文本检索匹配成为自然语言处理领域一个比较核心的任务,不管是在对话系统、推荐系统、搜索引擎中,文本匹配都是必不可少的,文本检索匹配方法的优劣将严重影响相关企业业务的健康发展。
[0003]将深度学习的方法应用于中文文本检索匹配时,最常见的是有监督的训练(最有代表性的是近年来流行的双塔模型),但这种方法需要大量可用于训练的有标签数据,而这往往需要大量的人工标注,需要企业承担较高的人工标注成本;同时,训练好的模型往往缺乏泛化能力,导致最终进行文本检索匹配时的结果并不理想。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种文本检索匹配方法及装置,以至少解决相关技术中进行文本检索时训练模型需要使用大量标注数据,且最终匹配准确率和效率不佳的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种文本检索匹配方法,包括:获取检索文本与被检索文本;采用向量分析模型分别对检索文本和被检索文本进行特征提取,得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量,其中,向量分析模型是利用正负样本对和对抗样本进行训练,利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的;依据第二嵌入式表征向量构建ANNOY索引树;从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量,确定目标嵌入式表征向量对应的文本为目标检索结果。
[0007]可选地,向量分析模型的训练过程包括:确定待训练模型,其中,待训练模型中至少包括双向编码表示转换子模型,双向编码表示转换子模型中包括嵌入层和编码器;在每个训练批次中,构建正负样本对,并依据正负样本对构建目标损失函数;确定与正负样本对对应的对抗样本,并确定引入对抗样本后的待训练模型的对抗梯度;依据对抗梯度确定目标内斯特罗夫动量,其中,目标内斯特罗夫动量包括:一阶内斯特罗夫动量、梯度差分的一阶内斯特罗夫动量和二阶内斯特罗夫动量;对目标内斯特罗夫动量进行解耦的权重衰减,得到更新后的模型参数;对待训练模型进行迭代训练,直至目标损失函数收敛,得到向量分析模型。
[0008]可选地,构建正负样本对,包括:获取第一文本数据,并利用正则表达式对第一文本数据进行清洗,得到第二文本数据;对第二文本数据进行分词处理,得到第一分词序列;按照目标重复率随机重复第一分词序列中的部分分词,得到第二分词序列;通过编码器对第一分词序列和第二分词序列进行随机失活处理,得到正样本对;获取第二文本数据对应
的训练批次的紧邻训练批次中的第三文本数据,对第二文本数据和第三文本数据进行动量对比学习,得到负样本对。
[0009]可选地,依据正负样本对构建目标损失函数,包括:确定正负样本对对应的输入样本;将输入样本输入待训练模型,得到待训练模型的输出结果;依据正样本对和输出结果构建目标损失函数。
[0010]可选地,迭代训练包括k个训练批次,确定与正负样本对对应的对抗样本,并确定引入对抗样本后的待训练模型的对抗梯度,包括:在第1个训练批次中,将第1个训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播,得到待训练模型的第一梯度和嵌入层的第一权重,其中,将输入样本作为第1个训练批次的对抗样本,将第一梯度作为第1个训练批次的对抗梯度;在第2至第k

1的每个训练批次中,依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本,并依据当前训练批次的对抗样本将嵌入层的第一权重调整为第二权重,设置待训练模型的当前梯度为0,将当前训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播,得到待训练模型在当前训练批次的对抗梯度,并调整待训练模型的模型参数;其中,对抗样本的类型为投影梯度下降对抗样本;在第k个训练批次中,依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本,并依据当前训练批次的对抗样本将嵌入层的第一权重调整为第三权重,设置待训练模型的当前梯度为第一梯度,将当前训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播,得到待训练模型在当前训练批次的对抗梯度。
[0011]可选地,依据对抗梯度确定目标内斯特罗夫动量,包括:对于每个训练批次,依据上一训练批次的一阶内斯特罗夫动量、当前训练批次的对抗梯度和预设的一阶动量平均参数确定当前训练批次的一阶内斯特罗夫动量,其中,第1个训练批次的一阶内斯特罗夫动量为第一梯度;依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的梯度差分的一阶内斯特罗夫动量和预设的梯度差分的一阶动量平均参数确定当前训练批次的梯度差分的一阶内斯特罗夫动量;依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的二阶内斯特罗夫动量和预设的二阶动量平均参数确定当前训练批次的二阶内斯特罗夫动量。
[0012]可选地,从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量,包括:依据ANNOY索引树的节点顺序依次确定ANNOY索引树中各个节点与第一嵌入式表征向量的余弦距离;将与第一嵌入式表征向量的余弦距离最小的节点对应的第二嵌入式表征向量作为目标嵌入式表征向量;或,将与第一嵌入式表征向量的余弦距离小于预设阈值的节点对应的第二嵌入式表征向量作为目标嵌入式表征向量。
[0013]根据本申请实施例的另一方面,还提供了一种文本检索匹配装置,包括:获取模块,用于获取检索文本与被检索文本;处理模块,用于采用向量分析模型分别对检索文本和被检索文本进行特征提取,得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量,其中,向量分析模型是利用正负样本对和对抗样本进行训练,利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的;构建模块,用于依据第二嵌入式表征向量构建ANNOY索引树;检索模块,用于从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量,确定目标嵌入式表征向量对应的文本为目标检索结果。
[0014]根据本申请实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,非易失性存储介质所在设备通过运行该计算机程序执行上述的文本检索匹配方法。
[0015]根据本申请实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的文本检索匹配方法。
[0016]在本申请实施例中,首先获取检索文本与被检索文本;然后采用向量分析模型分别对检索文本和被检索文本进行特征提取,得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检索匹配方法,其特征在于,包括:获取检索文本与被检索文本;采用向量分析模型分别对所述检索文本和所述被检索文本进行特征提取,得到所述检索文本对应的第一嵌入式表征向量和所述被检索文本对应的第二嵌入式表征向量,其中,所述向量分析模型是利用正负样本对和对抗样本进行训练,利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的;依据所述第二嵌入式表征向量构建ANNOY索引树;从所述ANNOY索引树中检索与所述第一嵌入式表征向量相匹配的目标嵌入式表征向量,确定所述目标嵌入式表征向量对应的文本为目标检索结果。2.根据权利要求1所述的方法,其特征在于,所述向量分析模型的训练过程包括:确定待训练模型,其中,所述待训练模型中至少包括双向编码表示转换子模型,所述双向编码表示转换子模型中包括嵌入层和编码器;在每个训练批次中,构建所述正负样本对,并依据所述正负样本对构建目标损失函数;确定与所述正负样本对对应的对抗样本,并确定引入所述对抗样本后的待训练模型的对抗梯度;依据所述对抗梯度确定目标内斯特罗夫动量,其中,所述目标内斯特罗夫动量包括:一阶内斯特罗夫动量、梯度差分的一阶内斯特罗夫动量和二阶内斯特罗夫动量;对所述目标内斯特罗夫动量进行解耦的权重衰减,得到更新后的模型参数;对所述待训练模型进行迭代训练,直至所述目标损失函数收敛,得到所述向量分析模型。3.根据权利要求2所述的方法,其特征在于,构建所述正负样本对,包括:获取第一文本数据,并利用正则表达式对所述第一文本数据进行清洗,得到第二文本数据;对所述第二文本数据进行分词处理,得到第一分词序列;按照目标重复率随机重复所述第一分词序列中的部分分词,得到第二分词序列;通过所述编码器对所述第一分词序列和所述第二分词序列进行随机失活处理,得到正样本对;获取所述第二文本数据对应的训练批次的紧邻训练批次中的第三文本数据,对所述第二文本数据和所述第三文本数据进行动量对比学习,得到负样本对。4.根据权利要求2所述的方法,其特征在于,依据所述正负样本对构建目标损失函数,包括:确定所述正负样本对对应的输入样本;将所述输入样本输入所述待训练模型,得到所述待训练模型的输出结果;依据正样本对和所述输出结果构建所述目标损失函数。5.根据权利要求2所述的方法,其特征在于,所述迭代训练包括k个训练批次,确定与所述正负样本对对应的对抗样本,并确定引入所述对抗样本后的待训练模型的对抗梯度,包括:在第1个训练批次中,将第1个训练批次的正负样本对中的输入样本输入所述待训练模型进行正向传播和反向传播,得到所述待训练模型的第一梯度和嵌入层的第一权重,其中,将所述输入样本作为所述第1个训练批次的对抗样本,将所述第一梯度作为所述第1个训练批次的对抗梯度;
在第2至第k

1的每个训练批次中,依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本,并依据所述当前训练批次的对抗样本将所述嵌入层的所述第一权重调整为第二权重,设置所述待训练模型的当前梯度为0,将当前训练...

【专利技术属性】
技术研发人员:马俊储军梅陈爱华
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1