文本匹配方法、装置、终端设备以及存储介质制造方法及图纸

技术编号:35642878 阅读:16 留言:0更新日期:2022-11-19 16:35
本申请公开了一种文本匹配方法、装置、终端设备以及存储介质,其文本匹配方法包括:将经过预处理后的待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对;结合相似度度量计算所述句向量对的相似度;根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。本申请解决了现有的文本匹配方法训练的模型稳定性不足问题,提升文本匹配的准确率和效率。本匹配的准确率和效率。本匹配的准确率和效率。

【技术实现步骤摘要】
文本匹配方法、装置、终端设备以及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本匹配方法、装置、终端设备以及存储介质。

技术介绍

[0002]近几年BERT、RoBERTa等预训练模型已经在文本语义相似度任务(semantic textual similarity,STS)上被广泛使用。然而,BERT要求将句子对拼接到一起再传入模型中,这会导致巨大的计算开销。例如,在10000条句子中寻找最相似的两条,则在模型预测阶段将会需要大量的时间。这将导致许多涉及篇章向量的任务,如相似度计算、聚类等无从开展。目前,学习句向量的方案大致上可以分为无监督和有监督两大类,其中有监督句向量比较所主流的方案是Facebook提出的“InferSent”,后面提出的“Sentence

BERT”进一步在BERT的基础上提出了一些改进。
[0003]但是,运用上述主流的有监督句向量比较方案,如InferSent、Sentence

BERT等进行文本匹配依旧存在不少技术上的缺点和不足。不管是InferSent还是Sentence

BERT,它们虽然有效,但存在训练和预测不一致的问题,如果直接优化预测目标cos值,预测效果往往特别差。现有的文本匹配方法训练的模型稳定性不足,致使文本匹配的准确率较差、效率较慢。
[0004]因此,有必要提出一种快速且高准确率的文本匹配方案。

技术实现思路

[0005]本申请的主要目的在于提供一种文本匹配方法、装置、终端设备以及存储介质,旨在解决现有的文本匹配方法训练的模型稳定性不足问题,提升文本匹配的准确率和效率。
[0006]为实现上述目的,本申请提供一种文本匹配方法,所述文本匹配方法包括:
[0007]将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对;
[0008]结合相似度度量计算所述句向量对的相似度;
[0009]根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。
[0010]可选地,所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对的步骤之前,还包括:
[0011]对所述待匹配的文本数据对进行预处理,具体包括:
[0012]将所述待匹配的文本数据对进行干扰与噪声的去除;
[0013]将去除干扰和噪声后的所述待匹配的文本数据对进行数据增强,生成符合条件的待匹配的文本数据对。
[0014]可选地,所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对的步骤之前,还包括:
[0015]基于预先采集的待训练的文本数据对训练所述文本匹配网络模型,其中,所述待
训练的文本数据对为经过预处理后的符合条件的待训练的文本数据对,所述文本匹配网络模型采用孪生神经网络来构建。
[0016]可选地,所述基于预先采集的待训练的文本数据对训练所述文本匹配网络模型的步骤包括:
[0017]获取所述预先采集的待训练的文本数据对,其中,所述待训练的文本数据对包括第一待训练的文本数据和第二待训练的文本数据;
[0018]将所述待训练的文本数据对进行分词,根据分词结果将所述第一待训练的文本数据和第二待训练的文本数据分别映射成第一ID和第二ID;
[0019]通过第一编码器的输入层将所述第一ID处理成第一输出向量;
[0020]通过所述第一编码器的池化层对所述第一输出向量进行平均池化操作,提取所述第一输出向量的第一局部特征;
[0021]结合所述第一局部特征,通过所述第一编码器的所述池化层输出所述第一输出向量中包含的每个句子的第一句向量表示;
[0022]通过第二编码器的输入层将所述第二ID处理成第二输出向量;
[0023]通过所述第二编码器的池化层对所述第二输出向量进行平均池化操作,提取所述第二输出向量的第二局部特征;
[0024]结合所述第二局部特征,通过所述第二编码器的所述池化层输出所述第二输出向量中包含的每个句子的第二句向量表示,其中,所述第一句向量表示和所述第二句向量表示对应组成句向量对;
[0025]结合所述句向量对和预设的目标损失函数训练所述文本匹配网络模型,其中,所述目标损失函数结合对数似然函数和Center loss损失函数进行设置。
[0026]可选地,所述结合所述句向量对和预设的目标损失函数训练所述文本匹配网络模型的步骤包括:
[0027]通过L2归一化所述句向量对的特征向量和权重向量,以消除径向变化;
[0028]将softmax损失重新表述为余弦损失,其中,引入余弦余量项以进一步最大化角空间中的决策余量;
[0029]通过L2归一化和余弦决策余量最大化来实现最小类内方差和最大类间方差;
[0030]通过二分类进行目标类别得分和非目标类别得分的两两比较;
[0031]通过对数似然LogSumExp自动平衡所述目标损失函数的每一项权重,以优化所述目标损失函数;
[0032]采用Adam优化器结合优化的所述目标损失函数进行梯度下降;
[0033]通过梯度下降来对模型参数进行迭代求解,得到最小化目标损失函数和模型参数值,终止训练,并得到训练后的文本匹配网络模型。
[0034]可选地,所述文本匹配网络模型使用循环神经网络RNN或transformer编码器模型来构建。
[0035]可选地,所述相似度度量包括:余弦相似度、曼哈顿或欧几里得距离。
[0036]本申请实施例还提出一种文本匹配装置,所述文本匹配装置包括:
[0037]文本输出模块,用于将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对;
[0038]相似度计算模块,用于结合相似度度量计算所述句向量对的相似度;
[0039]文本匹配模块,用于根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。
[0040]本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本匹配程序,所述文本匹配程序被所述处理器执行时实现如上所述的文本匹配方法的步骤。
[0041]本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本匹配程序,所述文本匹配程序被处理器执行时实现如上所述的文本匹配方法的步骤。
[0042]本申请实施例提出的文本匹配方法、装置、终端设备以及存储介质,通过将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对;结合相似度度量计算所述句向量对的相似度;根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。通过训练后的文本匹配网络模型对文本进行相似度匹配,可以解决现有的文本匹配方法训练的模型稳定性不足问题,提升文本匹配的准确率和效率。基于本申请方案,从解决金融领域复杂场景本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述文本匹配方法包括:将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对;结合相似度度量计算所述句向量对的相似度;根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。2.根据权利要求1所述的文本匹配方法,其特征在于,所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对的步骤之前,还包括:对所述待匹配的文本数据对进行预处理,具体包括:将所述待匹配的文本数据对进行干扰与噪声的去除;将去除干扰和噪声后的所述待匹配的文本数据对进行数据增强,生成符合条件的待匹配的文本数据对。3.根据权利要求2所述的文本匹配方法,其特征在于,所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对的步骤之前,还包括:基于预先采集的待训练的文本数据对训练所述文本匹配网络模型,其中,所述待训练的文本数据对为经过预处理后的符合条件的待训练的文本数据对,所述文本匹配网络模型采用孪生神经网络来构建。4.根据权利要求3所述的文本匹配方法,其特征在于,所述基于预先采集的待训练的文本数据对训练所述文本匹配网络模型的步骤包括:获取所述预先采集的待训练的文本数据对,其中,所述待训练的文本数据对包括第一待训练的文本数据和第二待训练的文本数据;将所述待训练的文本数据对进行分词,根据分词结果将所述第一待训练的文本数据和第二待训练的文本数据分别映射成第一ID和第二ID;通过第一编码器的输入层将所述第一ID处理成第一输出向量;通过所述第一编码器的池化层对所述第一输出向量进行平均池化操作,提取所述第一输出向量的第一局部特征;结合所述第一局部特征,通过所述第一编码器的所述池化层输出所述第一输出向量中包含的每个句子的第一句向量表示;通过第二编码器的输入层将所述第二ID处理成第二输出向量;通过所述第二编码器的池化层对所述第二输出向量进行平均池化操作,提取所述第二输出向量的第二局部特征;结合所述第二局部特征,通过所述第二编码器的所述池化层输出所述第二输出向量中包含的每个句子的第二句向量表示,其中,所述第一句向量表示和所述第二句向量表...

【专利技术属性】
技术研发人员:刘弘一蒲珂宇贺瑶函杨一枭李金龙
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1