文本匹配方法、装置、终端设备以及存储介质制造方法及图纸

技术编号：35642878 阅读：16 留言：0更新日期：2022-11-19 16:35

本申请公开了一种文本匹配方法、装置、终端设备以及存储介质，其文本匹配方法包括：将经过预处理后的待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配，输出句向量对；结合相似度度量计算所述句向量对的相似度；根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。本申请解决了现有的文本匹配方法训练的模型稳定性不足问题，提升文本匹配的准确率和效率。本匹配的准确率和效率。本匹配的准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本匹配方法、装置、终端设备以及存储介质

[0001]本申请涉及自然语言处理
，尤其涉及一种文本匹配方法、装置、终端设备以及存储介质。

技术介绍

[0002]近几年BERT、RoBERTa等预训练模型已经在文本语义相似度任务(semantic textual similarity，STS)上被广泛使用。然而，BERT要求将句子对拼接到一起再传入模型中，这会导致巨大的计算开销。例如，在10000条句子中寻找最相似的两条，则在模型预测阶段将会需要大量的时间。这将导致许多涉及篇章向量的任务，如相似度计算、聚类等无从开展。目前，学习句向量的方案大致上可以分为无监督和有监督两大类，其中有监督句向量比较所主流的方案是Facebook提出的“InferSent”，后面提出的“Sentence
‑
BERT”进一步在BERT的基础上提出了一些改进。
[0003]但是，运用上述主流的有监督句向量比较方案，如InferSent、Sentence
‑
BERT等进行文本匹配依旧存在不少技术上的缺点和不足。不管是InferSent还是Sentence
‑
BERT，它们虽然有效，但存在训练和预测不一致的问题，如果直接优化预测目标cos值，预测效果往往特别差。现有的文本匹配方法训练的模型稳定性不足，致使文本匹配的准确率较差、效率较慢。
[0004]因此，有必要提出一种快速且高准确率的文本匹配方案。

技术实现思路

[0005]本申请的主要目的在于提供一种文本匹...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法，其特征在于，所述文本匹配方法包括：将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配，输出句向量对；结合相似度度量计算所述句向量对的相似度；根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。2.根据权利要求1所述的文本匹配方法，其特征在于，所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配，输出句向量对的步骤之前，还包括：对所述待匹配的文本数据对进行预处理，具体包括：将所述待匹配的文本数据对进行干扰与噪声的去除；将去除干扰和噪声后的所述待匹配的文本数据对进行数据增强，生成符合条件的待匹配的文本数据对。3.根据权利要求2所述的文本匹配方法，其特征在于，所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配，输出句向量对的步骤之前，还包括：基于预先采集的待训练的文本数据对训练所述文本匹配网络模型，其中，所述待训练的文本数据对为经过预处理后的符合条件的待训练的文本数据对，所述文本匹配网络模型采用孪生神经网络来构建。4.根据权利要求3所述的文本匹配方法，其特征在于，所述基于预先采集的待训练的文本数据对训练所述文本匹配网络模型的步骤包括：获取所述预先采集的待训练的文本数据对，其中，所述待训练的文本数据对包括第一待训练的文本数据和第二待训练的文本数据；将所述待训练的文本数据对进行分词，根据分词结果将所述第一待训练的文本数据和第二待训练的文本数据分别映射成第一ID和第二ID；通过第一编码器的输入层将所述第一ID处理成第一输出向量；通过所述第一编码器的池化层对所述第一输出向量进行平均池化操作，提取所述第一输出向量的第一局部特征；结合所述第一局部特征，通过所述第一编码器的所述池化层输出所述第一输出向量中包含的每个句子的第一句向量表示；通过第二编码器的输入层将所述第二ID处理成第二输出向量；通过所述第二编码器的池化层对所述第二输出向量进行平均池化操作，提取所述第二输出向量的第二局部特征；结合所述第二局部特征，通过所述第二编码器的所述池化层输出所述第二输出向量中包含的每个句子的第二句向量表示，其中，所述第一句向量表示和所述第二句向量表...

【专利技术属性】
技术研发人员：刘弘一，蒲珂宇，贺瑶函，杨一枭，李金龙，
申请(专利权)人：招商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人