【技术实现步骤摘要】
文本匹配方法、装置、计算机设备及可读存储介质
本申请涉及自然语言处理
,尤其涉及一种文本匹配方法、装置、计算机设备及可读存储介质。
技术介绍
文本匹配是自然语言处理领域一个重要的基础领域,大量的NLP任务都是以文本匹配为出发点,例如信息检索、机器翻译、问答系统等等,其本质就是文本匹配问题。在传统的文本匹配算法中,基于统计学词频的TF-IDF方法以原理简单易理解、实现程度高而被广泛应用,其主要原理是在给定一个语料库,通过对比句子中各个单词出现的频率与语料库中各单词出现频率进行比对,来衡量一个词语在文本中的重要程度,由此提取出文本的若干关键词,形成一个集合,再将向量化后的词集计算相似性。然而这种方法存在局限性,受语料库影响较大,忽略了词与词之间的交互性,当面对强干扰文本数据时匹配效果就很不理想,例如词汇完全重合但表达的意思不同的“机器学习””和“学习机器”,传统的TF-IDF方法就难以应对,精确性较低。
技术实现思路
本申请的主要目的在于提供一种文本匹配方法、装置、计算机设备及可读存储介质,旨在 ...
【技术保护点】
1.一种文本匹配方法,其特征在于,所述方法包括以下步骤:/n获取目标文本以及与所述目标文本对应的待匹配文本集;/n通过训练好的双向注意力神经网络BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;/n分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;/n根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;/n根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。/n
【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括以下步骤:
获取目标文本以及与所述目标文本对应的待匹配文本集;
通过训练好的双向注意力神经网络BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;
分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;
根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;
根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。
2.根据权利要求1所述的文本匹配方法,其特征在于,所述通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量,包括:
将所述目标文本以及所述待匹配文本集中的各个待匹配文本分别输入至训练好的BERT模型中进行嵌入操作,得到所述目标文本对应的第一句嵌入向量以及各个所述待匹配文本对应的第二句嵌入向量;
将所述第一句嵌入向量以及各个所述第二句嵌入向量分别输入至所述训练好的BERT模型的Transformer中进行编码操作和解码操作,得到所述目标文本对应的第一句向量以及所述各个所述待匹配文本对应的第二句向量。
3.根据权利要求1所述的文本匹配方法,其特征在于,所述分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量,包括:
分别对所述第一句向量以及各个所述第二句向量进行低通滤波处理,得到降噪第一句向量以及各个降噪第二句向量。
4.根据权利要求1所述的文本匹配方法,其特征在于,所述根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度,包括:
分别计算各个所述降噪第二句向量与所述降噪第一句向量之间的相似性;
根据各个所述相似性确定各个所述待匹配文本与所述目标文本的匹配程度。
5.根据权利要求1所述的文本匹配方法,其特征在于,所述根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本,包括:
将各个所述匹配程度进行排序;
将所述待匹配文本集中最高匹配程度对应的待匹配文本作为所述目标文本的目标匹配文本。
6.根据权利要求2所述的文本匹配方法,其特征在于,所述将所...
【专利技术属性】
技术研发人员:肖京,赵盟盟,王磊,杨怡,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。