文本匹配方法及装置、计算机可读存储介质、终端制造方法及图纸

技术编号:37233222 阅读:15 留言:0更新日期:2023-04-20 23:15
一种文本匹配方法及装置、计算机可读存储介质、终端,所述方法包括:获取待匹配文本,所述待匹配文本包括:第一文本和第二文本;构建多个句袋,其中,每个句袋包括所述语义相似的多个句子,所述多个句子来自所述第一文本和/或第二文本,且不同句袋表征的语义不同或者不相似;根据各个句袋的权重值对所述多个句袋各自的语义向量进行融合,得到聚合向量,其中,每个句袋的权重值用于表征该句袋和其他句袋之间的关联程度;根据所述聚合向量,计算所述第一文本和所述第二文本的匹配结果。通过本申请提供的方案,能够提高文本匹配的准确度。能够提高文本匹配的准确度。能够提高文本匹配的准确度。

【技术实现步骤摘要】
文本匹配方法及装置、计算机可读存储介质、终端


[0001]本申请涉及自然语言处理
,尤其涉及一种文本匹配方法及装置、计算机可读存储介质、终端。

技术介绍

[0002]随着人工智能技术的发展,自然语言处理(Nature Language Processing,NLP)技术在各个领域的应用愈加广泛,文本匹配技术应运而生。其中,文本匹配是用于衡量文本之间的相似性或关联性的技术。现有技术中,文本匹配的准确度仍然有待提高,尤其是当文本的长度较长时,匹配的准确度明显降低。
[0003]因此,亟需一种能够提高匹配准确度的文本匹配方法。

技术实现思路

[0004]本申请解决的技术问题是如何提高文本匹配的准确度。
[0005]为解决上述技术问题,本申请实施例提供一种文本匹配方法,所述方法包括:获取待匹配文本,所述待匹配文本包括:第一文本和第二文本;构建多个句袋,其中,每个句袋包括语义相似的多个句子,所述多个句子来自所述第一文本和/或第二文本,且不同句袋表征的语义不同或者不相似;根据各个句袋的权重值对所述多个句袋各自的语义向量进行融合,得到聚合向量,其中,每个句袋的权重值用于表征该句袋和其他句袋之间的关联程度;根据所述聚合向量,计算所述第一文本和所述第二文本的匹配结果。
[0006]可选的,构建多个句袋包括:对所述待匹配文本进行关键词提取,得到关键词集合,所述关键词集合包括多个关键词;构建每个关键词对应的句袋,其中,每个关键词对应的句袋包括:所述第一文本中包括该关键词的句子和所述第二文本中包括该关键词的句子。
[0007]可选的,构建每个关键词对应的句袋包括:在所述第一文本中包含所述关键词的句子均被添加至所述句袋之后,再向所述句袋添加所述第二文本中包含所述关键词的句子;或者,在所述第二文本中包含所述关键词的句子均被添加至所述句袋之后,再向所述句袋添加所述第一文本中包含所述关键词的句子。
[0008]可选的,根据各个句袋的权重值对所述多个句袋的语义向量进行融合之前,所述方法还包括:在每个句袋中添加指示标签,所述指示标签用于区分来自不同文本的句子。
[0009]可选的,每个句袋中属于同一个文本的多个句子在该句袋中的相对顺序与所述多个句子在所属文本中的相对顺序相同。
[0010]可选的,根据各个句袋的权重值对所述多个句袋各自的语义向量进行融合,得到聚合向量包括:计算各个句袋的语义向量;采用自注意力机制对所述多个句袋的语义向量进行计算,得到各个句袋的权重值;根据各个句袋的权重值,对所述多个句袋各自的语义向量进行融合,得到所述聚合向量。
[0011]可选的,所述聚合向量由预先训练得到的神经网络模型计算得到,所述神经网络
模型的训练方法包括:构建所述神经网络模型,所述神经网络模型包括:语义表示模块、聚合模块和分类模块;获取训练数据,所述训练数据包括多个样本句袋和匹配标签,其中,所述多个样本句袋是对样本文本进行构建得到的,所述样本文本包括第一样本文本和第二样本文本,所述匹配标签用于指示所述第一样本文本和第二样本文本是否匹配;采用所述训练数据对所述神经网络模型进行训练,直至所述神经网络模型收敛。
[0012]可选的,根据各个句袋的权重值,对所述多个句袋的语义向量进行融合包括:根据每个句袋对应的关键词的权重值,对该句袋的权重值进行更新,得到更新后的权重值;根据各个句袋更新后的权重值,对所述多个句袋各自的语义向量进行融合,得到所述聚合向量。
[0013]可选的,根据所述聚合向量,计算所述第一文本和所述第二文本的匹配结果包括:对所述聚合向量进行池化处理,得到待处理向量;将所述待处理向量输入至预先训练得到的分类器,得到所述匹配结果。
[0014]本申请实施例还提供一种文本匹配装置,所述装置包括:获取模块,用于获取待匹配文本,所述待匹配文本包括:第一文本和第二文本;获取模块,用于获取待匹配文本,所述待匹配文本包括:第一文本和第二文本;构建模块,用于构建多个句袋,其中,每个句袋包括语义相似的多个句子,所述多个句子来自所述第一文本和/或第二文本,且不同句袋表征的语义不同或者不相似;聚合模块,用于根据各个句袋的权重值对所述多个句袋各自的语义向量进行融合,得到聚合向量,其中,每个句袋的权重值用于表征该句袋和其他句袋之间的关联程度;匹配模块,用于根据所述聚合向量,计算所述第一文本和所述第二文本的匹配结果。
[0015]本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述的文本匹配方法的步骤。
[0016]本申请实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述的文本匹配方法的步骤。
[0017]与现有技术相比,本申请实施例的技术方案具有以下有益效果:
[0018]在本申请实施例的方案中,获取待匹配文本,待匹配文本包括:第一文本和第二文本;构建多个句袋,其中,每个句袋包括语义相似的多个句子,所述多个句子来自第一文本和/或第二文本,且不同句袋表征的语义不同或者不相似;根据各个句袋的权重值对所述多个句袋各自的语义向量进行融合,得到聚合向量,其中,每个句袋的权重值用于表征该句袋和其他句袋之间的关联程度;根据聚合向量,计算所述第一文本和所述第二文本的匹配结果。
[0019]相较于现有的文本匹配方法,本申请实施例的方案中,构建多个句袋,每个句袋包括语义相似的多个句子,每个句袋中的句子来自待匹配的第一文本和/或第二文本。通过构建句袋,使得第一文本和第二文本中语义相似的句子集合于同一个句袋,既可以过滤第一文本和第二文本中的冗余信息,又可以将长文本打散为易于模型学习和计算的短文本进行处理。进一步地,根据各个句袋的权重值对多个句袋的语义向量进行聚合,并根据聚合得到的聚合向量计算匹配结果。由于每个句袋的权重值用于表征该句袋和其他句袋之间的关联程度,因此根据权重值进行聚合可以在将打散的文本重新聚合的同时,使得聚合得到的聚合向量能够很好地表征第一文本和第二文本的语义信息,从而得到准确度较高的匹配结
果。
[0020]进一步,本申请实施例的方案中,对待匹配文本进行关键词提取,得到关键词集合,根据关键词集合包括的各个关键词构建多个句袋。采用这样的方案,将第一文本和第二文本聚集到各个关键词下进行表征,能够更加准确地构建句袋。
[0021]进一步,本申请实施例的方案中,在其中一个文本包含关键词的句子均被添加至句袋中之后,再添加另一个文本中包含关键词的句子。采用这样的方案,能够使多个句袋具有文本和文本之间的结构信息,从而使得后续多个句袋的语义向量能够携带有文本级别的结构信息,由此权重值也基于文本级别的结构信息计算得到,有利于提高文本匹配的准确度。
[0022]进一步,本申请实施例的方案中,每个句袋中属于同一个文本的多个句子在该句袋中的相对顺序与所述多个句子在所属文本中的相对顺序相同。采用这样的方案,能够使每个句袋能够具有每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括:获取待匹配文本,所述待匹配文本包括:第一文本和第二文本;构建多个句袋,其中,每个句袋包括语义相似的多个句子,所述多个句子来自所述第一文本和/或第二文本,且不同句袋表征的语义不同或者不相似;根据各个句袋的权重值对所述多个句袋各自的语义向量进行融合,得到聚合向量,其中,每个句袋的权重值用于表征该句袋和其他句袋之间的关联程度;根据所述聚合向量,计算所述第一文本和所述第二文本的匹配结果。2.根据权利要求1所述的文本匹配方法,其特征在于,构建多个句袋包括:对所述待匹配文本进行关键词提取,得到关键词集合,所述关键词集合包括多个关键词;构建每个关键词对应的句袋,其中,每个关键词对应的句袋包括:所述第一文本中包括该关键词的句子和所述第二文本中包括该关键词的句子。3.根据权利要求2所述的文本匹配方法,其特征在于,构建每个关键词对应的句袋包括:在所述第一文本中包含所述关键词的句子均被添加至所述句袋之后,再向所述句袋添加所述第二文本中包含所述关键词的句子;或者,在所述第二文本中包含所述关键词的句子均被添加至所述句袋之后,再向所述句袋添加所述第一文本中包含所述关键词的句子。4.根据权利要求1所述的文本匹配方法,其特征在于,根据各个句袋的权重值对所述多个句袋的语义向量进行融合之前,所述方法还包括:在每个句袋中添加指示标签,所述指示标签用于区分来自不同文本的句子。5.根据权利要求1所述的文本匹配方法,其特征在于,每个句袋中属于同一个文本的多个句子在该句袋中的相对顺序与所述多个句子在所属文本中的相对顺序相同。6.根据权利要求1所述的文本匹配方法,其特征在于,根据各个句袋的权重值对所述多个句袋各自的语义向量进行融合,得到聚合向量包括:计算各个句袋的语义向量;采用自注意力机制对所述多个句袋的语义向量进行计算,得到各个句袋的权重值;根据各个句袋的权重值,对所述多个句袋各自的语义向量进行融合,得到所述聚合向量。7.根据权利要求6所述的文本匹配方法,其特征在于,所述聚合向量由预先训练得到的神经网络模...

【专利技术属性】
技术研发人员:蔡华胡景熙
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1