文本匹配方法及装置制造方法及图纸

技术编号:39738885 阅读:8 留言:0更新日期:2023-12-17 23:40
本申请实施例提供一种文本匹配方法及装置,所述方法包括:获取句表征向量,并获取所述含有词级交互信息的表征向量;基于所述句表征向量和所述含有词级交互信息的表征向量,确定匹配特征向量;基于所述匹配特征向量,确定文本匹配结果

【技术实现步骤摘要】
文本匹配方法及装置


[0001]本申请涉及自然语言处理
,尤其涉及一种文本匹配方法及装置


技术介绍

[0002]自然语言处理中,文本匹配方法广泛应用于各个领域,如问答匹配,自然语言检索,文本蕴含识别,文本相似度计算等

其输入是两段不同的文本,模型输出需要判断两段文本是否满足某种匹配要求

[0003]传统的文本匹配通常使用词袋模型,
TF

IDF

Jaccard
距离等方法,比较两段文本中字符的区别

基于机器学习或深度学习的文本匹配模型通常使用预训练词向量和神经网络或预训练语言模型进行匹配,将文本中的文字向量化后,比较文本内容的差异

但此类方法因为仅考虑了两段文本匹配时的交互作用影响,从而使文本匹配的结果较差


技术实现思路

[0004]本申请实施例提供一种文本匹配方法及装置,用以解决相关技术中文本匹配的结果较差的技术问题

[0005]第一方面,本申请实施例提供一种文本匹配方法,包括:
[0006]获取第一文本的句表征向量和第二文本的句表征向量,并获取所述第一文本的含有词级交互信息的表征向量和所述第二文本的含有词级交互信息的表征向量;
[0007]基于所述第一文本的句表征向量和所述第一文本的含有词级交互信息的表征向量,确定第一匹配特征向量,并基于所述第二文本的句表征向量和所述第二文本的含有词级交互信息的表征向量,确定第二匹配特征向量;
[0008]基于所述第一匹配特征向量和所述第二匹配特征向量,确定文本匹配结果

[0009]在一些实施例中,所述获取第一文本的句表征向量和第二文本的句表征向量,包括:
[0010]获取所述第一文本的三层表征向量列表和所述第二文本的三层表征向量列表,所述表征向量列表中包括词表征向量;
[0011]基于每层的词表征向量,确定每层的句表征向量;
[0012]基于每层的句表征向量,获取第一文本的句表征向量和第二文本的句表征向量

[0013]在一些实施例中,获取所述第一文本的三层表征向量列表和所述第二文本的三层表征向量列表,包括:
[0014]拼接所述第一文本和所述第二文本得到第三文本;
[0015]将所述第三文本中的词映射至词
id
列表,获取所述第一文本的三层表征向量列表和所述第二文本的三层表征向量列表

[0016]在一些实施例中,所述获取所述第一文本的含有词级交互信息的表征向量和所述第二文本的含有词级交互信息的表征向量,包括:
[0017]基于所述第一文本的表征向量列表和所述第二文本的表征向量列表,确定所述第
一文本相对于所述第二文本的表征向量列表和所述第二文本相对于所述第一文本的表征向量列表;
[0018]将所述第一文本相对于所述第二文本的表征向量列表进行加权求和,得到所述第一文本的含有词级交互信息的表征向量;将所述第二文本相对于所述第一文本的表征向量列表进行加权求和,得到所述第二文本的含有词级交互信息的表征向量

[0019]在一些实施例中,所述基于所述第一文本的表征向量列表和所述第二文本的表征向量列表,确定所述第一文本相对于所述第二文本的表征向量列表和所述第二文本相对于所述第一文本的表征向量列表,包括:
[0020]按词遍历所述第一文本的表征向量列表和所述第二文本的表征向量列表,确定词级别相似度矩阵;
[0021]基于所述词级别相似度矩阵,确定所述第一文本相对于所述第二文本的表征向量列表和所述第二文本相对于所述第一文本的表征向量列表

[0022]在一些实施例中,所述基于所述第一文本的句表征向量和所述第一文本的含有词级交互信息的表征向量,确定第一匹配特征向量,包括:
[0023]基于所述第一文本的句表征向量和所述第一文本的含有词级交互信息的表征向量,确定第一交互特征向量;
[0024]拼接所述第一交互特征向量

所述第一文本的句表征向量和所述第一文本的含有词级交互信息的表征向量,确定所述第一匹配特征向量

[0025]在一些实施例中,所述基于所述第二文本的句表征向量和所述第二文本的含有词级交互信息的表征向量,确定第二匹配特征向量,包括:
[0026]基于所述第二文本的句表征向量和所述第二文本的含有词级交互信息的表征向量,确定第二交互特征向量;
[0027]拼接所述第二交互特征向量

所述第二文本的句表征向量和所述第二文本的含有词级交互信息的表征向量,确定所述第二匹配特征向量

[0028]在一些实施例中,所述基于所述第一匹配特征向量和所述第二匹配特征向量,确定文本匹配结果,包括:
[0029]拼接所述第一匹配特征向量和所述第二匹配特征向量,确定融合特征向量;
[0030]基于所述融合特征向量,确定所述文本匹配结果

[0031]第二方面,本申请实施例还提供一种文本匹配装置,包括:
[0032]第一获取模块,用于获取第一文本的句表征向量和第二文本的句表征向量,并获取所述第一文本的含有词级交互信息的表征向量和所述第二文本的含有词级交互信息的表征向量;
[0033]第一确定模块,用于基于所述第一文本的句表征向量和所述第一文本的含有词级交互信息的表征向量,确定第一匹配特征向量,并基于所述第二文本的句表征向量和所述第二文本的含有词级交互信息的表征向量,确定第二匹配特征向量;
[0034]第二确定模块,用于基于所述第一匹配特征向量和所述第二匹配特征向量,确定文本匹配结果

[0035]在一些实施例中,所述第一获取模块包括第一获取子模块,第一确定子模块,第二获取子模块,其中:
[0036]所述第一获取子模块用于获取所述第一文本的三层表征向量列表和所述第二文本的三层表征向量列表,所述表征向量列表中包括词表征向量;
[0037]所述第一确定子模块用于基于每层的词表征向量,确定每层的句表征向量;
[0038]所述第二获取子模块用于基于每层的句表征向量,获取第一文本的句表征向量和第二文本的句表征向量

[0039]在一些实施例中,获取第一获取子模块包括第一处理单元,第一获取单元,其中:
[0040]所述第一处理单元用于拼接所述第一文本和所述第二文本得到第三文本;
[0041]所述第一获取单元用于将所述第三文本中的词映射至词
id
列表,获取所述第一文本的三层表征向量列表和所述第二文本的三层表征向量列表

[0042]在一些实施例中,所述第一获取模块还包括第二确定子模块,第一处理子模块,其中:
[0043]所述第二确定子模块用于基于所述第一文本的表征向量列表和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本匹配方法,其特征在于,包括:获取第一文本的句表征向量和第二文本的句表征向量,并获取所述第一文本的含有词级交互信息的表征向量和所述第二文本的含有词级交互信息的表征向量;基于所述第一文本的句表征向量和所述第一文本的含有词级交互信息的表征向量,确定第一匹配特征向量,并基于所述第二文本的句表征向量和所述第二文本的含有词级交互信息的表征向量,确定第二匹配特征向量;基于所述第一匹配特征向量和所述第二匹配特征向量,确定文本匹配结果
。2.
根据权利要求1所述的文本匹配方法,其特征在于,所述获取第一文本的句表征向量和第二文本的句表征向量,包括:获取所述第一文本的三层表征向量列表和所述第二文本的三层表征向量列表,所述表征向量列表中包括词表征向量;基于每层的词表征向量,确定每层的句表征向量;基于每层的句表征向量,获取第一文本的句表征向量和第二文本的句表征向量
。3.
根据权利要求2所述的文本匹配方法,其特征在于,获取所述第一文本的三层表征向量列表和所述第二文本的三层表征向量列表,包括:拼接所述第一文本和所述第二文本得到第三文本;将所述第三文本中的词映射至词
id
列表,获取所述第一文本的三层表征向量列表和所述第二文本的三层表征向量列表
。4.
根据权利要求1所述的文本匹配方法,其特征在于,所述获取所述第一文本的含有词级交互信息的表征向量和所述第二文本的含有词级交互信息的表征向量,包括:基于所述第一文本的表征向量列表和所述第二文本的表征向量列表,确定所述第一文本相对于所述第二文本的表征向量列表和所述第二文本相对于所述第一文本的表征向量列表;将所述第一文本相对于所述第二文本的表征向量列表进行加权求和,得到所述第一文本的含有词级交互信息的表征向量;将所述第二文本相对于所述第一文本的表征向量列表进行加权求和,得到所述第二文本的含有词级交互信息的表征向量
。5.
根据权利要求4所述的文本匹配方法,其特征在于,所述基于所述第一文本的表征向量列表和所述第二文本的表征向量列表,确定所述第一文本相对于所述第二文本的表征向量列表和所述第二文本相对于所述第一文本的表征向量列表,包括:按词遍历所述第一文本的表征向量列表和所述第二文本的表征向量列表,确定词级别相似度矩阵;基于所述...

【专利技术属性】
技术研发人员:闫泽禹
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1