一种文本匹配方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35096029 阅读:17 留言:0更新日期:2022-10-01 16:59
本申请涉及自然语言处理技术领域,尤其涉及一种文本匹配方法、装置、电子设备及存储介质,能够应用于文本匹配的场景中,确定待匹配文本对应的第一关键词特征和第一非关键词特征,以及确定候选文本对应的第二关键词特征和第二非关键词特征,同时,确定待匹配文本对应的第一匹配特征和候选文本对应的第二匹配特征,基于第一关键词特征、第一非关键词特征、第二关键词特征、第二非关键词特征、第一匹配特征和第二匹配特征,确定待匹配文本与候选文本之间的文本匹配结果,这样,通过待匹配文本和候选文本的关键词特征和非关键词特征,将注意力集中于关键词特征中,避免因注意力机制放置错误而导致匹配错误的情况发生,能够提高文本匹配的准确度。匹配的准确度。匹配的准确度。

【技术实现步骤摘要】
一种文本匹配方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本匹配方法、装置、电子设备及存储介质。

技术介绍

[0002]随着自然语言处理技术的发展,文本匹配的应用范围也越来越广泛,例如,文本匹配可以应用于释义识别、答案选择等。
[0003]相关技术中,在进行文本匹配时,通常可以将待匹配文本和候选文本输入至已训练的文本匹配模型中,确定待匹配文本与候选文本之间匹配的各个词语对应的词语相似度,并通过注意力机制,结合确定出的各词语相似度,获得待匹配文本与候选文本之间的文本匹配结果。
[0004]然而,相关技术中,由于通常会将注意力机制集中于常见词性的词语上,如,名词、动词等,因此,在文本匹配的过程中,假设待匹配文本与候选文本之间为相关文本,且在候选文本中,未存在与待匹配文本中相似的常见词性的词语,若将注意力机制集中于待匹配文本中常见词性的词语,则会因为注意力机制的错误放置,导致文本匹配模型输出待匹配文本与候选文本无关的错误匹配结果。
[0005]例如,假设待匹配文本为“A land rover is being driven across a river”,候选文本为“A land rover is splashing water as it crosses a river”,通过文本匹配模型能够识别出待匹配文本中的“across a river”与候选文本中的“as it crosses a river”为匹配关系,但是若文本匹配模型将注意力机制集中于待匹配文本中的“being driven”上,则文本匹配模型在候选文本中找不到相似的词语,从而会给出待匹配文本和候选文本无关的错误匹配结果。
[0006]因此,相关技术中的这种文本匹配方式准确度不高。

技术实现思路

[0007]本申请实施例提供一种文本匹配方法、装置、电子设备及存储介质,以提高文本匹配的准确度。
[0008]本申请实施例提供的具体技术方案如下:
[0009]一方面,本申请实施例提供一种文本匹配方法,包括:
[0010]基于待匹配文本包含的各待匹配词各自在至少一个词维度对应的第一词维度特征,确定所述待匹配文本对应的第一关键词特征和第一非关键词特征;
[0011]基于候选文本包含的各候选词各自在所述至少一个词维度对应的第二词维度特征,确定所述候选文本对应的第二关键词特征和第二非关键词特征;
[0012]以所述各候选词为基准,对所述各待匹配词进行交互匹配,获得所述待匹配文本对应的第一匹配特征,以及,以所述各待匹配词为基准,对所述各候选词进行交互匹配,获得所述待匹配文本对应的第二匹配特征;
[0013]基于所述第一关键词特征、所述第一非关键词特征、所述第二关键词特征、所述第二非关键词特征、所述第一匹配特征和所述第二匹配特征,确定所述待匹配文本与所述候选文本之间的文本匹配结果。
[0014]一方面,本申请实施例提供一种文本匹配装置,包括:
[0015]第一提取模块,用于基于待匹配文本包含的各待匹配词各自在至少一个词维度对应的第一词维度特征,确定所述待匹配文本对应的第一关键词特征和第一非关键词特征;
[0016]第二提取模块,用于基于候选文本包含的各候选词各自在所述至少一个词维度对应的第二词维度特征,确定所述候选文本对应的第二关键词特征和第二非关键词特征;
[0017]第三提取模块,用于以所述各候选词为基准,对所述各待匹配词进行交互匹配,获得所述待匹配文本对应的第一匹配特征,以及,以所述各待匹配词为基准,对所述各候选词进行交互匹配,获得所述待匹配文本对应的第二匹配特征;
[0018]匹配模块,用于基于所述第一关键词特征、所述第一非关键词特征、所述第二关键词特征、所述第二非关键词特征、所述第一匹配特征和所述第二匹配特征,确定所述待匹配文本与所述候选文本之间的文本匹配结果。
[0019]可选的,获得所述第一关键词特征、第一非关键词特征、第二关键词特征和第二非关键词特征时,所述第一提取模块和第二提取模块还用于:
[0020]确定各文本包含的各词语各自对应的词特征;
[0021]分别针对所述各词语执行以下操作:基于一个词语的词特征,确定所述一个词语在至少一个词维度对应的词维度特征,基于获得的至少一个维度特征,以及所述至少一个词维度对应的维度权重,确定所述一个词语的词语融合特征;
[0022]根据获得的各词语融合特征,分别确定所述各文本各自对应的关键词特征和非关键词特征;
[0023]其中,当所述一个文本为待匹配文本时,所述词特征为待匹配词特征,所述关键词特征为第一关键词特征,所述非关键词特征为第二非关键词特征,当所述一个文本为候选文本时,所述词特征为候选词特征,所述关键词特征为第二关键词特征,所述非关键词特征为第二非关键词特征。
[0024]可选的,基于一个词语的词特征,确定所述一个词语在至少一个词维度对应的词维度特征时,所述第一提取模块和第二提取模块还用于:
[0025]将一个词语的词特征对应的维度数目,降低至标准数目,获得降维后的词特征;
[0026]分别针对至少一个词维度,执行以下操作:采用一个词维度对应的卷积处理方式,对所述降维后的词特征进行卷积处理,获得所述一个词语在所述一个词维度对应的词维度特征。
[0027]可选的,所述匹配模块还用于:
[0028]将所述第一关键词特征、所述第一非关键词特征和所述第一匹配特征进行特征拼接,获得所述待匹配文本对应的第一文本特征;
[0029]将所述第二关键词特征、所述第二非关键词特征和所述第二匹配特征进行特征拼接,获得所述候选文本对应的第二文本特征;
[0030]基于所述第一文本特征、所述第二文本特征和预设的关键词权重集合,确定所述待匹配文本与所述候选文本之间的文本匹配结果。
[0031]可选的,基于所述第一文本特征、所述第二文本特征和预设的关键词权重集合,确定所述待匹配文本与所述候选文本之间的文本匹配结果时,所述匹配模块还用于:
[0032]对所述第一文本特征、所述第二文本特征、预设的关键词权重集合、所述第一文本特征与所述第二文本特征之间的第一特征差进行特征融合,获得所述待匹配文本的待匹配融合特征;
[0033]对所述第一文本特征、所述第二文本特征、所述关键词权重集合、所述第二文本特征与所述第一文本特征之间的第二特征差进行特征融合,获得所述候选文本的候选融合特征;
[0034]基于所述待匹配融合特征和所述候选融合特征,确定所述待匹配文本与所述候选文本之间的文本匹配结果。
[0035]可选的,获得所述待匹配文本的待匹配融合特征时,所述匹配模块还用于:
[0036]基于第一激活函数、所述第一激活函数对应的第一权重矩阵、所述第一文本特征、所述第二文本特征和所述第一特征差,确定第一初始待匹配特征;
[0037]分别针对第二激活函数对应的至少一个第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:基于待匹配文本包含的各待匹配词各自在至少一个词维度对应的第一词维度特征,确定所述待匹配文本对应的第一关键词特征和第一非关键词特征;基于候选文本包含的各候选词各自在所述至少一个词维度对应的第二词维度特征,确定所述候选文本对应的第二关键词特征和第二非关键词特征;以所述各候选词为基准,对所述各待匹配词进行交互匹配,获得所述待匹配文本对应的第一匹配特征,以及,以所述各待匹配词为基准,对所述各候选词进行交互匹配,获得所述待匹配文本对应的第二匹配特征;基于所述第一关键词特征、所述第一非关键词特征、所述第二关键词特征、所述第二非关键词特征、所述第一匹配特征和所述第二匹配特征,确定所述待匹配文本与所述候选文本之间的文本匹配结果。2.如权利要求1所述的方法,其特征在于,所述第一关键词特征、第一非关键词特征、第二关键词特征和第二非关键词特征,是采用以下方式获得的:确定各文本包含的各词语各自对应的词特征;分别针对所述各词语执行以下操作:基于一个词语的词特征,确定所述一个词语在至少一个词维度对应的词维度特征,基于获得的至少一个维度特征,以及所述至少一个词维度对应的维度权重,确定所述一个词语的词语融合特征;根据获得的各词语融合特征,分别确定所述各文本各自对应的关键词特征和非关键词特征;其中,当所述一个文本为待匹配文本时,所述词特征为待匹配词特征,所述关键词特征为第一关键词特征,所述非关键词特征为第二非关键词特征,当所述一个文本为候选文本时,所述词特征为候选词特征,所述关键词特征为第二关键词特征,所述非关键词特征为第二非关键词特征。3.如权利要求2所述的方法,其特征在于,基于一个词语的词特征,确定所述一个词语在至少一个词维度对应的词维度特征,包括:将一个词语的词特征对应的维度数目,降低至标准数目,获得降维后的词特征;分别针对至少一个词维度,执行以下操作:采用一个词维度对应的卷积处理方式,对所述降维后的词特征进行卷积处理,获得所述一个词语在所述一个词维度对应的词维度特征。4.如权利要求1

3任一项所述的方法,其特征在于,基于所述第一关键词特征、所述第二非关键词特征、所述第二关键词特征、所述第二非关键词特征、所述第一匹配特征和所述第二匹配特征,确定所述待匹配文本与所述候选文本之间的文本匹配结果,包括:将所述第一关键词特征、所述第一非关键词特征和所述第一匹配特征进行特征拼接,获得所述待匹配文本对应的第一文本特征;将所述第二关键词特征、所述第二非关键词特征和所述第二匹配特征进行特征拼接,获得所述候选文本对应的第二文本特征;基于所述第一文本特征、所述第二文本特征和预设的关键词权重集合,确定所述待匹配文本与所述候选文本之间的文本匹配结果。5.如权利要求4所述的方法,其特征在于,基于所述第一文本特征、所述第二文本特征
和预设的关键词权重集合,确定所述待匹配文本与所述候选文本之间的文本匹配结果,包括:对所述第一文本特征、所述第二文本特征、预设的关键词权重集合、所述第一文本特征与所述第二文本特征之间的第一特征差进行特征融合,获得所述待匹配文本的待匹配融合特征;对所述第一文本特征、所述第二文本特征、所述关键词权重集合、所述第二文本特征与所述第一文本特征之间的第二特征差进行特征融合,获得所述候选文本的候选融合特征;基于所述待匹配融合特征和所述候选融合特征,确定所述待匹配文本与所述候选文本之间的文本匹配结果。6.如权利要求5所述的方法,其特征在于,所述待匹配文本的待匹配融合特征是采用以下方式获得的:基于第一激活函数、所述第一激活函数对应的第一权重矩阵、所述第一文本特征、所述第二文本特征和所述第一特征差,确定第一初始待匹配特征;分别针对第二激活函数对应的至少一个第二权重矩阵执行以下操作:基于所述第二激活函数、一个第二权重矩阵、所述第一文本特征、所述第二文本特征和所述第一特征差,确定第二初始待匹配特征;基于所述第一初始待匹配特征、确定出的至少一个第二初始待匹配特征和所述第一文本特征,确定所述待匹配文本对应的待匹配融合特征。7.如权利要求6所述的方法,其特征在于,所述候选文本的候选融合特征是采用以下方式获得的:基于所述第一激活函数、所述第一权重矩阵、所述第一文本特征、第二文本特征和所述第二特征差,获得第一初始候选特征;分别针对所述至少一个第二权重矩阵执行以下操作:基于所述第二激活函数、...

【专利技术属性】
技术研发人员:毛铁峥
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1