长文本匹配方法及装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:31906586 阅读:25 留言:0更新日期:2022-01-15 12:45
本发明专利技术提供了一种长文本匹配方法及装置、电子设备及计算机可读存储介质,涉及数据处理技术领域,在进行目标长文本和待匹配问题的匹配时,先将目标长文本划分为多个子文本段,并获取每个子文本段对应的句向量和字向量,以及待匹配问题对应的句向量和字向量;然后根据各个子文本段对应的句向量和待匹配问题对应的句向量,确定每个子文本段对应的序列权重和与待匹配问题之间的相关性权重,进而确定目标长文本与待匹配问题的匹配结果。这样通过引入序列权重和相关性权重,充分考虑了目标长文本的各种文本信息,因此解决了现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题,提高了匹配结果的准确度。提高了匹配结果的准确度。提高了匹配结果的准确度。

【技术实现步骤摘要】
长文本匹配方法及装置、电子设备及计算机可读存储介质


[0001]本专利技术涉及数据处理
,尤其是涉及一种长文本匹配方法及装置、电子设备及计算机可读存储介质。

技术介绍

[0002]文本匹配是自然语言处理的基础任务之一,在许多NLP(Natural Language Processing,自然语言处理)任务,都可以适用文本匹配的思路去解决,比如:文本检索、语义识别、语言推理以及问答匹配等。文本匹配的任务目标是:给定一个问题query和文本document,给出二者之间的匹配度,判断二者的匹配关系。按照query和document的长度,可以将文本匹配任务分为长文本匹配和短文本匹配。一般情况下,在具体任务中query的长度不会过长,所以长文本匹配在实际任务中多指document较长的情况。
[0003]现有的文本匹配任务大多指短文本匹配,因此关于短文本匹配的技术相对来说已经较为成熟,比如:表示型文本匹配算法、交互型文本匹配算法、基于预训练模型的文本匹配。预训练模型强大的编码能力,可以大大提高文本匹配的效果,因此目前预训练模型的文本匹配算法应用最为广泛。
[0004]将预训练模型应用于长文本匹配时,通常的方法包括:
[0005]1.对长文本直接进行截断,采取头部阶段,或者尾部截断,或者中间截断的方式,转为短文本匹配。
[0006]2.对长文本进行关键词或者关键句的抽取,获取关键词或者关键句组成的文本,转为短文本匹配。
[0007]3.将长文本划分为多个子文本段分别做短文本匹配,选择匹配度最高的作为匹配分数,判断匹配关系。
[0008]从上述基于预训练模型的长文本匹配算法可以看出,进行长文本匹配的基本思路均是将长文本转为技术相对成熟的短文本匹配,不同点在于如何将长文本转为短文本。直接截断、关键词句的抽取都会造成信息的丢失;而将长文本划分为多个子文本段,使用子文本段分别进行文本匹配,选择最高匹配度作为匹配分数,仍然存在信息丢失的问题。因此现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题。

技术实现思路

[0009]本专利技术的目的在于提供一种长文本匹配方法及装置、电子设备及计算机可读存储介质,以提高匹配结果的准确度。
[0010]第一方面,本专利技术实施例提供了一种长文本匹配方法,包括:
[0011]获取目标长文本和待匹配问题;
[0012]将所述目标长文本划分为多个子文本段;
[0013]获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;
[0014]根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重;
[0015]根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果。
[0016]进一步地,所述获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量的步骤,包括:
[0017]将多个所述子文本段和所述待匹配问题输入至预训练的编码模型,得到所述编码模型输出的每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;所述编码模型包括BERT模型、ERNIE模型或RoBERTa模型。
[0018]进一步地,所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤,包括:
[0019]按照各个所述子文本段的前后顺序,对各个所述子文本段对应的句向量进行拼接,得到拼接向量;
[0020]将所述拼接向量输入到BiLSTM网络,得到每个所述子文本段的上下文序列信息;
[0021]通过线性层和softmax函数,将每个所述子文本段的上下文序列信息转换为每个所述子文本段对应的序列权重。
[0022]进一步地,所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤,还包括:
[0023]分别计算每个所述子文本段对应的句向量与所述待匹配问题对应的句向量的内积,得到每个所述子文本段对应的内积值;
[0024]对各个所述子文本段对应的内积值进行归一化处理,得到每个所述子文本段对应的与所述待匹配问题之间的相关性权重。
[0025]进一步地,所述根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果的步骤,包括:
[0026]根据每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到每个所述子文本段对应的子增强向量和所述待匹配问题对应的对应于每个所述子文本段的子增强向量;
[0027]根据各个所述子文本段对应的序列权重,对各个所述子文本段对应的子增强向量进行拼接,得到所述目标长文本对应的第一特征向量;
[0028]根据各个所述子文本段对应的相关性权重,对所述待匹配问题对应的对应于各个所述子文本段的子增强向量进行合并,得到所述待匹配问题对应的第二特征向量;
[0029]对所述第一特征向量和所述第二特征向量进行匹配,得到所述目标长文本与所述待匹配问题的匹配结果。
[0030]进一步地,所述根据每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到每个所述子文本段对应的子增强向量和所述待匹配问题对应的对应于每个
所述子文本段的子增强向量的步骤,包括:
[0031]对于每个所述子文本段,根据该子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到该子文本段与所述待匹配问题之间的相似度矩阵;
[0032]根据所述相似度矩阵和所述待匹配问题对应的字向量,计算得到该子文本段对应的子增强向量;
[0033]根据所述相似度矩阵和该子文本段对应的字向量,计算得到所述待匹配问题对应的对应于该子文本段的子增强向量。
[0034]进一步地,所述方法还包括:
[0035]获取训练样本,所述训练样本包括长文本样本、问题样本和匹配标签;
[0036]将所述长文本样本划分为多个子样本段;
[0037]将多个所述子样本段和所述问题样本输入至待训练的编码网络,得到样本匹配数据,所述样本匹配数据包括每个所述子样本段对应的句向量和字向量,以及所述问题样本对应的句向量和字向量;
[0038]根据所述样本匹配数据,确定所述长文本样本与所述问题样本的预测匹配结果;
[0039]根据所述预测匹配结果和所述匹配标签调整所述编码网络的网络参数,以得到训练后的编码模型。
[0040]第二方面,本专利技术实施例还提供了一种长文本匹配装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本匹配方法,其特征在于,包括:获取目标长文本和待匹配问题;将所述目标长文本划分为多个子文本段;获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重;根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果。2.根据权利要求1所述的长文本匹配方法,其特征在于,所述获取每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量的步骤,包括:将多个所述子文本段和所述待匹配问题输入至预训练的编码模型,得到所述编码模型输出的每个所述子文本段对应的句向量和字向量,以及所述待匹配问题对应的句向量和字向量;所述编码模型包括BERT模型、ERNIE模型或RoBERTa模型。3.根据权利要求1所述的长文本匹配方法,其特征在于,所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤,包括:按照各个所述子文本段的前后顺序,对各个所述子文本段对应的句向量进行拼接,得到拼接向量;将所述拼接向量输入到BiLSTM网络,得到每个所述子文本段的上下文序列信息;通过线性层和softmax函数,将每个所述子文本段的上下文序列信息转换为每个所述子文本段对应的序列权重。4.根据权利要求1所述的长文本匹配方法,其特征在于,所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量,确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤,还包括:分别计算每个所述子文本段对应的句向量与所述待匹配问题对应的句向量的内积,得到每个所述子文本段对应的内积值;对各个所述子文本段对应的内积值进行归一化处理,得到每个所述子文本段对应的与所述待匹配问题之间的相关性权重。5.根据权利要求1所述的长文本匹配方法,其特征在于,所述根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重,以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,确定所述目标长文本与所述待匹配问题的匹配结果的步骤,包括:根据每个所述子文本段对应的字向量和所述待匹配问题对应的字向量,计算得到每个所述子文本段对应的子增强向量和所述待匹配问题对应的对应于每个所述子文本段的子增强向量;根据各个所述子文本段对应的序列权重,对各个所述子文本段对应的子增强向量进行拼接,得到所述目标长文本对应的第一特...

【专利技术属性】
技术研发人员:王博薛小娜
申请(专利权)人:秒针信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1