长文本匹配方法及装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：31906586 阅读：25 留言：0更新日期：2022-01-15 12:45

本发明专利技术提供了一种长文本匹配方法及装置、电子设备及计算机可读存储介质，涉及数据处理技术领域，在进行目标长文本和待匹配问题的匹配时，先将目标长文本划分为多个子文本段，并获取每个子文本段对应的句向量和字向量，以及待匹配问题对应的句向量和字向量；然后根据各个子文本段对应的句向量和待匹配问题对应的句向量，确定每个子文本段对应的序列权重和与待匹配问题之间的相关性权重，进而确定目标长文本与待匹配问题的匹配结果。这样通过引入序列权重和相关性权重，充分考虑了目标长文本的各种文本信息，因此解决了现有的长文本匹配算法存在因信息丢失而造成的匹配结果不准确的问题，提高了匹配结果的准确度。提高了匹配结果的准确度。提高了匹配结果的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
长文本匹配方法及装置、电子设备及计算机可读存储介质

[0001]本专利技术涉及数据处理
，尤其是涉及一种长文本匹配方法及装置、电子设备及计算机可读存储介质。

技术介绍

[0002]文本匹配是自然语言处理的基础任务之一，在许多NLP(Natural Language Processing，自然语言处理)任务，都可以适用文本匹配的思路去解决，比如：文本检索、语义识别、语言推理以及问答匹配等。文本匹配的任务目标是：给定一个问题query和文本document，给出二者之间的匹配度，判断二者的匹配关系。按照query和document的长度，可以将文本匹配任务分为长文本匹配和短文本匹配。一般情况下，在具体任务中query的长度不会过长，所以长文本匹配在实际任务中多指document较长的情况。
[0003]现有的文本匹配任务大多指短文本匹配，因此关于短文本匹配的技术相对来说已经较为成熟，比如：表示型文本匹配算法、交互型文本匹配算法、基于预训练模型的文本匹配。预训练模型强大的编码能力，可以大大提高文本匹配的效果，因此目前预训练模型的文本匹配算法应用最为广泛。
[0004]将预训练模型应用于长文本匹配时，通常的方法包括：
[0005]1.对长文本直接进行截断，采取头部阶段，或者尾部截断，或者中间截断的方式，转为短文本匹配。
[0006]2.对长文本进行关键词或者关键句的抽取，获取关键词或者关键句组成的文本，转为短文本匹配。
[0007]3.将长文本划分为多个子文本段分别做短文本匹配，...

【技术保护点】

【技术特征摘要】
1.一种长文本匹配方法，其特征在于，包括：获取目标长文本和待匹配问题；将所述目标长文本划分为多个子文本段；获取每个所述子文本段对应的句向量和字向量，以及所述待匹配问题对应的句向量和字向量；根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量，确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重；根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重，以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量，确定所述目标长文本与所述待匹配问题的匹配结果。2.根据权利要求1所述的长文本匹配方法，其特征在于，所述获取每个所述子文本段对应的句向量和字向量，以及所述待匹配问题对应的句向量和字向量的步骤，包括：将多个所述子文本段和所述待匹配问题输入至预训练的编码模型，得到所述编码模型输出的每个所述子文本段对应的句向量和字向量，以及所述待匹配问题对应的句向量和字向量；所述编码模型包括BERT模型、ERNIE模型或RoBERTa模型。3.根据权利要求1所述的长文本匹配方法，其特征在于，所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量，确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤，包括：按照各个所述子文本段的前后顺序，对各个所述子文本段对应的句向量进行拼接，得到拼接向量；将所述拼接向量输入到BiLSTM网络，得到每个所述子文本段的上下文序列信息；通过线性层和softmax函数，将每个所述子文本段的上下文序列信息转换为每个所述子文本段对应的序列权重。4.根据权利要求1所述的长文本匹配方法，其特征在于，所述根据各个所述子文本段对应的句向量和所述待匹配问题对应的句向量，确定每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重的步骤，还包括：分别计算每个所述子文本段对应的句向量与所述待匹配问题对应的句向量的内积，得到每个所述子文本段对应的内积值；对各个所述子文本段对应的内积值进行归一化处理，得到每个所述子文本段对应的与所述待匹配问题之间的相关性权重。5.根据权利要求1所述的长文本匹配方法，其特征在于，所述根据每个所述子文本段对应的序列权重和与所述待匹配问题之间的相关性权重，以及每个所述子文本段对应的字向量和所述待匹配问题对应的字向量，确定所述目标长文本与所述待匹配问题的匹配结果的步骤，包括：根据每个所述子文本段对应的字向量和所述待匹配问题对应的字向量，计算得到每个所述子文本段对应的子增强向量和所述待匹配问题对应的对应于每个所述子文本段的子增强向量；根据各个所述子文本段对应的序列权重，对各个所述子文本段对应的子增强向量进行拼接，得到所述目标长文本对应的第一特...

【专利技术属性】
技术研发人员：王博，薛小娜，
申请(专利权)人：秒针信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人