文本阅读理解方法、装置、设备及存储介质制造方法及图纸

技术编号：39289845 阅读：7 留言：0更新日期：2023-11-07 10:59

本申请提供一种文本阅读理解方法、装置、设备及存储介质，可应用于人工智能、在线问答等场景。该方法包括：获取待阅读的文本和待回答的问题，并提取该文本所包括的N个段落的向量表示和该问题的向量表示；基于这N个段落的向量表示和该问题的向量表示，从这N个段落中选出与该问题相似度最高的K个段落；将这K个段落作为该问题的上下文信息，通过生成式模型对这K个段落和该问题进行处理，得到该问题的答案。即本申请将K个段落作为该问题的上下文信息输入生成式模型，可以保证生成式模型的输入长度符合要求，进而使得生成式模型对长文本对应的问题进行自然连贯的回答，且可以提高问题回答的准确性，进而提升了文本阅读理解的效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
文本阅读理解方法、装置、设备及存储介质

[0001]本申请实施例涉及计算机
，具体涉及一种文本阅读理解方法、装置、设备及存储介质。

技术介绍

[0002]随着神经网络技术的快速发展，各种机器阅读理解模型随之产生。机器阅读理解的关键在于如何将自然语言文本转化为计算机可以理解和处理的形式。为了实现这一目标，机器阅读理解模型通常使用深度学习技术，例如循环神经网络(Recurrent Neural Network，RNN)、卷积神经网络(Convolutional Neural Network，CNN)和注意力机制(Attention Mechanism)等。
[0003]目前的阅读理解方法包括抽取式阅读理解和生成式阅读理解，但是抽取式阅读理解从文本中抽取的答案缺乏连贯性和解释性，其阅读理解效果差。而生成式阅读理解虽然可以输出自然连贯的答案，但是对输入长度有较严格的要求，无法对长文本进行有效的阅读理解。因此，如何对长文本对应的问题进行自然连贯的回答，成为本领域亟待解决的技术问题。

技术实现思路

[0004]本申请提供一种文本阅读理解方法、装置、设备及存储介质，可以对长文本进行有效的阅读理解，且输出自然连通的答案，进行提升长文本的阅读理解效果。
[0005]第一方面，本申请提供一种文本阅读理解方法，包括：
[0006]获取待阅读的文本和待回答的问题，并提取所述文本的N个段落的向量表示和所述问题的向量表示，所述问题是对所述文本进行阅读理解后要回答的问题，所述N为正整数；
[0...

【技术保护点】

【技术特征摘要】
1.一种文本阅读理解方法，其特征在于，包括：获取待阅读的文本和待回答的问题，并提取所述文本的N个段落的向量表示和所述问题的向量表示，所述问题是对所述文本进行阅读理解后要回答的问题，所述N为正整数；基于所述N个段落的向量表示和所述问题的向量表示，从所述N个段落中选出与所述问题相似度最高的K个段落，所述K为小于或等于N的正整数；将所述K个段落作为所述问题的上下文信息，通过生成式模型对所述K个段落和所述问题进行处理，得到所述问题的答案。2.根据权利要求1所述的方法，其特征在于，所述提取所述文本的N个段落的向量表示和所述问题的向量表示，包括：通过对偶式检索模型，提取所述N个段落的向量表示和所述问题的向量表示。3.根据权利要求2所述的方法，其特征在于，所述对偶式检索模型包括第一编码器和第二编码器，所述通过对偶式检索模型，提取所述N个段落的向量表示和所述问题的向量表示，包括：通过所述第一编码器提取所述问题中每个词的向量表示，得到所述问题的向量表示；对于所述N个段落中的第i个段落，通过所述第二编码器提取所述第i个段落中每个词的向量表示，得到所述第i个段落的向量表示，所述i为小于或等于N的正整数。4.根据权利要求3所述的方法，其特征在于，所述基于所述N个段落的向量表示和所述问题的向量表示，从所述N个段落中选出与所述问题相似度最高的K个段落，包括：对于所述N个段落中的第i个段落，基于所述问题中每个词的向量表示和所述第i个段落中每个词的向量表示，确定所述问题和所述第i个段落之间的相似度；基于所述问题与所述N个段落中每一个段落之间的相似度，从所述N个段落中选出与所述问题的相似度最高的K个段落。5.根据权利要求4所述的方法，其特征在于，所述基于所述问题中每个词的向量表示和所述第i个段落中每个词的向量表示，确定所述问题和所述第i个段落之间的相似度，包括：基于所述第i个段落中每个词的向量表示，组成所述第i个段落的向量表示矩阵；基于所述问题中每个词的向量表示，组成所述问题的向量表示矩阵；将所述第i个段落的向量表示矩阵和所述问题的向量表示矩阵相乘，得到所述问题和所述第i个段落之间的相似度。6.根据权利要求4所述的方法，其特征在于，所述基于所述问题中每个词的向量表示和所述第i个段落中每个词的向量表示，确定所述问题和所述第i个段落之间的相似度，包括：对于所述问题中的第j个词，基于所述第j个词的向量表示和所述第i个段落中的每个词的向量表示，确定所述第j个词与所述第i个段落中的每个词之间的相似度；基于所述第j个词与所述第i个段落中的每个词之间的相似度，确定所述第j个词在所述第i个段落中对应的最大相似度；基于所述问题中每一个词在所述第i个段落中对应的最大相似度，确定所述问题和所述第i个段落之间的相似度。7.根据权利要求6所述的方法，其特征在于，所述基于所述问题中每一个词在所述第i个段落中对应的最大相似度，确定所述问题和所述第i个段落之间的相似度，包括：将所述问题中每一个词在所述第i个段落中对应的最大相似度相加，得到所述问题和
所述第i个段落之间的相似度。8.根据权利要求3所述的方法，其特征在于...

【专利技术属性】
技术研发人员：罗锦文，杨凯通，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人