预测答案的确定方法及装置、阅读理解方法及装置制造方法及图纸

技术编号：31378998 阅读：17 留言：0更新日期：2021-12-15 11:21

本申请提供一种预测答案的确定方法及装置、阅读理解方法及装置，其中预测答案的确定方法包括：通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率，该目标隐层特征向量每一维对应一个词单元，每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率；基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签；基于每一维对应的词单元的预测标签确定预测答案。通过上述序列标注的方式，可以确定每个词单元的预测标签，且根据预测标签可以确定预测答案，在调整模型参数时，可以使得正确的预测答案的预测标签更加接近正确标签，这种方式可以提高阅读理解模型的训练效率和使用准确率。练效率和使用准确率。练效率和使用准确率。

全部详细技术资料下载

【技术实现步骤摘要】
预测答案的确定方法及装置、阅读理解方法及装置

[0001]本申请涉及自然语言处理
，特别涉及预测答案的确定方法及装置、阅读理解方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]机器阅读理解是致力于教会机器阅读人类的语言并理解其内涵的研究，随着自然语言处理技术的发展，机器阅读理解作为自然语言处理领域中一个热门方向被广泛应用。机器阅读理解任务更注重于对于文本的理解，并从文本中学习到相关信息，以便可以回答与文本相关的问题。
[0003]现有技术中，训练机器理解文本的方法主要是构建一种待训练模型，并通过对该待训练模型进行训练，得到符合需求的阅读理解模型，使得该阅读理解模型可以尽可能准确地完成阅读理解任务。具体地，可以将样本问题和样本答案作为训练样本输入待训练模型中，待训练模型可以输出预测答案，根据预测答案和样本答案间的差值对待训练模型进行优化，以便得到想要的阅读理解模型。
[0004]但上述方式仅考虑问题和答案之间的关联关系，比较单一，并且有些问题可以适用于不同的文本，且对于不同的文本得到的答案不同，另外，上述方法直接基于样本问题和样本答案确定预测答案，考虑的是样本问题和样本答案整体，得到的预测答案准确率较低，可能导致模型训练的次数增加，因此，通过上述方式训练阅读理解模型的训练效率较低，且训练得到的阅读理解模型执行阅读理解任务的准确率可能较低。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种预测答案的确定方法。本申请同时涉及一种阅读理解模型的训练方法，阅读理解...

【技术保护点】

【技术特征摘要】
1.一种预测答案的确定方法，其特征在于，所述方法包括：通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率，其中，所述目标隐层特征向量每一维对应一个词单元，每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率；基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签；基于所述每一维对应的词单元的预测标签确定预测答案。2.如权利要求1所述的方法，其特征在于，通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率之前，还包括：通过图卷积网络层，确定第一图网络的第一隐层特征向量和第二图网络的第二隐层特征向量；将所述第一隐层特征向量和所述第二隐层特征向量进行加权求和，得到所述目标隐层特征向量。3.如权利要求2所述的方法，其特征在于，所述图卷积网络层是GCN模型。4.如权利要求2或3所述的方法，其特征在于，所述图卷积网络层通过如下公式对所述第一图网络进行卷积处理：其中，i表示所述第一图网络中第i个节点，j表示所述第一图网络中第j个节点，表示第i个节点输入第l+1个卷积层的特征向量，σ(
·
)表示非线性转换函数，该非线性转换函数是ReLU激活函数，N
i
表示节点i以及与节点i相连的所有节点，表示第j个节点输入第l个卷积层的特征向量，C
ij
表示第i个节点和第j个节点之间边的注意力值，表示第j个节点在第l个卷积层的权重，表示第j个节点在第l个卷积层的截距。5.如权利要求2或3所述的方法，其特征在于，所述图卷积网络层中包括多个卷积层，其中所述卷积层包括预设的权重参数矩阵，每个节点在每个所述卷积层的权重是权重参数矩阵中的初始权重；或者所述卷积层包括预设的截距参数矩阵，每个节点在每个所述卷积层的截距是截距参数矩阵中的初始截距。6.如权利要求2所述的方法，其特征在于，通过图卷积网络层，确定第一图网络的第一隐层特征向量和第二图网络的第二隐层特征向量之前，还包括：通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络，以及构建样本问题和所述样本答案的初始第二图网络；将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层，分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值，得到第一图网络和第二图网络；基于所述每一维对应的词单元的预测标签确定预测答案之后，还包括：基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练，直至达到训练停止条件。
7.如权利要求6所述的方法，其特征在于，所述文本处理层包括特征提取层和注意力层；将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层，分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值，得到第一图网络和第二图网络，包括：将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层，分别获得第一特征向量组、第二特征向量组和第三特征向量组；将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层，分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值，得到第一图网络和第二图网络。8.如权利要求7所述的方法，其特征在于，所述特征提取层采用Bert模型的结构。9.如权利要求7所述的方法，其特征在于，所述注意力层采用Bert模型的注意力层的结构。10.如权利要求7所述的方法，其特征在于，将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层，分别获得第一特征向量组、第二特征向量组和第三特征向量组，包括：对所述样本文本片段、所述样本问题和所述样本答案进行分词处理，分别得到第一词单元组、第二词单元组和第三词单元组；对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理，分别得到第一词向量组、第二词向量组和第三词向量组；对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码，分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。11.如权利要求10所述的方法，其特征在于，对所述样本文本片段、所述样本问题和所述样本答案进行分词处理，分别得到第一词单元组、第二词单元组和第三词单元组，包括：若所述样本文本片段是中文文本，将一个字、一个标点符号、一个数字分别单独划分为一个词单元，以所述样本文本片段划分得到的词单元组成所述第一词单元组；或者，若所述样本文本片段是外文文本，将一个单词或一个短语划分为一个词单元，以所述样本文本片段划分得到的词单元组成所述第一词单元组；若所述样本问题是中文文本，将一个字、一个标点符号、一个数字分别单独划分为一个词单元，以所述样本问题划分得到的词单元组成所述第二词单元组；或者，若所述样本问题是外文文本，将一个单词或一个短语划分为一个词单元，以所述样本问题划分得到的词单元组成所述第二词单元组；若所述样本答案是中文文本，将一个字、一个标点符号、一个数字分别单独划分为一个词单元，以所述样本答案划分得到的词单元组成所述第三词单元组；或者，若所述样本答案是外文文本，将一个单词或一个短语划分为一个词单元，以所述样本答案划分得到的词单元组成所述第三词单元组。12.如权利要求10所述的方法，其特征在于，对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理，分别得到第一词向量组、第二词向量组和第三词向量组，包括：采用独热编码或word2vec编码方式对所述第一词单元组中每个第一词单元进行词嵌
入处理，得到所述第一词向量组；采用独热编码或word2vec编码方式对所述第二词单元组中每个第二词单元进行词嵌入处理，得到所述第二词向量组；采用独热编码或word2vec编码方式对所述第三词单元组中每个第三词单元进行词嵌入处理，得到所述第三词向量组。13.如权利要求10所述的方法，其特征在于，对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码，分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组，包括：对每个第一词向量、每个第二词向量和每个第三词向量进行编码处理，分别得到每个第一词单元的第一特征向量、每个第二词单元的第二特征向量和每个第三词单元的第三特征向量，其中，每个第一词单元的第一特征向量是每个第一词单元对应的融合样本文本片段全文语义信息后的向量表示，每个第二词单元的第二特征向量是每个第二词单元对应的融合样本问题全文语义信息后的向量表示，每个第三词单元的第三特征向量是每个第三词单元对应的融合样本答案全文语义信息后的向量表示。14.如权利要求6所述的方法，其特征在于，通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络，以及构建样本问题和所述样本答案的初始第二图网络，包括：基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络，以及基于所述样本问题中词单元之间的依存关系构建初始第四图网络；基于所述初始第三图网络和所述样本答案之间的关联关系构建所述初始第一图网络，以及基于所述初始第四图网络和所述样本答案之间的关联关系构建所述初始第二图网络。15.如权利要求14所述的方法，其特征在于，基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络，包括：以所述样本文本片段中的词单元为节点，得到多个节点；基于所述样本文本片段中词单元之间的依存关系，将存在依存关系的节点相连，得到所述初始第三图网络。16.如权利要求14或15所述的方法，其特征在于，基于所述初始第三图网络和所述样本答案之间的关联关系构建所述初始第一图网络，包括：基于所述样本答案中的词单元与所述样本文本片段中的词单元之间的关联关系，以所述样本答案中的词单元为目标节点，将所述目标节点与所述初始第三图网络中的节点相连，得到所述初始第一图网络。17.如权利要求14所述的方法，其特征在于，基于所述样本问题中词单元之间的依存关系构建初始第四图网络，包括：以所述样本问题中的词单元为节点，得到多个节点；基于所述样本问题中词单元之间的依存关系，将存...

【专利技术属性】
技术研发人员：潘璋，李长亮，李小龙，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人