预测答案的确定方法及装置、阅读理解方法及装置制造方法及图纸

技术编号:31378998 阅读:17 留言:0更新日期:2021-12-15 11:21
本申请提供一种预测答案的确定方法及装置、阅读理解方法及装置,其中预测答案的确定方法包括:通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率,该目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率;基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签;基于每一维对应的词单元的预测标签确定预测答案。通过上述序列标注的方式,可以确定每个词单元的预测标签,且根据预测标签可以确定预测答案,在调整模型参数时,可以使得正确的预测答案的预测标签更加接近正确标签,这种方式可以提高阅读理解模型的训练效率和使用准确率。练效率和使用准确率。练效率和使用准确率。

【技术实现步骤摘要】
预测答案的确定方法及装置、阅读理解方法及装置


[0001]本申请涉及自然语言处理
,特别涉及预测答案的确定方法及装置、阅读理解方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]机器阅读理解是致力于教会机器阅读人类的语言并理解其内涵的研究,随着自然语言处理技术的发展,机器阅读理解作为自然语言处理领域中一个热门方向被广泛应用。机器阅读理解任务更注重于对于文本的理解,并从文本中学习到相关信息,以便可以回答与文本相关的问题。
[0003]现有技术中,训练机器理解文本的方法主要是构建一种待训练模型,并通过对该待训练模型进行训练,得到符合需求的阅读理解模型,使得该阅读理解模型可以尽可能准确地完成阅读理解任务。具体地,可以将样本问题和样本答案作为训练样本输入待训练模型中,待训练模型可以输出预测答案,根据预测答案和样本答案间的差值对待训练模型进行优化,以便得到想要的阅读理解模型。
[0004]但上述方式仅考虑问题和答案之间的关联关系,比较单一,并且有些问题可以适用于不同的文本,且对于不同的文本得到的答案不同,另外,上述方法直接基于样本问题和样本答案确定预测答案,考虑的是样本问题和样本答案整体,得到的预测答案准确率较低,可能导致模型训练的次数增加,因此,通过上述方式训练阅读理解模型的训练效率较低,且训练得到的阅读理解模型执行阅读理解任务的准确率可能较低。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种预测答案的确定方法。本申请同时涉及一种阅读理解模型的训练方法,阅读理解方法,预测答案的确定装置,阅读理解模型的训练装置,阅读理解装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]根据本申请实施例的第一方面,提供了一种阅读理解模型的训练方法,包括:
[0007]通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;
[0008]将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;
[0009]将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;
[0010]基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。
[0011]根据本申请实施例的第二方面,提供了一种阅读理解方法,包括:
[0012]通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络,其中,所述阅读理解模型由上述第一方面所述的方法训练得到;
[0013]将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;
[0014]将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到所述目标问题的答案。
[0015]根据本申请实施例的第三方面,提供了一种预测答案的确定方法,包括:
[0016]通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率,其中,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率;
[0017]基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签;
[0018]基于所述每一维对应的词单元的预测标签确定预测答案。
[0019]根据本申请实施例的第四方面,提供了另一种阅读理解方法,包括:
[0020]通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络,其中,所述阅读理解模型由上述第一方面或第三方面所述的方法训练得到;
[0021]将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;
[0022]将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,确定目标隐层特征向量;
[0023]通过序列标注函数将所述目标隐层特征向量每一维的值转换成至少一个概率,其中,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个概率表征每一维对应的词单元的标签是至少一个标签的概率;
[0024]基于每一维对应的至少一个概率确定每一维对应的词单元的标签;
[0025]基于所述每一维对应的词单元的标签确定所述目标问题的答案。
[0026]根据本申请实施例的第五方面,提供了一种预测答案的确定装置,包括:
[0027]第一转换模块,被配置为通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率,其中,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率;
[0028]第一确定模块,被配置为基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签;
[0029]第二确定模块,被配置为基于所述每一维对应的词单元的预测标签确定预测答案。
[0030]根据本申请实施例的第六方面,提供了一种阅读理解装置,包括:
[0031]图网络构建模块,被配置为通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络,其中,所
述阅读理解模型由上述第一方面或第三方面所述的方法训练得到;
[0032]文本处理模块,被配置为将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;
[0033]第三确定模块,被配置为将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,确定目标隐层特征向量;
[0034]第二转换模块,被配置为通过序列标注函数将所述目标隐层特征向量每一维的值转换成至少一个概率,其中,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个概率表征每一维对应的词单元的标签是至少一个标签的概率;
[0035]第四确定模块,被配置为基于每一维对应的至少一个概率确定每一维对应的词单元的标签;
[0036]第五确定模块,被配置为基于所述每一维对应的词单元的标签确定所述目标问题的答案。
[0037]根据本申请实施例的第七方面,提供了一种阅读理解模型的训练装置,包括:
[0038]第一图网络构建模块,被配置为通过阅读理解模型的图构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测答案的确定方法,其特征在于,所述方法包括:通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率,其中,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率;基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签;基于所述每一维对应的词单元的预测标签确定预测答案。2.如权利要求1所述的方法,其特征在于,通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率之前,还包括:通过图卷积网络层,确定第一图网络的第一隐层特征向量和第二图网络的第二隐层特征向量;将所述第一隐层特征向量和所述第二隐层特征向量进行加权求和,得到所述目标隐层特征向量。3.如权利要求2所述的方法,其特征在于,所述图卷积网络层是GCN模型。4.如权利要求2或3所述的方法,其特征在于,所述图卷积网络层通过如下公式对所述第一图网络进行卷积处理:其中,i表示所述第一图网络中第i个节点,j表示所述第一图网络中第j个节点,表示第i个节点输入第l+1个卷积层的特征向量,σ(
·
)表示非线性转换函数,该非线性转换函数是ReLU激活函数,N
i
表示节点i以及与节点i相连的所有节点,表示第j个节点输入第l个卷积层的特征向量,C
ij
表示第i个节点和第j个节点之间边的注意力值,表示第j个节点在第l个卷积层的权重,表示第j个节点在第l个卷积层的截距。5.如权利要求2或3所述的方法,其特征在于,所述图卷积网络层中包括多个卷积层,其中所述卷积层包括预设的权重参数矩阵,每个节点在每个所述卷积层的权重是权重参数矩阵中的初始权重;或者所述卷积层包括预设的截距参数矩阵,每个节点在每个所述卷积层的截距是截距参数矩阵中的初始截距。6.如权利要求2所述的方法,其特征在于,通过图卷积网络层,确定第一图网络的第一隐层特征向量和第二图网络的第二隐层特征向量之前,还包括:通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;基于所述每一维对应的词单元的预测标签确定预测答案之后,还包括:基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。
7.如权利要求6所述的方法,其特征在于,所述文本处理层包括特征提取层和注意力层;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络,包括:将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组;将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络。8.如权利要求7所述的方法,其特征在于,所述特征提取层采用Bert模型的结构。9.如权利要求7所述的方法,其特征在于,所述注意力层采用Bert模型的注意力层的结构。10.如权利要求7所述的方法,其特征在于,将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组,包括:对所述样本文本片段、所述样本问题和所述样本答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组;对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组;对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。11.如权利要求10所述的方法,其特征在于,对所述样本文本片段、所述样本问题和所述样本答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组,包括:若所述样本文本片段是中文文本,将一个字、一个标点符号、一个数字分别单独划分为一个词单元,以所述样本文本片段划分得到的词单元组成所述第一词单元组;或者,若所述样本文本片段是外文文本,将一个单词或一个短语划分为一个词单元,以所述样本文本片段划分得到的词单元组成所述第一词单元组;若所述样本问题是中文文本,将一个字、一个标点符号、一个数字分别单独划分为一个词单元,以所述样本问题划分得到的词单元组成所述第二词单元组;或者,若所述样本问题是外文文本,将一个单词或一个短语划分为一个词单元,以所述样本问题划分得到的词单元组成所述第二词单元组;若所述样本答案是中文文本,将一个字、一个标点符号、一个数字分别单独划分为一个词单元,以所述样本答案划分得到的词单元组成所述第三词单元组;或者,若所述样本答案是外文文本,将一个单词或一个短语划分为一个词单元,以所述样本答案划分得到的词单元组成所述第三词单元组。12.如权利要求10所述的方法,其特征在于,对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组,包括:采用独热编码或word2vec编码方式对所述第一词单元组中每个第一词单元进行词嵌
入处理,得到所述第一词向量组;采用独热编码或word2vec编码方式对所述第二词单元组中每个第二词单元进行词嵌入处理,得到所述第二词向量组;采用独热编码或word2vec编码方式对所述第三词单元组中每个第三词单元进行词嵌入处理,得到所述第三词向量组。13.如权利要求10所述的方法,其特征在于,对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组,包括:对每个第一词向量、每个第二词向量和每个第三词向量进行编码处理,分别得到每个第一词单元的第一特征向量、每个第二词单元的第二特征向量和每个第三词单元的第三特征向量,其中,每个第一词单元的第一特征向量是每个第一词单元对应的融合样本文本片段全文语义信息后的向量表示,每个第二词单元的第二特征向量是每个第二词单元对应的融合样本问题全文语义信息后的向量表示,每个第三词单元的第三特征向量是每个第三词单元对应的融合样本答案全文语义信息后的向量表示。14.如权利要求6所述的方法,其特征在于,通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络,包括:基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络,以及基于所述样本问题中词单元之间的依存关系构建初始第四图网络;基于所述初始第三图网络和所述样本答案之间的关联关系构建所述初始第一图网络,以及基于所述初始第四图网络和所述样本答案之间的关联关系构建所述初始第二图网络。15.如权利要求14所述的方法,其特征在于,基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络,包括:以所述样本文本片段中的词单元为节点,得到多个节点;基于所述样本文本片段中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第三图网络。16.如权利要求14或15所述的方法,其特征在于,基于所述初始第三图网络和所述样本答案之间的关联关系构建所述初始第一图网络,包括:基于所述样本答案中的词单元与所述样本文本片段中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第三图网络中的节点相连,得到所述初始第一图网络。17.如权利要求14所述的方法,其特征在于,基于所述样本问题中词单元之间的依存关系构建初始第四图网络,包括:以所述样本问题中的词单元为节点,得到多个节点;基于所述样本问题中词单元之间的依存关系,将存...

【专利技术属性】
技术研发人员:潘璋李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1