阅读理解模型的训练方法及装置、阅读理解方法及装置制造方法及图纸

技术编号:31379000 阅读:9 留言:0更新日期:2021-12-15 11:21
本申请提供一种阅读理解模型的训练方法及装置、阅读理解方法及装置,其中阅读理解模型的训练方法包括:通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和样本答案的初始第二图网络;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将第一图网络和第二图网络输入阅读理解模型的图卷积网络层中,得到预测答案;基于预测答案与样本答案间的差值对阅读理解模型进行训练,直至达到训练停止条件。条件。条件。

【技术实现步骤摘要】
阅读理解模型的训练方法及装置、阅读理解方法及装置


[0001]本申请涉及自然语言处理
,特别涉及阅读理解模型的训练方法及装置、阅读理解方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]机器阅读理解是致力于教会机器阅读人类的语言并理解其内涵的研究,随着自然语言处理技术的发展,机器阅读理解作为自然语言处理领域中一个热门方向被广泛应用。机器阅读理解任务更注重于对于文本的理解,并从文本中学习到相关信息,以便可以回答与文本相关的问题。
[0003]现有技术中,训练机器理解文本的方法主要是构建一种待训练模型,并通过对该待训练模型进行训练,得到符合需求的阅读理解模型,使得该阅读理解模型可以尽可能准确地完成阅读理解任务。具体地,可以将样本问题和样本答案作为训练样本输入待训练模型中,待训练模型可以输出预测答案,根据预测答案和样本答案间的差值对待训练模型进行优化,以便得到想要的阅读理解模型。
[0004]但上述方式仅考虑问题和答案之间的关联关系,比较单一,并且有些问题可以适用于不同的文本,且对于不同的文本得到的答案不同,因此,通过上述方式训练得到的阅读理解模型执行阅读理解任务的准确率可能较低。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种阅读理解模型的训练方法。本申请同时涉及一种阅读理解模型的训练装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]根据本申请实施例的第一方面,提供了一种阅读理解模型的训练方法,包括:/>[0007]通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;
[0008]将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;
[0009]将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;
[0010]基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。
[0011]根据本申请实施例的第二方面,提供了一种阅读理解方法,包括:
[0012]通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络;
[0013]将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处
理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;
[0014]将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到所述目标问题的答案。
[0015]根据本申请实施例的第三方面,提供了一种阅读理解模型的训练装置,包括:
[0016]第一图网络构建模块,被配置为通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;
[0017]第一文本处理模块,被配置为将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络中包括的节点和边添加注意力值,得到第一图网络和第二图网络;
[0018]预测模块,被配置为将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;
[0019]训练模块,被配置为基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。
[0020]根据本申请实施例的第四方面,提供了一种阅读理解装置,包括:
[0021]第二图网络构建模块,被配置为通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络;
[0022]第二文本处理模块,被配置为将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;
[0023]确定模块,被配置为将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,确定所述目标问题的答案。
[0024]根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述阅读理解模型的训练方法的步骤,或者,实现所述阅读理解方法的步骤。
[0025]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述阅读理解模型的训练方法的步骤,或者,实现所述阅读理解方法的步骤。
[0026]根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述阅读理解模型的训练方法的步骤,或者,实现所述阅读理解方法的步骤。
[0027]本申请实施例中,通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。通过本申请的方法,可以有效地利用样本文本片段、样本
问题和样本答案的特征向量,提取三者之间的关联关系,结合样本文本片段、样本问题和样本答案之间的关联关系对阅读理解模型进行训练,可以提高阅读理解模型执行阅读理解任务的准确率。
附图说明
[0028]图1是本申请一实施例提供的一种计算设备的结构框图;
[0029]图2是本申请一实施例提供的一种阅读理解模型的训练方法的流程图;
[0030]图3是本申请一实施例提供的一种模型训练时阅读理解模型的层之间的数据流向图;
[0031]图4是本申请一实施例提供的一种初始第三图网络的示意图;
[0032]图5是本申请一实施例提供的一种初始第一图网络的示意图;
[0033]图6是本申请一实施例提供的一种初始第四图网络的示意图;
[0034]图7是本申请一实施例提供的一种初始第二图网络的示意图;
[0035]图8是本申请一实施例提供的一种应用于选择题的阅读理解模型训练方法的处理流程图;
[0036]图9是本申请一实施例提供的一种阅读理解方法的流程图;
[0037]图10是本申请一实施例提供的一种应用时阅读理解模型的层本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种阅读理解模型的训练方法,其特征在于,所述方法包括:获取训练数据,其中,所述训练数据包括样本文本片段、样本问题和样本答案;通过阅读理解模型的图构建网络层,基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络,以及基于所述样本问题中词单元之间的依存关系构建初始第四图网络;基于所述初始第三图网络和所述样本答案之间的关联关系构建所述样本文本片段和所述样本答案的初始第一图网络,以及基于所述初始第四图网络和所述样本答案之间的关联关系构建所述样本问题和所述样本答案的初始第二图网络;基于所述初始第一图网络和所述初始第二图网络对所述阅读理解模型进行训练,直至达到训练停止条件。2.如权利要求1所述的阅读理解模型的训练方法,其特征在于,基于所述初始第一图网络和所述初始第二图网络对所述阅读理解模型进行训练,包括:将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。3.如权利要求2所述的阅读理解模型的训练方法,其特征在于,所述文本处理层包括特征提取层和注意力层;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络,包括:将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组;将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络。4.如权利要求3所述的阅读理解模型的训练方法,其特征在于,将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组,包括:对所述样本文本片段、所述样本问题和所述样本答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组;对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组;对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。5.如权利要求3或4所述的方法,其特征在于,所述特征提取层采用Bert模型的结构。6.如权利要求3或4所述的方法,其特征在于,所述注意力层采用Bert模型的注意力层
的结构。7.如权利要求4所述的阅读理解模型的训练方法,其特征在于,对所述样本文本片段、所述样本问题和所述样本答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组,包括:若所述样本文本片段是中文文本,将一个字、一个标点符号、一个数字分别单独划分为一个词单元,以所述样本文本片段划分得到的词单元组成所述第一词单元组;或者,若所述样本文本片段是外文文本,将一个单词或一个短语划分为一个词单元,以所述样本文本片段划分得到的词单元组成所述第一词单元组;若所述样本问题是中文文本,将一个字、一个标点符号、一个数字分别单独划分为一个词单元,以所述样本问题划分得到的词单元组成所述第二词单元组;或者,若所述样本问题是外文文本,将一个单词或一个短语划分为一个词单元,以所述样本问题划分得到的词单元组成所述第二词单元组;若所述样本答案是中文文本,将一个字、一个标点符号、一个数字分别单独划分为一个词单元,以所述样本答案划分得到的词单元组成所述第三词单元组;或者,若所述样本答案是外文文本,将一个单词或一个短语划分为一个词单元,以所述样本答案划分得到的词单元组成所述第三词单元组。8.如权利要求4所述的阅读理解模型的训练方法,其特征在于,对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组,包括:采用独热编码或word2vec编码方式对所述第一词单元组中每个第一词单元进行词嵌入处理,得到所述第一词向量组;采用独热编码或word2vec编码方式对所述第二词单元组中每个第二词单元进行词嵌入处理,得到所述第二词向量组;采用独热编码或word2vec编码方式对所述第三词单元组中每个第三词单元进行词嵌入处理,得到所述第三词向量组。9.如权利要求4所述的方法,其特征在于,对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组,包括:对每个第一词向量、每个第二词向量和每个第三词向量进行编码处理,分别得到每个第一词单元的第一特征向量、每个第二词单元的第二特征向量和每个第三词单元的第三特征向量,其中,每个第一词单元的第一特征向量是每个第一词单元对应的融合样本文本片段全文语义信息后的向量表示,每个第二词单元的第二特征向量是每个第二词单元对应的融合样本问题全文语义信息后的向量表示,每个第三词单元的第三特征向量是每个第三词单元对应的融合样本答案全文语义信息后的向量表示。10.如权利要求1所述的阅读理解模型的训练方法,其特征在于,基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络,包括:以所述样本文本片段中的词单元为节点,得到多个节点;基于所述样本文本片段中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第三图网络。
11.如权利要求1或10所述的阅读理解模型的训练方法,其特征在于,基于所述初始第三图网络和所述样本答案之间的关联关系构建所述样本文本片段和所述样本答案的初始第一图网络,包括:基于所述样本答案中的词单元与所述样本文本片段中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第三图网络中的节点相连,得到所述初始第一图网络。12.如权利要求1所述的阅读理解模型的训练方法,其特征在于,基于所述样本问题中词单元之间的依存关系构建初始第四图网络,包括:以所述样本问题中的词单元为节点,得到多个节点;基于所述样本问题中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第四图网络。13.如权利要求1或12所述的阅读理解模型的训练方法,其特征在于,基于所述初始第四图网络和所述样本答案之间的关联关系构建所述样本问题和所述样本答案的初始第二图网络,包括:基于所述样本答案中的词单元与所述样本问题中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第四图网络中的节点相连,得到所述初始第二图网络。14.如权利要求3所述的阅读理解模型的训练方法,其特征在于,将所述第一特征向量组、所述第二特征向量组、所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,包括:通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值;通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值。15.如权利要求14所述的阅读理解模型的训练方法,其特征在于,通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值,包括:将所述第一特征向量组中的第一特征向量作为所述初始第一图网络中第一节点的注意力值,所述第一节点为所述初始第一图网络中所述样本文本片段的词单元对应的节点;将所述第三特征向量组中的第三特征向量作为所述初始第一图网络中第二节点的注意力值,所述第二节点为所述初始第一图网络中所述样本答案的词单元对应的节点;基于所述第一特征向量组,确定所述初始第一图网络中存在边的两个第一节点之间的注意力值并作为所述边的注意力值;基于所述第一特征向量组和所述第三特征向量组,确定所述初始第一图网络中存在边的第一节点和第二节点之间的注意力值并作为所述边的注意力值。16.如权利要求14所述的阅读理解模型的训练方法,其特征在于,通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值,包括:将所述第二特征向量组中的第二特征向量作为所述初始第二图网络中第三节点的注
意力值,所述第三节点为所述初始第二图网络中所述样本问题的词单元对应的节点;将所述第三特征向量组中的第三特征向量作为所述初始第二图网络中第四节点的注意力值,所述第四节点为所述初始第二图网络中所述样本答案的词单元对应的节点;基于所述第二特征向量组,确定所述初始第二图网络中存在边的两个第三节点之间的注意力值并作为所述边的注意力值;基于所述第二特征向量组和所述第三特征向量组,确定所述初始第二图网络中存在边的第三节点和第四节点之间的注意力值并作为所述边的注意力值。17.如权利要...

【专利技术属性】
技术研发人员:潘璋李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1