数据处理方法及装置、计算设备制造方法及图纸

技术编号:32893823 阅读:18 留言:0更新日期:2022-04-07 11:41
本申请实施例提供一种数据处理方法及装置、计算设备,该数据处理方法包括:确定模型参数已知的第一网络模块;获取为所述第一网络模块新增加的待训练模块;其中,所述待训练模块的模型参数未知;根据所述第一网络模块以及所述待训练模块,构建第二网络模块;基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数。本申请实施例提高了模型的训练效率。训练效率。训练效率。

【技术实现步骤摘要】
数据处理方法及装置、计算设备


[0001]本申请涉及计算设备
,尤其涉及一种数据处理方法及装置、计算设备。

技术介绍

[0002]近年来,自然语言处理任务的应用越来越广泛,在自然语言处理任务中,一般使用NLP(Natural Language Processing)神经网络模型来执行处理任务。通常,为了确保神经网络模型对自然语言的处理精度,一般采用深度神经网络模型。BERT(Bidirectional Encoder Representations from Transformers,双向编码器的语言表征模型)是一种较为常见的用于自然语言处理的深度神经网络模型,可以应用于词语预测、语句关联预测、自动问答、内容推荐等应用场景中。
[0003]通常,BERT模型可以包括输入层、向量表示层、编码层以及分类层,该模型关键在于使用了Transformer(转换)模型的Encoder(编码器)。BERT模型的模型参数中可以包括编码层中各个Encoder的参数。为了获取模型参数,通常可以采用多个训练数据,多次训练获得已构建好的BERT模型的模型参数。
[0004]由以上描述可知,BERT等深度神经网络模型中编码层通常由多个Encoder模块构成,在训练时,需要对所有模块均进行表征计算,以获得准确的模型参数,计算量非常大,需要消耗大量时间,训练效率较低。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种,用以解决现有技术中的技术问题。
[0006]第一方面,本申请实施例提供一种数据处理方法,包括:
[0007]确定模型参数已知的第一网络模块;
[0008]获取为所述第一网络模块新增加的待训练模块;其中,所述待训练模块的模型参数未知;
[0009]根据所述第一网络模块以及所述待训练模块,构建第二网络模块;
[0010]基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数。
[0011]第二方面,本申请实施例提供一种数据处理设备,包括:
[0012]模型确定模块,用于确定模型参数已知的第一网络模块;
[0013]模型新增模块,用于获取为所述第一网络模块新增加的待训练模块;其中,所述待训练模块的模型参数未知;
[0014]新增构建模块,用于根据所述第一网络模块以及所述待训练模块,构建第二网络模块;
[0015]参数训练模块,用于基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数。
[0016]第三方面,本申请实施例提供一种计算设备,包括:存储组件与处理组件;所述存储组件用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件调用
以执行本申请实施例提供的任一种数据处理方法。
[0017]第四方面,本申请实施例提供一种存储介质,包括:计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机执行时以执行本申请实施例提供的任一种的数据处理方法。
[0018]本申请实施例,确定模型参数已知的第一网络模块之后,可以获取为第一网络模块新增加的待训练模块,该待训练模块的模型参数未知。之后,可以根据第一网络模块以及新增加的待训练模块,构建第二网络模块。此时,第二网络模块中的第一网络模块的模型参数已知,待训练模块的模型参数未知。基于多个训练数据,可以训练获得该第二网络模块中待训练模块的模型参数。本实施例中,在模型参数已知的第一网络模块的基础上,增加进行参数训练的待训练模块,并仅针对该待训练模块的模型参数进行训练,以减少模型训练的参数量,降低训练的复杂度,提高训练效率。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本申请实施例提供的一种数据处理方法的一个实施例的流程图;
[0021]图2为本申请实施例提供的一种数据处理方法的又一个实施例的流程图;
[0022]图3为本申请实施例提供的一种数据处理方法的又一个实施例的流程图;
[0023]图4为本申请实施例提供的一种数据处理方法的又一个实施例的流程图;
[0024]图5为本申请实施例提供的一种数据处理方法的一个示例图;
[0025]图6为本申请实施例提供的一种数据处理方法的又一个示例图;
[0026]图7为本申请实施例提供的一种数据处理装置的一个实施例的结构示意图;
[0027]图8为本申请实施例提供的一种计算设备的一个实施例的结构示意图。
具体实施方式
[0028]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
[0030]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0031]取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或


……
时”或“响应于确定”或“响应于识别”。类似地,取决于语境,短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
[0032]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
[0033]本申请实施例的技术方案可以应用于神经网络模型优化场景中,通过将神经网络中的模型参数分批次训练获得,以在每次仅针对神经网络模型中新增加的模块进行针对性训练,提高训练效率。
[0034]现有技术中,神经网络模型的模型参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:确定模型参数已知的第一网络模块;获取为所述第一网络模块新增加的待训练模块;其中,所述待训练模块的模型参数未知;根据所述第一网络模块以及所述待训练模块,构建第二网络模块;基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数。2.根据权利要求1所述的方法,其特征在于,还包括:判断所述第二网络模块是否满足模型构成条件;如果是,则确定所述第二网络模块为目标网络模型;如果否,则将所述第二网络模块作为新的第一网络模块,并返回至获取为所述第一网络模块新增加的待训练模块的步骤继续执行。3.根据权利要求2所述的方法,其特征在于,所述如果是,则确定所述第二网络模块为目标网络模型之后,还包括:确定所述第一网络模块的模型参数以及所述待训练模块的模型参数为所述目标网络模型的目标模型参数。4.根据权利要求2所述的方法,其特征在于,所述判断所述第二网络模块是否满足模型构成条件包括:判断所述第二网络模块的编码层中的编码器的数量是否达到预设网络层数。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一网络模块以及所述待训练模块,构建第二网络模块包括:确定所述第一网络模块中的向量表示层、第一编码层以及分类层;其中,所述向量表示层的向量参数、所述第一编码器的第一编码参数以及所述分类层的分类参数已知;将所述待训练模块增加到所述第一编码层,获得第二编码层;确定所述向量表示层、第二编码层以及所述分类层构成的所述第二网络模块;所述基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数包括:基于多个训练数据,训练所述第二网络模块的编码层中所述待训练模块的模型参数。6.根据权利要求1所述的方法,其特征在于,所述确定模型参数已知的第一网络模块包括:判断是否存在模型参数已知的第一网络模块;如果是,则执行所述确定模型参数已知的第一网络模块步骤;如果否,则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块,并转至所述基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数步骤。7.根据权利要求6所述的方法,其特征在于,所述基础训练模块包括:向量表示层、基础编码器构成的编码层以及分类层;其中,所述向量表示层的向量参数、所述至少一个编码器构成的基础编码层的第一编码参数以及所述分类层的分类参数未知;所述如果否,则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块,并转至基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数步骤
具体包括:如果否,则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块;基于多个训练数据,训练获得所述基础训练模块中所述向量表示层的向量参数、所述至少一个编码器构成的基础编码层的编码参数以及所述分类层的分类参数。8.根据权利要求1所述的方法,其特征在于,所述基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数包括:参数确定步骤...

【专利技术属性】
技术研发人员:王盛南杨程李越川杨超
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1