数据处理方法及装置、计算设备制造方法及图纸

技术编号：32893823 阅读：18 留言：0更新日期：2022-04-07 11:41

本申请实施例提供一种数据处理方法及装置、计算设备，该数据处理方法包括：确定模型参数已知的第一网络模块；获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；根据所述第一网络模块以及所述待训练模块，构建第二网络模块；基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。本申请实施例提高了模型的训练效率。训练效率。训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法及装置、计算设备

[0001]本申请涉及计算设备
，尤其涉及一种数据处理方法及装置、计算设备。

技术介绍

[0002]近年来，自然语言处理任务的应用越来越广泛，在自然语言处理任务中，一般使用NLP(Natural Language Processing)神经网络模型来执行处理任务。通常，为了确保神经网络模型对自然语言的处理精度，一般采用深度神经网络模型。BERT(Bidirectional Encoder Representations from Transformers，双向编码器的语言表征模型)是一种较为常见的用于自然语言处理的深度神经网络模型，可以应用于词语预测、语句关联预测、自动问答、内容推荐等应用场景中。
[0003]通常，BERT模型可以包括输入层、向量表示层、编码层以及分类层，该模型关键在于使用了Transformer(转换)模型的Encoder(编码器)。BERT模型的模型参数中可以包括编码层中各个Encoder的参数。为了获取模型参数，通常可以采用多个训练数据，多次训练获得已构建好的BERT模型的模型参数。
[0004]由以上描述可知，BERT等深度神经网络模型中编码层通常由多个Encoder模块构成，在训练时，需要对所有模块均进行表征计算，以获得准确的模型参数，计算量非常大，需要消耗大量时间，训练效率较低。

技术实现思路

[0005]有鉴于此，本申请实施例提供一种，用以解决现有技术中的技术问题。
[0006]第一方面，本申请实施例提供一种数...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：确定模型参数已知的第一网络模块；获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；根据所述第一网络模块以及所述待训练模块，构建第二网络模块；基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。2.根据权利要求1所述的方法，其特征在于，还包括：判断所述第二网络模块是否满足模型构成条件；如果是，则确定所述第二网络模块为目标网络模型；如果否，则将所述第二网络模块作为新的第一网络模块，并返回至获取为所述第一网络模块新增加的待训练模块的步骤继续执行。3.根据权利要求2所述的方法，其特征在于，所述如果是，则确定所述第二网络模块为目标网络模型之后，还包括：确定所述第一网络模块的模型参数以及所述待训练模块的模型参数为所述目标网络模型的目标模型参数。4.根据权利要求2所述的方法，其特征在于，所述判断所述第二网络模块是否满足模型构成条件包括：判断所述第二网络模块的编码层中的编码器的数量是否达到预设网络层数。5.根据权利要求4所述的方法，其特征在于，所述根据所述第一网络模块以及所述待训练模块，构建第二网络模块包括：确定所述第一网络模块中的向量表示层、第一编码层以及分类层；其中，所述向量表示层的向量参数、所述第一编码器的第一编码参数以及所述分类层的分类参数已知；将所述待训练模块增加到所述第一编码层，获得第二编码层；确定所述向量表示层、第二编码层以及所述分类层构成的所述第二网络模块；所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数包括：基于多个训练数据，训练所述第二网络模块的编码层中所述待训练模块的模型参数。6.根据权利要求1所述的方法，其特征在于，所述确定模型参数已知的第一网络模块包括：判断是否存在模型参数已知的第一网络模块；如果是，则执行所述确定模型参数已知的第一网络模块步骤；如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块，并转至所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数步骤。7.根据权利要求6所述的方法，其特征在于，所述基础训练模块包括：向量表示层、基础编码器构成的编码层以及分类层；其中，所述向量表示层的向量参数、所述至少一个编码器构成的基础编码层的第一编码参数以及所述分类层的分类参数未知；所述如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块，并转至基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数步骤
具体包括：如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块；基于多个训练数据，训练获得所述基础训练模块中所述向量表示层的向量参数、所述至少一个编码器构成的基础编码层的编码参数以及所述分类层的分类参数。8.根据权利要求1所述的方法，其特征在于，所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数包括：参数确定步骤...

【专利技术属性】
技术研发人员：王盛南，杨程，李越川，杨超，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人