一种数据处理方法及相关设备技术

技术编号:24758276 阅读:38 留言:0更新日期:2020-07-04 09:38
本申请涉及人工智能领域,公开了一种数据处理方法,包括:获取第一神经网络模型和终端设备的可用资源状态;根据所述可用资源状态确定第二神经网络模型。本申请可以根据可用资源状态确定合适的模型尺寸,并根据确定的模型尺寸选择第一神经网络模型中的一部分作为要进行数据处理的第二神经网络模型,减小了模型的大小。

A data processing method and related equipment

【技术实现步骤摘要】
一种数据处理方法及相关设备
本申请涉及人工智能领域,尤其涉及一种数据处理方法及相关设备。
技术介绍
人工智能(artificialintelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。通常,系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。transformer结构具有强大的语义表达能力,能捕捉文本长依赖关系。自被提出以来在以翻译为代表的一系列自然语言处理的任务上显著超越了之前的模型,基于transformer结构的预训练本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取第一神经网络模型和终端设备的可用资源状态,其中,所述第一神经网络模型包括至少一个转换(transformer)层,所述至少一个transformer层包括第一transformer层,所述第一transformer层包括M个注意力头和第一前馈层,所述第一前馈层包括第一中间层(intermediate layer),所述第一intermediate layer包括N个神经元,所述M和N为正整数;/n根据所述可用资源状态确定第二神经网络模型,其中,所述第二神经网络模型为基于所述第一神经网络模型得到的,所述第二神经网络模型至少满足如下的一种条件...

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一神经网络模型和终端设备的可用资源状态,其中,所述第一神经网络模型包括至少一个转换(transformer)层,所述至少一个transformer层包括第一transformer层,所述第一transformer层包括M个注意力头和第一前馈层,所述第一前馈层包括第一中间层(intermediatelayer),所述第一intermediatelayer包括N个神经元,所述M和N为正整数;
根据所述可用资源状态确定第二神经网络模型,其中,所述第二神经网络模型为基于所述第一神经网络模型得到的,所述第二神经网络模型至少满足如下的一种条件:
所述第二神经网络模型包括与所述第一transformer层对应的第二transformer层,所述第二transformer层包括的注意力头的数量小于所述M;或,
所述第二神经网络模型包括与所述第一intermediatelayer对应的第二intermediatelayer,所述第二intermediatelayer包括的神经元的数量小于所述N;或,
所述第二神经网络模型包括的transformer层的数量小于所述第一神经网络模型包括的transformer层的数量。


2.根据权利要求1所述的方法,其特征在于,所述第一神经网络模型为通过对初始神经网络模型在至少一个第一宽度尺寸下进行知识蒸馏训练得到的,其中,所述至少一个第一宽度尺寸中的每个第一宽度尺寸表示transformer层包括的注意力头的数量,所述第二transformer层包括的注意力头的数量为所述至少一个第一宽度尺寸中的一个;或,
所述第一神经网络模型为通过对初始神经网络模型在至少一个第二宽度尺寸下进行知识蒸馏训练得到的,其中,所述至少一个第二宽度尺寸中的每个第二宽度尺寸表示intermediatelayer包括的神经元的数量,所述第二transformer层包括的神经元的数量为所述至少一个第二宽度尺寸中的一个;或,
所述第一神经网络模型为通过对初始神经网络模型在至少一个深度尺寸下进行知识蒸馏训练得到的,其中,所述至少一个深度尺寸中的每个深度尺寸表示transformer层的数量,所述第二transformer层的数量为所述至少一个深度尺寸中的一个。


3.根据权利要求1或2所述的方法,其特征在于,所述第二transformer层包括的每个注意力头为所述第一transformer层包括的M个注意力头中的一个;或,
所述第二intermediatelayer包括的每个神经元为所述第一intermediatelayer包括的M个神经元中的一个。


4.根据权利要求1至3任一所述的方法,其特征在于,所述第二intermediatelayer包括的神经元的数量与所述第一intermediatelayer包括的神经元的数量的比值为第一比例值,所述第二transformer层包括的注意力头的数量与所述第一transformer层包括的注意力头的数量的比值为第二比例值,所述第一比例值等于所述第二比例值。


5.根据权利要求1至4任一所述的方法,其特征在于,所述第二transformer层包括第一注意力头,所述M个注意力头包括所述第一注意力头和第二注意力头,所述第二transformer层不包括所述第二注意力头,所述第一注意力头对所述第一神经网络模型的输出结果的影响能力大于所述第二注意力头对所述第一神经网络模型的输出结果的影响能力;或,
所述第二intermediatelayer包括第一神经元,所述M个神经元包括所述第一神经元和第二神经元,所述第二intermediatelayer不包括所述第二神经元,所述第一神经元对所述第一神经网络模型的输出结果的影响能力大于所述第二神经元对所述第一神经网络模型的输出结果的影响能力。


6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
根据所述可用资源状态确定所述第二神经网络模型的第一宽度尺寸信息或第二宽度尺寸信息或深度尺寸信息,所述第一宽度尺寸信息包括所述第二transformer层包括的注意力头的数量,所述第二宽度尺寸信息包括所述第二intermediatelayer包括的神经元的数量,所述深度尺寸信息包括所述第二神经网络模型包括的transformer层的数量。


7.根据权利要求6所述的方法,其特征在于,所述根据所述可用资源状态确定所述第二神经网络模型的尺寸信息;或,第二宽度尺寸信息,包括:
根据预设关联关系和所述可用资源状态确定所述第二神经网络模型的第一宽度尺寸信息或第二宽度尺寸信息或深度尺寸信息,其中,所述预设关联关系表示可用资源状态和所述第二神经网络模型的第一宽度尺寸信息之间的对应关系;或,可用资源状态和所述第二神经网络模型的第二宽度尺寸信息之间的对应关系;或,可用资源状态和所述第二神经网络模型的深度尺寸信息之间的对应关系;
其中,所述预设关联关系为预设函数,所述预设函数的输入为所述可用资源状态,所述预设函数的输出为所述第二神经网络模型的第一宽度尺寸信息;或,所述预设函数的输入为所述可用资源状态,所述预设函数的输出为所述第二神经网络模型的第二宽度尺寸信息或所述预设函数的输入为所述可用资源状态,所述预设函数的输出为所述第二神经网络模型的深度尺寸信息;或,
所述预设关联关系为预设表格,所述预设表格包括多个可用资源状态,以及每个可用资源状态对应的所述第二神经网络模型的第一宽度尺寸信息;或,所述预设表格包括多个可用资源状态,以及每个可用资源状态对应的所述第二神经网络模型的第二宽度尺寸信息;或,所述预设表格包括多个可用资源状态,以及每个可用资源状态对应的所述第二神经网络模型的深度尺寸信息。


8.根据权利要求1至7任一所述的方法,其特征在于,所述可用资源状态至少包括如下的一种:
所述终端设备的功耗、所述终端设备计算能力或所述终端设备可用存储大小。


9.根据权利要求1至8任一所述的方法,其特征在于,所述方法还包括:
获取待处理语言信息;
根据所述第二神经网络模型对所述待处理语言信息进行处理。


10.一种数据处理方法,其特征在于,包括:
接收终端设备发送的性能要求信息;
获取第一神经网络模型,所述第一神经网络模型包括至少一个转换(transformer)层,所述至少一个transformer层包括第一transformer层,所述第一transformer层包括M个注意力头和第一前馈层,所述第一前馈层包括第一中间层intermediatelayer,所述第一intermediatelayer包括N个神经元,所述M和N为正整数;
根据所述性能要求信息确定第二神经网络模型,其中,所述第二神经网络模型为基于所述第一神经网络模型得到的,所述第二神经网络模型至少满足如下的一种条件:
所述第二神经网络模型包括与所述第一transformer层对应的第二transformer层,所述第二transformer层包括的注意力头的数量小于所述M;或,
所述第二神经网络模型包括与所述第一intermediatelayer对应的第二intermediatelayer,所述第二intermediatelayer包括的神经元的数量小于所述N;或,
所述第二神经网络模型包括的transformer层的数量小于所述第一神经网络模型包括的transformer层的数量;
向所述终端设备发送所述第二神经网络模型。


11.根据权利要求10所述的方法,其特征在于,所述性能要求信息至少包括如下的一种:
精度要求、时延要求或模型压缩比要求。


12.根据权利要求10或11所述的方法,其特征在于,所述第一神经网络模型为通过对初始神经网络模型在至少一个第一宽度尺寸下进行知识蒸馏训练得到的,其中,所述至少一个第一宽度尺寸中的每个第一宽度尺寸表示transformer层包括的注意力头的数量,所述第二transformer层包括的注意力头的数量为所述至少一个第一宽度尺寸中的一个;或
所述第一神经网络模型为通过对初始神经网络模型在至少一个第二宽度尺寸下进行知识蒸馏训练得到的,其中,所述至少一个第二宽度尺寸中的每个第二宽度尺寸表示intermediatelayer包括的神经元的数量,所述第二transformer层包括的神经元的数量为所述至少一个第二宽度尺寸中的一个;或
所述第一神经网络模型为通过对初始神经网络模型在至少一个深度尺寸下进行知识蒸馏训练得到的,其中,所述至少一个深度尺寸中的每个深度尺寸表示transformer层的数量,所述第二transformer层的数量为所述至少一个深度尺寸中的一个。


13.根据权利要求10至12任一所述的方法,其特征在于,所述第二transformer层包括的每个注意力头为所述第一transformer层包括的M个注意力头中的一个;或
所述第二intermediatelayer包括的每个神经元为所述第一intermediatelayer包括的M个神经元中的一个。


14.根据权利要求10至13任一所述的方法,其特征在于,所述方法还包括:
向所述终端设备发送预设关联关系,其中,所述预设关联关系表示可用资源状态和第三神经网络模型的第三宽度尺寸之间的对应关系;或可用资源状态和所述第三神经网络模型的第四宽度尺寸之间的对应关系;或可用资源状态和所述第三神经网络模型的深度尺寸之间的对应关系,其中,所述第三神经网络模型为根据所述第二神经网络模型得到的,所述第三宽度尺寸表示transformer层包括的注意力头的数量,所述第四宽度尺寸表示intermediatelayer包括的神经元的数量,所述深度尺寸表示所述第二神经网络模型包括的transformer层的数量;
其中,所述预设关联关系为预设函数,所述预设函数的输入为所述可用资源状态,所述预设函数的输出为所述第三神经网络模型的第三宽度尺寸;或所述预设函数的输入为所述可用资源状态,所述预设函数的输出为所述第三神经网络模型的第四宽度尺寸;或所述预设函数的输入为所述可用资源状态,所述预设函数的输出为所述第三神经网络模型的深度尺寸;或,
所述预设关联关系为预设表格,所述预设表格包括多个可用资源状态,以及每个可用资源状态对应的所述第三神经网络模型的第三宽度尺寸;或,所述预设表格包括多个可用资源状态,以及每个可用资源状态对应的所述第三神经网络模型的第四宽度尺寸;或所述预设表格包括多个可用资源状态,以及每个可用资源状态对应的所述第三神经网络模型的深度尺寸。


15.一种数据处理设备,其特征在于,所述设备...

【专利技术属性】
技术研发人员:侯璐尚利峰蒋欣
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1