一种神经网络搜索方法及相关设备技术

技术编号:30823044 阅读:61 留言:0更新日期:2021-11-18 12:10
本申请涉及人工智能领域,公开了一种神经网络搜索方法以及相关装置,其中神经网络搜索方法包括:在进行模型搜索时,通过对多个候选算子进行采样的方式来构建transformer层中的注意力头head,以此构建多个候选神经网络,并对多个候选神经网络进行性能比较,来选择性能较高的目标神经网络。本申请结合模型搜索来构建transformer模型,能生成相比原自注意力机制性能更优的新型注意力结构,在广泛的下游任务的效果提升明显。务的效果提升明显。务的效果提升明显。

【技术实现步骤摘要】
一种神经网络搜索方法及相关设备


[0001]本申请涉及人工智能领域,尤其涉及一种神经网络搜索方法及相关设备。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。通常,系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。
[0004]transformer结构具有强大的语义表达能力,能捕捉文本长依赖关系。自被提出以来在以翻译为代表的一系列自然语言处理的任务本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络搜索方法,其特征在于,所述方法包括:获取多个候选神经网络;其中,所述多个候选神经网络中的至少一个候选神经网络包括目标transformer层,所述目标transformer层包括目标注意力头head,所述目标注意力head包括多个算子,且所述多个算子为对第一搜索空间包括的多个候选算子进行采样得到的;基于所述多个候选神经网络的性能,从所述多个候选神经网络中选择目标神经网络。2.根据权利要求1所述的方法,其特征在于,所述目标注意力head为基于所述多个算子以及所述多个算子之间的排列关系构建的,所述多个算子之间的排列关系为基于采样的方式确定的。3.根据权利要求1或2所述的方法,其特征在于,所述目标注意力head还包括第一线性变换层,所述第一线性变换层用于通过目标变换矩阵对所述目标注意力head的输入向量进行处理,所述多个算子用于对所述第一线性变换层的数据处理结果进行运算。4.根据权利要求3所述的方法,其特征在于,所述目标变换矩阵仅包括X个变换矩阵,所述X为小于或等于4的正整数,且所述X的数量为基于采样的方式确定的。5.根据权利要求1至4任一所述的方法,其特征在于,所述目标注意力head的输入向量和所述目标注意力head的输出向量的尺寸大小一致。6.根据权利要求1至5任一所述的方法,其特征在于,所述目标注意力head包括的算子的数量小于预设值。7.根据权利要求1至6任一所述的方法,其特征在于,所述至少一个候选神经网络包括串联连接的多个网络层,所述多个网络层包括所述目标transformer层,所述目标transformer层在所述多个网络层中的位置为基于采样的方式确定的。8.根据权利要求1至7任一所述的方法,其特征在于,所述至少一个候选神经网络包括串联连接的多个网络层,所述多个网络层包括所述目标transformer层以及目标网络层,所述目标网络层包括卷积层。9.根据权利要求8所述的方法,其特征在于,所述目标网络层在所述多个网络层中的位置为基于采样的方式确定的。10.根据权利要求8或9所述的方法,其特征在于,所述卷积层中的卷积核为对第二搜索空间中包括的多个尺寸的卷积核进行采样得到的。11.根据权利要求1至10任一所述的方法,其特征在于,所述多个候选神经网络包括目标候选神经网络;所述获取多个候选神经网络,具体包括:构建所述目标候选神经网络中的目标注意力head;所述构建所述目标候选神经网络中的目标注意力head,包括:获取第一神经网络,其中,所述第一神经网络包括第一transformer层,所述第一transformer层包括第一注意力head,所述第一注意力head包括的多个算子为对第一搜索空间包括的多个候选算子进行采样得到的;根据所述第一搜索空间中的M个候选算子替换所述第一注意力head中的目标算子时,对所述第一神经网络性能的正向影响,从所述M个候选算子中确定替换算子,并将所述第一注意力head中的所述目标算子替换为所述替换算子,以得到所述目标注意力head,所述M为正整数。
12.根据权利要求11所述的方法,其特征在于,所述目标算子位于所述第二神经网络的目标算子位置;所述方法还包括:根据每个所述多个训练后的第二神经网络中位于所述目标算子位置的算子以及所述多个训练后的第二神经网络的性能,和/或,每个所述训练后的第二神经网络中位于所述目标算子位置的算子的出现频次,确定所述第一搜索空间中的M个候选算子替换所述第一注意力head中的所述目标算子时,对所述第一神经网络性能的正向影响。13.根据权利要求11或12所述的方法,其特征在于,所述方法还包括:根据所述第一神经网络,对所述目标候选神经网络进行参数初始化,以得到初始化后的所述目标候选神经网络;其中,所述初始化后的所述目标候选神经网络中的可更新参数为对所述第一神经网络中相同的位置的可更新参数进行参数共享得到的;对进行参数初始化的所述目标候选神经网络进行训练,以得到所述目标候选神经网络的性能。14.一种模型提供方法,其特征在于,所述方法包括:接收端侧发送的性能要求,所述性能要求用于指示神经网络的性能要求;根据所述性能要求,从多个候选神经网络中获取满足所述性能要求的目标神经网络,其中,所述多个候选神经网络中的至少一个候选神经网络包括目标transformer层,所述目标transformer层包括目标注意力头head,所述目标注意力head包括多个算子,且所述多个算子为对第一搜...

【专利技术属性】
技术研发人员:徐航任晓哲尹伊淳钱莉李震国蒋欣高佳慧
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1