面向语言模型的双单元搜索空间的结构搜索方法技术

技术编号:31793271 阅读:24 留言:0更新日期:2022-01-08 10:52
本发明专利技术涉及面向语言模型的双单元搜索空间的结构搜索方法,涉及人工智能领域。本发明专利技术在语言模型任务上对已有搜索策略的搜索空间提出了改进,构造了更加适合语言模型任务的搜索空间。通过在循环神经网络单元内部增加信息储存单元来对序列前端信息进行有效的保存,这样的搜索空间与语言模型任务更加匹配,且增加的单元能够缓解常规循环神经网络单元结构存在的无法解决长序列依赖的问题,增加序列语义信息的连续性。同时由于单元的增加直接扩大了搜索空间,也提高了搜索到更好的网络结构的概率。率。率。

【技术实现步骤摘要】
面向语言模型的双单元搜索空间的结构搜索方法


[0001]本专利技术涉及面向语言模型的双单元搜索空间的结构搜索方法,属于人工智能


技术介绍

[0002]搜索空间的设计是神经网络结构搜索研究中的第一步也是极其重要的一步,搜索空间决定了模型性能的上下限。然而,搜索空间的大小和搜索速度及硬件要求之间的对立关系使得其设计处于左右为难的局面。一方面,庞大的搜索空间拥有巨大的网络探索潜能,却需要极高的硬件支撑和时间消耗;另一方面,较小的搜索空间尽管对硬件和时间上较为友好,但在网络潜能的挖掘能力上十分有限。因此,如何定义一个合适的搜索空间,达到最好的搜索效果,成为了目前结构搜索研究中有待解决的问题。
[0003]神经网络结构搜索的研究还处于初步阶段,但领域专家们已经提出了许多优秀的结构搜索方法,并取得了不错的效果。现在最流行的神经网络结构搜索方法DARTS,其构造了一个基于循环结构的最简单的单元,单元内部是一个有向无环图,通过梯度优化的方法学习单元内部的结构并将学习到的单元循环连接构成最终的模型。基于循环单元的模型能够处理一定的序列短期依赖问本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:首先,构建双单元搜索空间;其次,在PTB数据集上进行搜索,选择搜索过程中在验证集上损失最小的结构作为待选单元结构;最后,进入评估阶段,在语言模型任务上对搜索阶段得到的待选单元结构进行短时间评估,得到最优单元结构。2.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:所述基于双单元搜索空间的结构搜索方法的具体实现步骤如下:Step1、针对语言模型任务提出了双单元搜索空间,设置一个搜索单元,通过单元的连接来构成最终的循环神经网络,进而构建出搜索空间;Step2、整个搜索阶段在PTB上建立,输入参数,共持续50个一代训练epoch,得到若干个不同的初始待选单元结构;选择搜索过程中在验证集上损失最小的若干个结构作为待选单元结构;Step3、在语言模型任务上对搜索阶段得到的若干个待选单元结构进行短时间评估,得到最优单元结构。3.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:Step1中提出的双单元搜索空间是将整个搜索空间的大框架延续了DARTS中的设置,即搜索一个单元,然后通过单元的连接来构成最终的循环神经网络,与DARTS不同的是,在每个单元内部设置了两个子单元:信息储存单元cellc
t
以及信息处理单元cellh
t
;每个单元都是一个包含若干节点的有向无环图;信息储存单元的输入为序列前若干个时刻的输入,以便对序列的前端信息进行有效的保存。4.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:Step2中进行搜索阶段的实验参数大多数遵循DARTS...

【专利技术属性】
技术研发人员:余正涛苗育华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1