【技术实现步骤摘要】
一种模型激活方法及装置
[0001]本申请涉及人工智能领域,尤其涉及一种模型激活方法及装置。
技术介绍
[0002]深度语言模型能够轻松地学习并掌握人类的语言知识,并在各类语言任务(如阅读理解、文本生成、对话系统等)上超过人类,因此深度语言模型被广泛地应用于搜索推荐、智能对话等对自然语言要求较高的场景中。
[0003]随着深度语言模型的不断演进,各式各样的深度语言模型层出不穷,深度语言模型朝着更大的训练数据量以及更大的模型参数量的趋势发展。更多的训练数据可以让深度语言模型学习到更多的知识,更多的模型参数可以让深度语言模型有更高的模型容量从而容纳更多的知识。举例来说,由谷歌于2018年发布的基于变换器的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)模型的参数量达到了3.4亿,由OpenAI于2019年发布的第二代基于变换器的生成式预训练(Generative Pre
‑
trained Transformerr/>‑
2本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种模型激活方法,其特征在于,基于变换器的深度模型模型包括多个层级的多个变换器,每个变换器至少包括路由模块和多头自注意力模块,其中,每个多头自注意力模块包括多个候选注意力模块,所述方法应用于第一变换器,所述方法包括:基于待处理文本,获取第一上下文语义特征和至少一个第二上下文语义特征,所述第一上下文语义特征表征所述第一变换器的输入特征序列的上下文表示,所述第二上下文语义特征表征输入第二变换器的路由模块的上下文语义特征,所述第二变换器的层级低于所述第一变换器的层级;将所述第一上下文语义特征和所述至少一个第二上下文语义特征进行融合后,输入所述第一变换器的路由模块,获得所述第一变换器的输入特征序列与所述第一变换器的各个候选注意力模块的相关程度;按照所述相关程度,从所述第一变换器的各个候选注意力模块中确定出至少一个候选注意力模块进行激活,以对所述待处理文本进行特征变换。2.根据权利要求1所述的方法,其特征在于,获取第一上下文语义特征包括:获取所述第一变换器的输入特征序列中每个分词片段对应的特征;将所述每个分词片段对应的特征进行池化或者卷积处理,得到所述第一上下文语义特征。3.根据权利要求1或2所述的方法,其特征在于,获取至少一个第二上下文语义特征包括:从所述深度模型中层级低于所述第一变换器的变换器中确定至少一个第二变换器;针对所述至少一个第二变换器中的任意一个第二变换器:将输入所述第二变换器的路由模块的融合后的上下文语义特征,确定为所述第二变换器对应的第二上下文语义特征;或者,将用于表征输入所述第二变换器的输入特征序列的上下文表示的上下文语义特征,确定为所述第二变换器对应的第二上下文语义特征。4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述将所述第一上下文语义特征和所述至少一个第二上下文语义特征进行融合后,输入所述第一变换器的路由模块,获得所述第一变换器的输入特征序列与所述第一变换器的各个候选注意力模块的相关程度,包括:融合所述第一上下文语义特征和所述至少一个第二上下文语义特征,得到第三上下文语义特征;将所述第三上下文语义特征,输入所述第一变换器的路由模块,获得所述第一变换器的各个注意力模块的评分,所述评分用于表征所述第一变换器的输入特征序列与对应候选注意力模块的相关程度。5.根据权利要求4所述的方法,其特征在于,所述按照所述相关程度,所述从所述第一变换器的各个候选注意力模块中确定出至少一个候选注意力模块进行激活,包括:按照评分由高到低的顺序,从所述第一变换器的各个候选注意力模块中确定出第一数量的候选注意力模块进行激活;或者,
从所述第一变换器的各个候选注意力模块中选取评分大于第一阈值的候选注意力模块进行激活。6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述方法还包括:采用被激活的候选注意力模块执行注意力计算,得到注意力计算结果。7.根据权利要求6所述的方法,其特征在于,所述采用被激活的候选注意力模块执行注意力计算,得到注意力计算结果,包括:将所述第一变换器的输入特征序列的特征分别输入被激活的候选注意力模块,得到每个被激活的候选注意力模块对应的注意力特征;基于所述第一变换器的输入特征序列与所述第一变换器的各个被激活的候选注意力模块的相关程度,对各个被激活的候选注意力模块对应的注意力特征进行组合,得到所述注意力计算结果。8.根据权利要求7所述的方法,其特征在于,所述对各个被激活的候选注意力模块对应的注意力特征进行组合,包括:针对每个被激活的候选注意力模块:将所述候选注意力模块对应的注意力特征进行线性映射,使线性映射后的注意力特征的维度与所述第一变换器的输入特征序列的特征的维度一致;对线性映射后的各个被激活的候选注意力模块对应的注意力特征进行组合。9.根据权利要求6至8中任意一项所述的方法,其特征在于,所述方法还包括:将所述注意力计算结果与所述第一变换器的输入特征序列的特征进行相加,并对相加后的结果进行归一化处理,得到第一结果;将所述第一结果进行非线性变换,得到第二结果;将所述第二结果与所述第一结果进行相加,并对相加后的结果进行归一化处理,得到所述第一变换器的输出特征序列。10.一种模型激活装置,其特征在于,基于变换器的双向编码器表示深度模型包括多个层级的多个变换器,每个变换器至少包括路由模块和多头自注意力模块,其中,每个多头自注意力模块包括多个候选注意力模块,所述装置应用于第一变换器,所述装置包...
【专利技术属性】
技术研发人员:伍永康,蒋昊,张鑫宇,赖若飞,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。