模型处理方法及装置制造方法及图纸

技术编号:36195884 阅读:19 留言:0更新日期:2023-01-04 11:48
本说明书提供模型处理方法及装置,其中所述模型处理方法包括:在多个候选语言模型中搜索至少两个语言模型;将所述至少两个语言模型进行拼接,得到拼接模型;通过所述拼接模型获得训练样本的词特征;根据所述词特征训练任务模型,直到所述任务模型收敛;根据验证样本对收敛后的任务模型进行验证,得到所述任务模型的预测精度;根据所述任务模型的预测精度调整所述多个候选语言模型的搜索参数。所述多个候选语言模型的搜索参数。所述多个候选语言模型的搜索参数。

【技术实现步骤摘要】
模型处理方法及装置


[0001]本说明书涉及语言处理
,特别涉及模型处理方法及装置。

技术介绍

[0002]随着人工智能的发展,越来越多的领域采用人工智能的方式进行自然语言处理。在进行自然语言处理的过程中,通常需要通过预训练的上下文语言模型对语句进行词特征表示,再基于词特征进行后续的任务处理,比如意图预测、或翻译等处理。而目前由于预训练的上下文语言模型对语句进行词特征表示方式较为单一,自然语言处理的结果可能并不理想,因此,亟需一种更为准确的方法解决此类问题。

技术实现思路

[0003]有鉴于此,本说明书实施例提供了一种模型处理方法。本说明书同时涉及一种模型处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种模型处理方法,包括:
[0005]在多个候选语言模型中搜索至少两个语言模型;
[0006]将所述至少两个语言模型进行拼接,得到拼接模型;
[0007]通过所述拼接模型获得训练样本的词特征;
[0008]根据所述词特征训练任务模型,直到所述任务模型收敛;
[0009]根据验证样本对收敛后的任务模型进行验证,得到所述任务模型的预测精度;
[0010]根据所述任务模型的预测精度调整所述多个候选语言模型的搜索参数。
[0011]根据本说明书实施例的第二方面,提供了一种模型处理装置,包括:
[0012]搜索模块,被配置为在多个候选语言模型中搜索至少两个语言模型;
[0013]拼接模块,被配置为将所述至少两个语言模型进行拼接,得到拼接模型;
[0014]获得模块,被配置为通过所述拼接模型获得训练样本的词特征;
[0015]训练模块,被配置为根据所述词特征训练任务模型,直到所述任务模型收敛;
[0016]验证模块,被配置为根据验证样本对收敛后的任务模型进行验证,得到所述任务模型的预测精度;
[0017]调整模块,被配置为根据所述任务模型的预测精度调整所述多个候选语言模型的搜索参数。
[0018]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述模型处理方法的步骤。
[0019]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现所述模型处理方法的步骤。
[0020]本说明书提供的模型处理方法,通过在多个候选语言模型中搜索至少两个语言模
型;将所述至少两个语言模型进行拼接,得到拼接模型;通过所述拼接模型获得训练样本的词特征;根据所述词特征训练任务模型,直到所述任务模型收敛;再根据验证样本对收敛后的任务模型进行验证,得到所述任务模型的预测精度;根据所述任务模型的预测精度调整所述多个候选语言模型的搜索参数,实现了根据对至少两个语言模型的搜索结果确定拼接模型的内在结构,再通过拼接模型对任务模型进行单词表示,以便根据拼接模型输出的单词表示确定收敛后的任务模型的预测精度,并根据预测精度反向调整多个候选语言模型的搜索参数,通过调整后的搜索参数优化对语言模型的搜索过程,并基于不断优化的搜索过程提高对拼接模型进行结构设计的效率,并提高任务模型基于拼接模型的单词表示的预测精度。
附图说明
[0021]图1是本说明书一实施例提供的一种模型处理方法的流程图;
[0022]图2是本说明书一实施例提供的模型处理方法的原理示意图;
[0023]图3是本说明书一实施例提供的一种模型处理装置的结构示意图;
[0024]图4是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
[0025]在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0026]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0027]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0028]首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0029]强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
[0030]结构化预测:预测的输出不是一个标量(回归问题)或者一个类别(分类问题),而是输出一个结构,树、图或者其它序列能够互相影响彼此。
[0031]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的应用场景,是对于语言文字的智能处理,包括阅读理解、问答
对话、写作、翻译等等。进一步的,自然语言处理包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两部分。其中,自然语言理解是使计算机既能理解自然语言文本的意义,而自然语言生成是以自然语言文本来表达给定的意图、思想等。
[0032]LSTM(Long Short

Term Memory,长短时记忆模型),它是RNN(Recurrent Neural Network,循环神经网络)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。
[0033]BiLSTM(Bi

directional Long Short

Term Memory,双向长短时记忆模型),是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。
[0034]Flair:是一个基于P本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型处理方法,包括:在多个候选语言模型中搜索至少两个语言模型;将所述至少两个语言模型进行拼接,得到拼接模型;通过所述拼接模型获得训练样本的词特征;根据所述词特征训练任务模型,直到所述任务模型收敛;根据验证样本对收敛后的任务模型进行验证,得到所述任务模型的预测精度;根据所述任务模型的预测精度调整所述多个候选语言模型的搜索参数。2.根据权利要求1所述的方法,其中,一个候选语言模型作为一个节点,进入节点的有向边代表所述候选语言模型的输入,离开节点的有向边代表所述候选语言模型的输出,多个节点及有向边组成的有向无环图用于代表一组神经网络所存在的空间;相应的,所述在多个候选语言模型中搜索至少两个语言模型,包括:在多组神经网络所存在的空间中搜索至少两个节点。3.根据权利要求2所述的方法,其中,如果拼接模型为多个,所述方法还包括:根据概率分布对多个拼接模型进行采样,得到第一拼接模型;相应的,所述通过所述拼接模型获得训练样本的词特征包括:通过所述第一拼接模型获得训练样本的词特征。4.根据权利要求3所述的方法,其中,所述方法还包括:记录所述第一拼接模型与所述预测精度之间的对应关系。5.根据权利要求1所述的方法,其中,所述方法还包括:记录所述拼接模型与所述预测精度之间的对应关系。6.根据权利要求1所述的方法,其中,所述根据所述任务模型的预测精度调整所述多个候选语言模型的搜索参数,包括:根据所述预测精度、每个候选语言模型的搜索参数、搜索状态以及预设梯度策略算法,计算每个候选语言模型的搜索参数的梯度值;基于所述梯度值调整对应的搜索参数。7.根据权利要求1所述的方法,其中,所述根据所述任务模型的预测精度调整所述多个候选语言模型的搜索参数之后,还包括:在不满足预设搜索停止...

【专利技术属性】
技术研发人员:王新宇蒋勇王涛阮巴赫黄忠强黄非
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1