【技术实现步骤摘要】
文本预测模型的训练方法及装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及文本预测模型的训练方法和装置。
技术介绍
随着人工智能和机器学习的快速发展,各种自然语言处理任务已广泛应用于多种业务实施场景。例如,文本分类任务可以用于在智能问答客服系统中,将用户提出的问题作为输入文本进行分类,以进行用户意图识别,自动问答,或者人工客服派单等。文本分类还可用于,例如文档数据归类,舆情分析,垃圾信息识别等等多种应用场景。又例如,不同语种的机器翻译任务广泛用于各种自动翻译系统。一般地,语言模型是进行上述各种具体的自然语言处理任务的基础模型。语言模型需要基于大量语料进行训练。其中,文本预测,即根据已有文本预测后续文本,是对语言模型进行训练的一种基础任务。因此,希望能有改进的方案,可以更为有效地针对文本预测任务进行训练。
技术实现思路
本说明书一个或多个实施例描述了一种文本预测模型及其训练方法,其中综合利用局部上下文和长程上下文进行预测,全面提高文本预测模型对文本的理解能力和针对后续文本的预测准确性。根据第一方面,提供了一种文本预测模型的训练方法,所述文本预测模型包括基于时序的第一预测网络,和第二预测网络,所述方法包括:在依次输入当前训练文本中的前t-1个词之后,将第t个词输入所述第一预测网络,使得所述第一预测网络根据处理第t-1个词后的状态向量,以及所述第t个词的词向量,确定处理第t个词后的状态向量作为第一隐向量;并根据该第一隐向量,确定对于下一个词的第一预测概率;从 ...
【技术保护点】
1.一种文本预测模型的训练方法,所述文本预测模型包括基于时序的第一预测网络,和第二预测网络,所述方法包括:/n在依次输入当前训练文本中的前t-1个词之后,将第t个词输入所述第一预测网络,使得所述第一预测网络根据处理第t-1个词后的状态向量,以及所述第t个词的词向量,确定处理第t个词后的状态向量作为第一隐向量;并根据该第一隐向量,确定对于下一个词的第一预测概率;/n从缓存器中读取已有的若干片段向量,所述已有的若干片段向量基于所述当前训练文本中所述第t个词之前的文本形成,且每个片段向量对应于长度为L个词的文本片段;/n所述第二预测网络根据所述若干片段向量,确定对于下一个词的第二预测概率;/n以内插权重系数作为所述第二预测概率的加权系数,以1减去所述内插权重系数的差值作为所述第一预测概率的加权系数,对所述第一预测概率和第二预测概率进行内插加权综合,得到对于下一个词的综合预测概率;/n至少根据所述综合预测概率和所述训练文本中第t+1个词,确定针对第t个词的预测损失;/n根据所述当前训练文本中针对各个词的预测损失,训练所述文本预测模型。/n
【技术特征摘要】
1.一种文本预测模型的训练方法,所述文本预测模型包括基于时序的第一预测网络,和第二预测网络,所述方法包括:
在依次输入当前训练文本中的前t-1个词之后,将第t个词输入所述第一预测网络,使得所述第一预测网络根据处理第t-1个词后的状态向量,以及所述第t个词的词向量,确定处理第t个词后的状态向量作为第一隐向量;并根据该第一隐向量,确定对于下一个词的第一预测概率;
从缓存器中读取已有的若干片段向量,所述已有的若干片段向量基于所述当前训练文本中所述第t个词之前的文本形成,且每个片段向量对应于长度为L个词的文本片段;
所述第二预测网络根据所述若干片段向量,确定对于下一个词的第二预测概率;
以内插权重系数作为所述第二预测概率的加权系数,以1减去所述内插权重系数的差值作为所述第一预测概率的加权系数,对所述第一预测概率和第二预测概率进行内插加权综合,得到对于下一个词的综合预测概率;
至少根据所述综合预测概率和所述训练文本中第t+1个词,确定针对第t个词的预测损失;
根据所述当前训练文本中针对各个词的预测损失,训练所述文本预测模型。
2.根据权利要求1所述的方法,其中,所述第一预测网络包括循环神经网络RNN或长短期记忆网络LSTM。
3.根据权利要求1所述的方法,其中,所述若干片段向量包括第一文本片段对应的第一片段向量,所述第一文本片段包括所述当前训练文本的第i个词到第j个词,其中i和j均小于t,所述第一片段向量基于第一状态向量和第二状态向量的差值而获得,其中所述第一状态向量为所述第一预测网络处理所述第j个词后的状态向量,所述第二状态向量为所述第一预测网络处理第(i-1)个词后的状态向量。
4.根据权利要求1或3所述的方法,还包括,
若所述第t个词为当前文本片段的最后一个词,则根据所述第一隐向量和第二隐向量的差值确定新增片段向量,其中第二隐向量为所述第一预测网络处理第t-L个词后的状态向量;
将所述新增片段向量添加至所述缓存器。
5.根据权利要求4所述的方法,其中,将所述新增片段向量添加至所述缓存器,包括:
判断所述缓存器中已有的若干片段向量的数目是否达到预定阈值数目;
如果达到所述预定阈值数目,则删除其中最早存入的片段向量,并将所述新增片段向量存入所述缓存器。
6.根据权利要求1所述的方法,其中,所述第二预测网络根据所述若干片段向量,确定对于下一个词的第二预测概率,包括:
确定与所述若干片段向量分别对应的若干注意力系数;
以所述若干注意力系数为权重因子,对所述若干片段向量加权组合,得到上下文向量;
根据所述上下文向量和线性变换矩阵,得到所述第二预测概率。
7.根据权利要求6所述的方法,其中,根据该第一隐向量,确定对于下一个词的第一预测概率,包括:
根据所述第一隐向量和所述线性变换矩阵,得到所述第一预测概率。
8.根据权利要求6所述的方法,其中,确定与所述若干片段向量分别对应的若干注意力系数,包括:
根据所述若干片段向量中任意的第i片段向量与所述第一隐向量之间的相似度,确定第i注意力系数。
9.根据权利要求6所述的方法,其中,确定与所述若干片段向量分别对应的若干注意力系数,包括:
利用第一变换矩阵,将所述若干片段向量中任意的第i片段向量变换为第一中间向量;
利用第二变换矩阵,将所述第一隐向量变换为第二中间向量;
确定第一中间向量和第二中间向量的和向量与第三向量之间的相似度;
根据所述相似度,确定第i注意力系数;
其中,所述第一变换矩阵,第二变换矩阵和第三向量均为所述第二预测网络中的可训练网络参数。
10.根据权利要求1所述的方法,其中,所述文本预测模型还包括策略网络;在对所述第一预测概率和第二预测概率进行内插加权综合之前,所述方法还包括:
所述策略网络根据所述第一隐向量,输出所述内插权重系数;
至少根据所述综合预测概率和所述训练文本中第t+1个词,确定预测损失,包括:根据所述综合预测概率,所述第t+1个词,所述第一预测概率和第二预测概率,以及所述内插权重系数,确定所述预测损失。
11.根据权利要求10所述的方法,其中,所述策略网络根据所述第一隐向量,输出所述内插权重系数,包括:
对所述第一隐向量至少施加策略变换矩阵,得到策略向量,其中所述策略变换矩阵为所述策略网络中可训练的模型参数;
根据所述策略向量中预定维度的元素值,确定所述内插权重系数。
12.根据权利要求11所述的方法,其中,对所述第一隐向量至少施加策略变换矩阵,得到策略向量,包括:
根据所述当前训练文本,确定训练策略系数;
对所述第一隐向量施加所述策略变换矩阵,并除以所述训练策略系数,得到所述策略向量。
13.根据权利要求12所述的方法,其中,根据所述当前训练文本,确定训练策略系数,包括:
根据所述当前训练文本在训练样本集中的训练顺序编号,确定所述训练策略系数,使得所述训练策略系数与所述训练顺序编号负相关。
14.根据权利要求12所述的方法,其中,根据所述当前训练文本,确定训练策略系数,包括:
根据所述当前训练文本的文本总长度,确定所述训练策略系数,使得所述训练策略系数与所述文本总长度负相关。
15.根据权利要求10所述的方法,其中,根据所述第一预测概率,第二预测概率,所述综合预测概率,所述第t+1个词,以及所述内插权重系数,确定所述预测损失,包括:
根据所述综合预测概率和所述第t+1个词,确定第一损失项;
根据所述内插权重系数,确定第二损失项,其中所述第二损失项与所述内插权重系数负相关;
根据所述第二预测概率和第一预测概率分别针对所述第t+1个词的概率值的比值,确定所述奖励项,所述奖励项正相关于所述比值;
以所述奖励项作为所述第二损失项的系数,对所述第一损失项和所述第二损失项求和,从而确定所述预测损失。
16.一种文...
【专利技术属性】
技术研发人员:李扬名,姚开盛,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。