对模型进行动态更新的方法及装置制造方法及图纸

技术编号:23100183 阅读:25 留言:0更新日期:2020-01-14 20:48
本说明书实施例提供一种对模型进行动态更新的方法和装置,根据该方法的一个实施方式,获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;使用m条训练数据对当前模型进行增量训练,得到增量模型;基于对增量模型的规模控制,完成模型的动态更新。该实施方式的重复执行可以提高模型的更新效率,以及模型的有效性。

【技术实现步骤摘要】
对模型进行动态更新的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及通过计算机进行对模型进行动态更新的方法和装置。
技术介绍
在智能客服领域,用户与智能客服交互过程中,通常会出现口语化、语句简略化等情况。尤其是新用户,或者用户针对新应用,这种情况尤其明显。另一方面,应用的功能越来越多,变更频率的增加,造成普通用户对于应用日益复杂的业务逻辑可能不能快速熟悉,用户对相关业务问题的提问也处于一个动态频繁变化的趋势之中。这些情况导致用户的问题描述不清晰、不准确,或者描述冗杂,快速更新的业务逻辑同时给智能客服带来了许多新的用户问题。如何及时更新智能客服能力,是一个重要的业务问题。通常,智能客服可以包括一个或多个预先训练的模型来实现。为了不断适应新产品及新用户的提问。及时更新智能客服能力的问题,实质上就转化为对模型进行动态更新的问题。
技术实现思路
本说明书一个或多个实施例描述了一种对模型进行动态更新的方法和装置,可以使得模型终身提升学习,有效解决在业务逻辑快速变化的环境下,模型能力不断迭代的问题。根据第一方面,提供了一种对模型进行动态更新的方法,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述方法包括:获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;使用所述m条训练数据对当前模型进行增量训练,得到增量模型;基于对所述增量模型的规模控制,完成模型的动态更新。在一个实施例中,在智能问答场景中,单条训练数据包括,用户问题和相应的新增标签,新增标签是标准问题或标准问题对应的答案。在一个实施例中,所述至少一个隐藏层包括第一隐藏层,所述预定规则包括以下至少一项:在所述第一隐藏层增加第一比例的隐藏层节点,所述第一比例与输出节点的增加比例正相关;在所述第一隐藏层增加第一数量的隐藏层节点,所述第一数量与n的大小正相关。在一个实施例中,所述使用所述m条训练数据对当前模型进行增量训练,得到增量模型包括:针对m条训练数据,依次执行以下操作:利用特征提取网络处理训练数据中的特征相关信息,提取特征相关信息中的语义特征,并将所述语义特征输入增加节点后的隐藏层及输出层,得到输出结果;将所述输出结果与对应的新增标签进行对比,至少调整增加节点后的隐藏层及输出层中的各个节点参数,从而得到增量模型。在一个实施例中,所述使用所述m条训练数据对当前模型进行增量训练,得到增量模型之前,还包括:对各个节点参数进行初始化;其中,对增加的n个输出节点和增加的隐藏层节点,分别随机初始化相应的节点参数,其他节点沿用在当前模型中节点参数。在一个实施例中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:检测各个节点参数是否低于预先设定的参数阈值;在存在低于所述参数阈值的节点参数的情况下,删除节点参数低于所述参数阈值的各个节点。在一个实施例中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:删除节点参数最低的预定个数的节点;或者,删除节点参数最低的预定比例的节点。在一个实施例中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:在隐藏层或者输出层的节点数量超过相应层节点数量阈值的情况下,在相应层删除节点参数最低的至少一个节点,所删除的节点的数量为相应层当前总节点数量与相应层节点数量阈值的差值。根据第二方面,提供一种对模型进行动态更新的装置,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述装置包括:获取单元,配置为获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;第一添加单元,配置为在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;第二添加单元,配置为基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;增量训练单元,配置为使用所述m条训练数据对当前模型进行增量训练,得到增量模型;规模控制单元,配置为基于对所述增量模型的规模控制,完成模型的动态更新。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书一个实施例实现的对模型进行动态更新的方法和装置,一方面,根据增量数据增加模型节点,使用增量数据对模型进行增量训练,使模型适应新的业务要求,另一方面,对增量训练后的模型进行规模控制,避免模型无限扩张,实现模型的动态更新。如此,可以提高模型的实时性、有效性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出本说明书披露的一个实施例的实施场景示意图;图2示出了一个可实施本说明书实施例的对模型进行动态更新的方法的模型架构示意图;图3示出根据一个实施例的对模型进行动态更新的方法流程图;图4示出根据一个具体例子的对模型添加节点的示意图;图5示出根据一个具体例子的对模型进行规模控制后得到的模型架构示意图;图6示出根据一个实施例的对模型进行动态更新的装置的示意性框图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。图1为本说明书披露的一个实施例的实施场景示意图。如图1所示,该实施场景中,主要包括终端和计算平台。终端上可以安装有各种应用,例如购物类应用、支付类应用、地图类应用、网页类应用,等等。用户可以通过终端进行各种应用操作,例如浏览网页、点击页面上的超链接等。用户通过在终端的各种操作与相应应用的服务端交互。计算平台可以设在终端,也可以设在相应应用的服务端,在此不作限定。在图1示出的实施场景中,在该实施场景中,用户可以通过终端上的各种应用和相应的应用服务器交互,以使用应用所提供的功能。其中,这里的终端可以是诸如计算机、平板电脑、智能手机之类的硬件设备。终端上运行的应用可以由应用服务器提供服务。应用服务器端可以设置有客服平台。客服平台往往用于为用户解决应用使用过程中遇到的各种问题。例如,支付类应用支付不成功却显示扣款成功、借款应用如何还款,等等。用户在表达这些自己遇到的问题的时候,表达方式可能各不相同,例如有的人习惯性省略主语或模糊主语,如“怎么开通这个?”,有的人习惯用大量短句,如“‘账单’、‘到期了’、‘咋还’”,等等。在本说本文档来自技高网...

【技术保护点】
1.一种对模型进行动态更新的方法,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述方法包括:/n获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;/n在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;/n基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;/n使用所述m条训练数据对当前模型进行增量训练,得到增量模型;/n基于对所述增量模型的规模控制,完成模型的动态更新。/n

【技术特征摘要】
1.一种对模型进行动态更新的方法,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述方法包括:
获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;
在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;
基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;
使用所述m条训练数据对当前模型进行增量训练,得到增量模型;
基于对所述增量模型的规模控制,完成模型的动态更新。


2.根据权利要求1所述的方法,其中,在智能问答场景中,单条训练数据包括,用户问题和相应的新增标签,新增标签是标准问题或标准问题对应的答案。


3.根据权利要求1所述的方法,其中,所述至少一个隐藏层包括第一隐藏层,所述预定规则包括以下至少一项:
在所述第一隐藏层增加第一比例的隐藏层节点,所述第一比例与输出节点的增加比例正相关;
在所述第一隐藏层增加第一数量的隐藏层节点,所述第一数量与n的大小正相关。


4.根据权利要求1所述的方法,其中,所述使用所述m条训练数据对当前模型进行增量训练,得到增量模型包括:
针对m条训练数据,依次执行以下操作:
利用特征提取网络处理训练数据中的特征相关信息,提取特征相关信息中的语义特征,并将所述语义特征输入增加节点后的隐藏层及输出层,得到输出结果;
将所述输出结果与对应的新增标签进行对比,至少调整增加节点后的隐藏层及输出层中的各个节点参数,从而得到增量模型。


5.根据权利要求4所述的方法,其中,所述使用所述m条训练数据对当前模型进行增量训练,得到增量模型之前,还包括:
对各个节点参数进行初始化;
其中,对增加的n个输出节点和增加的隐藏层节点,分别随机初始化相应的节点参数,其他节点沿用其在所述当前模型中相应的节点参数。


6.根据权利要求4所述的方法,其中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:
检测各个节点参数是否低于预先设定的参数阈值;
在存在低于所述参数阈值的节点参数的情况下,删除节点参数低于所述参数阈值的各个节点。


7.根据权利要求4所述的方法,其中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:
删除节点参数最低的预定个数的节点;或者
删除节点参数最低的预定比例的节点。


8.根据权利要求4所述的方法,其中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:
在隐藏层或者输出层的节点数量超过相应层节点数量阈值的情况下,在相应层删除节点参数最低的至少一个节点,所删除的节点的数量为相应层当前总节点数量与相应层节点数量阈值的差值。


9.一种对模型进行动态更新的装置,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述装置包括:
获取单元,配置为获取对应n个新增标签的m条训练...

【专利技术属性】
技术研发人员:张望舒温祖杰
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1