【技术实现步骤摘要】
一种训练标记预测模型的方法及系统
本说明书实施例涉及计算机
,特别涉及一种训练标记预测模型的方法及系统。
技术介绍
随着互联网的快速发展,智能客服机器人在各个领域的线上平台上起到了举足轻重的作用。通常,用户输入某个内容以后,智能客服机器人可以通过机器学习方法猜测用户的问题,并对问题进行解答,提高用户体验。若针对用户输入的问题只给出一个回答或者一个问题时,机器学习只需学习数据的一个标记即可。然而,大多数情况下用户遇到的问题不止一个,智能客服机器人需要基于用户输入的内容猜测多个疑问或/和答案。例如,某购物平台,用户输入“开通会员”,用户的疑问可能是“开通会员的条件”、“开通会员的流程”或/和“开通会员后的优惠”等。因此,亟需一种对数据(例如,用户输入的内容)进行多标记学习的方法。
技术实现思路
本说明书实施例的一个方面提供一种训练标记预测模型的方法,包括:获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;分别除去所述多个样本中每个样本的噪声标记,得到所述多个样本的优化样本集;分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成;所述无关标记集由所述M个标记中除所述候选标记以外的标记组成;从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对 ...
【技术保护点】
1.一种训练标记预测模型的方法,包括:/n获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;/n分别除去所述多个样本中每个样本的噪声标记,得到所述多个样本的优化样本集;/n分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成;所述无关标记集由所述M个标记中除所述候选标记以外的标记组成;/n从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;/n将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对的个数。/n
【技术特征摘要】
1.一种训练标记预测模型的方法,包括:
获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;
分别除去所述多个样本中每个样本的噪声标记,得到所述多个样本的优化样本集;
分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成;所述无关标记集由所述M个标记中除所述候选标记以外的标记组成;
从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;
将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对的个数。
2.如权利要求1所述的方法,所述方法还包括:
从所述多个样本中每个样本的真实标记集中取一个标记t与至少一个虚拟标记v配对,生成Q个不同的虚拟标记对(t,v);
从所述优化样本集中选取用于训练二分类器的正负样本,训练得到的第一二分类器用于预测所述虚拟标记对(t,v)中的标记t和所述虚拟标记v;
将P个所述目标二分类器和Q个所述第一二分类器组成所述标记预测模型。
3.如权利要求1或2所述的方法,所述方法还包括:
将待预测样本输入所述标记预测模型,得到至少一个分类结果;
确定所述至少一个分类结果中不同预测标记各自的数量,将满足预设条件的预测标记作为所述待预测样本的标记。
4.如权利要求3所述的方法,所述预设条件包括:
将所述数量大于第一阈值的预测标记作为所述待预测样本的标记,所述第一阈值为所述虚拟标记的数量。
5.如权利要求3所述的方法,所述确定所述至少一个分类结果中不同预测标记各自的数量包括:
确定所述目标二分类器或第一二分类器的权重,所述权重与训练样本量正相关;
求和输出为同一个预测标记的目标二分类器或第一二分类器的权重,得到不同预测标记各自的数量。
6.如权利要求1所述的方法,确定所述样本的所述噪声标记包括:
初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵;
基于映射矩阵迭代更新所述初始置信度矩阵,得到第一置信度矩阵;其中,所述映射矩阵用于从所述多个样本的特征空间映射至所述多个样本的标记空间;
将权重向量与所述第一置信度矩阵相乘,得到所述样本的优化置信度向量;所述权重向量中元素代表由所述样本与所述样本邻近的样本的相似度占比确定的权重;
将所述优化置信度向量中不满足预设条件的置信度对应的候选标记确定为所述样本的所述噪声标记。
7.如权利要求6所述的方法,基于流形学习算法确定所述映射矩阵。
8.如权利要求6所述的方法,基于所述映射矩阵迭代更新所述初始置信度矩阵,得到第一置信度矩阵包括:
将所述映射矩阵的转置与所述映射矩阵的乘积与迭代(t-1)次得到的中间置信度矩阵相乘,将相乘后的结果与所述置信度矩阵比例相加,得到迭代t次得到的中间置信度,t为大于等于1的整数;
直到迭代得到的中间置信度矩阵满足预设条件,迭代结束,并将迭代结束后得到的置信度矩阵作为第一置信度矩阵。
9.如权利要求6所述的方法,所述初始化所述样本包含所述M个不同标记中任一标记的概率包括:
当所述M个不同标记中任一标记为所述样本的候选标记时,将所述概率初始化为1/N,N为所述样本包含的候选标记的个数;候选标记表示所述样本存在所述标记;
当所述M个不同标记中任一标记不为所述样本的候选标记时,将所述概率初始化为0。
10.如权利要求6所述的方法,通过距离衡量所述相似度。
11.如权利要求10所述的方法,所述权重向量中权重与相似度占比负相关。
12.如权利要求1所述的方法,所述正负样本中正样本包含所述第一标记x,不包含所述第二标记y;所述正负样本中负样本包含所述第二标记y,不包含所述第一标记x。
13.如权利要求6所述的方法,在将所述权重向量与所...
【专利技术属性】
技术研发人员:方军鹏,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。