【技术实现步骤摘要】
一种训练标记预测模型的方法和系统
本申请涉及数据处理领域,特别涉及一种训练标记预测模型方法和系统。
技术介绍
随着互联网的快速发展,智能客服机器人在各个领域的线上平台上起到了举足轻重的作用。通常,用户输入某个内容以后,智能客服机器人可以通过机器学习方法猜测用户的问题,并对问题进行解答,提高用户体验。若针对用户输入的问题只给出一个回答或者一个问题时,机器学习只需学习数据的一个标记即可。然而,大多数情况下用户遇到的问题不止一个,智能客服机器人需要基于用户输入的内容猜测多个疑问或/和答案。例如,某购物平台,用户输入“开通会员”,用户的疑问可能是“开通会员的条件”、“开通会员的流程”或/和“开通会员后的优惠”等。因此,亟需一种对数据(例如,用户输入的内容)进行多标记学习的方法,从而能够准确预测数据的多个标记。
技术实现思路
本说明书一个方面提供一种训练标记预测模型的方法。所述方法包括:获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数;从所述P个不同的标记中任选两个标记,生成(P(P-1))/2个标记对;从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将(P(P-1))/2 ...
【技术保护点】
1.一种训练标记预测模型的方法,包括:/n获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数:/n从所述P个不同的标记中任选两个标记,生成P(P-1)/2个标记对;/n从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;/n计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;/n基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将P(P-1)/2个二分类器组成标记预测模型。/n
【技术特征摘要】
1.一种训练标记预测模型的方法,包括:
获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数:
从所述P个不同的标记中任选两个标记,生成P(P-1)/2个标记对;
从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;
计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;
基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将P(P-1)/2个二分类器组成标记预测模型。
2.如权利要求1所述的方法,所述方法还包括:
将待预测样本输入所述P(P-1)/2个二分类器,得到P(P-1)/2个分类结果;
确定所述P(P-1)/2个分类结果中不同预测标记各自的数量,将满足预设条件的预测标记作为所述待预测样本的标记。
3.如权利要求1所述的方法,所述计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征包括:
计算所述第一样本与所述第一样本集的中心的第一距离,所述第一样本与所述第二样本集的中心的第二距离,将所述第一距离和所述第二距离作为所述第一样本的新特征;
计算所述第二样本与所述第一样本集的中心的第三距离,所述第二样本和所述第二样本集的中心的第四距离,将所述第三距离和所述第四距离作为所述第二样本的新特征。
4.如权利要求1所述的方法,通过K-均值聚类算法确定所述第一样本集的K1个中心和所述第二样本集的K2个中心,K1和K2为大于等于1的整数。
5.如权利要求1所述的方法,所述第一样本包含所述第一标记x,不包含所述第二标记y;所述第二样本包含所述第二标记y,不包含所述第一标记x。
6.如权利要求1所述的方法,所述距离为欧氏距离。
7.如权利要求2所述的方法,所述确定所述P(P-1)/2个分类结果中不同预测标记各自的数量包括:
确定所述P(P-1)/2个二分类器的权重,所述权重与训练所述二分类器的训练数据量正相关;
求和输出为同一个预测标记的所述二分类器的权重,得到不同预测标记各自的数量。
8.如权利要求2所述的方法,所述P个不同的标记中含有虚拟标记,在确定所述待预测样本的标记时,将所述数量大于第一阈值的预测标记作为所述待预测样本的标记,所述第一阈值为所述P(P-1)/2个分类结果中所述虚拟标记的数量。
9.如权利要求1所述的方法,所述样本为实体对象的数据,所述模型为针对实体对象的分类模型。
10.如权利要求9所述方法,所述实体对象的数据为智能客户数据。
11.一种训练标记预测模型的系统,包括:
样本获取模块,用于获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数;
标记对生成模块,用于从所述P个不同的标记中任选两个标记,生成P(P-1)/2...
【专利技术属性】
技术研发人员:方军鹏,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。