一种训练标记预测模型的方法和系统技术方案

技术编号:24497938 阅读:16 留言:0更新日期:2020-06-13 03:48
本说明书实施例公开了一种训练标记预测模型的方法和系统。所述方法包括:获取多个样本,多个样本合计包含P个不同的标记,P为≥2的整数;从P个不同的标记中任选两个标记,生成(P(P‑1))/2个标记对;从多个样本中选取标记对(x,y)对应的第一样本和第二样本;第一样本包含第一标记x,第二样本包含第二标记y;第一样本组成第一样本集,第二样本组成第二样本集;计算选取的样本分别与两个样本集各自中心的距离,将该距离作为所述选取的样本的新特征;基于附加了新特征的选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将(P(P‑1))/2个二分类器组成标记预测模型。

A method and system of training marker prediction model

【技术实现步骤摘要】
一种训练标记预测模型的方法和系统
本申请涉及数据处理领域,特别涉及一种训练标记预测模型方法和系统。
技术介绍
随着互联网的快速发展,智能客服机器人在各个领域的线上平台上起到了举足轻重的作用。通常,用户输入某个内容以后,智能客服机器人可以通过机器学习方法猜测用户的问题,并对问题进行解答,提高用户体验。若针对用户输入的问题只给出一个回答或者一个问题时,机器学习只需学习数据的一个标记即可。然而,大多数情况下用户遇到的问题不止一个,智能客服机器人需要基于用户输入的内容猜测多个疑问或/和答案。例如,某购物平台,用户输入“开通会员”,用户的疑问可能是“开通会员的条件”、“开通会员的流程”或/和“开通会员后的优惠”等。因此,亟需一种对数据(例如,用户输入的内容)进行多标记学习的方法,从而能够准确预测数据的多个标记。
技术实现思路
本说明书一个方面提供一种训练标记预测模型的方法。所述方法包括:获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数;从所述P个不同的标记中任选两个标记,生成(P(P-1))/2个标记对;从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将(P(P-1))/2个二分类器组成标记预测模型。本说明书另一个方面提供一种训练标记预测模型的系统。所述系统包括:样本获取模块,用于获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数;标记对生成模块,用于从所述P个不同的标记中任选两个标记,生成(P(P-1))/2个标记对;样本选取模块,用于从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;特征获取模块,用于计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;标记预测模型生成模块,用于基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将(P(P-1))/2个二分类器组成标记预测模型。本说明书另一个方面提供一种训练标记预测模型的装置,包括至少一个存储介质和至少一个处理器,所述存储介质用于存储计算机指令;所述处理器用于执行训练标记预测模型的方法。本说明书另一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行训练标记预测模型的方法。附图说明本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的训练标记预测模型系统的应用场景示意图;图2是根据本说明书一些实施例所示的训练标记预测模型系统的模块图;图3是根据本说明书一些实施例所示的训练标记预测模型方法的示例性流程图;图4是根据本说明书一些实施例所示的基于标记预测模型预测待预测样本的标记的示例性流程图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。图1是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的应用场景示意图。训练标记预测模型系统100可以通过实施本申请中披露的方法和/或过程来训练标记预测模型,以及对待预测样本的标记进行预测。在一些实施例中,标记预测模型可以应用于智能客服机器人领域。待预测样本即为用户输入的内容,例如,一个字,一句话、一段语音等。智能客服机器人需要基于用户输入的内容确定用户想要问的一个或者多个问题,或者一个或者多个答案。基于系统100,当用户输入内容之后,智能机器机器人可以根据训练得到标记预测模型确定用户输入内容的多个标记,这些标记可以代表用户问题中涉及的内容有哪些,换言之,代表用户想要得到答案有哪些,并基于这些标记为用户提供多个答案或者多个用户可能想要问的问题。示例的,用户输入“请问这款产品近期的活动?”,系统100基于标记预测模型可以预测该问题的标记为“活动时间”“折扣”“礼品”,并为将答案“活动时间在11月19-11月25日”“5折”“若单笔订单满999,送耳机一副”。如图1所示,训练标记预测模型系统100可以包括服务器110、网络120、用户端130、数据库140。服务器110可以包含处理设备112。在一些实施例中,服务器110可以用于处理与数据处理相关的信息和/或数据。在一些实施例中,服务器110可以直接与数据库140和/或用户端130连接以访问存储于其中的信息和/或资料。例如,服务器110可以通过网络120获取数据库中多个样本进行标记预测模型的训练。又例如,服务器110可以通过网络120访问用户端130输入的用户内容,并将该内容输入到标记预测模型中确定该内容的标记,以便于确定用户想要的答案。服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如:服务器110可以是分布系统)。在一些实施例中,服务器110可以是区域的或者远程的。在一些实施例中,服务器110可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。在一些实施例中,服务器110可包含处理设备112。该处理设备112可处理数据和/或信息以执行一个或多个本申请中描述的功能。例如,处理设备112可以对多个样本的标记进行两两配对,本文档来自技高网...

【技术保护点】
1.一种训练标记预测模型的方法,包括:/n获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数:/n从所述P个不同的标记中任选两个标记,生成P(P-1)/2个标记对;/n从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;/n计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;/n基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将P(P-1)/2个二分类器组成标记预测模型。/n

【技术特征摘要】
1.一种训练标记预测模型的方法,包括:
获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数:
从所述P个不同的标记中任选两个标记,生成P(P-1)/2个标记对;
从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;
计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;
基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将P(P-1)/2个二分类器组成标记预测模型。


2.如权利要求1所述的方法,所述方法还包括:
将待预测样本输入所述P(P-1)/2个二分类器,得到P(P-1)/2个分类结果;
确定所述P(P-1)/2个分类结果中不同预测标记各自的数量,将满足预设条件的预测标记作为所述待预测样本的标记。


3.如权利要求1所述的方法,所述计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征包括:
计算所述第一样本与所述第一样本集的中心的第一距离,所述第一样本与所述第二样本集的中心的第二距离,将所述第一距离和所述第二距离作为所述第一样本的新特征;
计算所述第二样本与所述第一样本集的中心的第三距离,所述第二样本和所述第二样本集的中心的第四距离,将所述第三距离和所述第四距离作为所述第二样本的新特征。


4.如权利要求1所述的方法,通过K-均值聚类算法确定所述第一样本集的K1个中心和所述第二样本集的K2个中心,K1和K2为大于等于1的整数。


5.如权利要求1所述的方法,所述第一样本包含所述第一标记x,不包含所述第二标记y;所述第二样本包含所述第二标记y,不包含所述第一标记x。


6.如权利要求1所述的方法,所述距离为欧氏距离。


7.如权利要求2所述的方法,所述确定所述P(P-1)/2个分类结果中不同预测标记各自的数量包括:
确定所述P(P-1)/2个二分类器的权重,所述权重与训练所述二分类器的训练数据量正相关;
求和输出为同一个预测标记的所述二分类器的权重,得到不同预测标记各自的数量。


8.如权利要求2所述的方法,所述P个不同的标记中含有虚拟标记,在确定所述待预测样本的标记时,将所述数量大于第一阈值的预测标记作为所述待预测样本的标记,所述第一阈值为所述P(P-1)/2个分类结果中所述虚拟标记的数量。


9.如权利要求1所述的方法,所述样本为实体对象的数据,所述模型为针对实体对象的分类模型。


10.如权利要求9所述方法,所述实体对象的数据为智能客户数据。


11.一种训练标记预测模型的系统,包括:
样本获取模块,用于获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数;
标记对生成模块,用于从所述P个不同的标记中任选两个标记,生成P(P-1)/2...

【专利技术属性】
技术研发人员:方军鹏
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1