一种训练标记预测模型的方法及系统技术方案

技术编号:24497940 阅读:86 留言:0更新日期:2020-06-13 03:48
本说明书实施例公开了一种训练标记预测模型的方法及系统,所述方法包括:获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;分别除去所述多个样本中每个样本的噪声标记,得到所述多个样本的优化样本集;分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对的个数。

A method and system of training marker prediction model

【技术实现步骤摘要】
一种训练标记预测模型的方法及系统
本说明书实施例涉及计算机
,特别涉及一种训练标记预测模型的方法及系统。
技术介绍
随着互联网的快速发展,智能客服机器人在各个领域的线上平台上起到了举足轻重的作用。通常,用户输入某个内容以后,智能客服机器人可以通过机器学习方法猜测用户的问题,并对问题进行解答,提高用户体验。若针对用户输入的问题只给出一个回答或者一个问题时,机器学习只需学习数据的一个标记即可。然而,大多数情况下用户遇到的问题不止一个,智能客服机器人需要基于用户输入的内容猜测多个疑问或/和答案。例如,某购物平台,用户输入“开通会员”,用户的疑问可能是“开通会员的条件”、“开通会员的流程”或/和“开通会员后的优惠”等。因此,亟需一种对数据(例如,用户输入的内容)进行多标记学习的方法。
技术实现思路
本说明书实施例的一个方面提供一种训练标记预测模型的方法,包括:获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;分别除去所述多个样本中每个样本的噪声标记,得到所述多个样本的优化样本集;分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成;所述无关标记集由所述M个标记中除所述候选标记以外的标记组成;从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对的个数。本说明书实施例的一个方面提供一种训练标记预测模型的系统,包括:样本获取模块,用于所述多个样本合计包含M个不同标记,M为≥1的整数;标记去噪模块,用于分别除去所述多个样本中每个样本的噪声标记,得到所述多个样本的优化样本集;标记对生成模块,用于分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成;所述无关标记集由所述M个标记中除所述候选标记以外的标记组成;样本选取模块,用于从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;标记预测模型生成模块,用于将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对的个数。本说明书实施例的一个方面提供一种训练标记预测模型的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如上任一项所述的方法。本说明书实施例的一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机运行如上所述的任一项所述的方法。附图说明本说明书将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的应用场景示意图;图2是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的模块图;图3是根据本说明书的一些实施例所示的训练标记预测模型方法的示例性流程图;图4是根据本说明书的一些实施例所示的训练标记预测模型方法的另一示例性流程图;图5是根据本说明书的一些实施例所示的确定噪声标记的示例性流程图。图6是根据本说明书的一些实施例所示的基于标记预测模型预测待预测样本的标记的示例性流程图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。图1是根据本说明书的一些实施例所示的示例性训练标记预测模型系统的应用场景示意图。训练标记预测模型系统100可以通过实施本申请中披露的方法和/或过程来训练标记预测模型,以及对待预测样本的标记进行预测。在一些实施例中,标记预测模型可以应用于智能客服机器人领域。待预测样本即为用户输入的内容,例如,一个字,一句话、一段语音等。智能客服机器人需要基于用户输入的内容为用户推荐多个可能的答案,或多个可能的问题。智能客服机器人为了实现上述推荐,需要基于大量含有多个标记的样本进行标记预测模型的训练,从而,当用户输入问题之后,智能客服机器人可以根据训练得到标记预测模型确定用户输入内容的多个标记,这些标记可以代表用户问题中涉及的内容有哪些,换言之,代表用户想要得到答案有哪些,并基于这些标记为用户提供多个答案或者多个用户可能想要问的问题。智能客服机器人为用户推荐多个答案或问题之后,用户也许会产生错误点击或者错误描述的情况,因此会导致样本的候选标记空间存在噪声标记,为了提高标记预测模型的预测准确性,需要保证训练样本标记的准确性。从而可以通过系统100对训练样本中的标记进行去噪,具体的,可以通过系统100在一个训练样本含有的多个标记中确定该训练样本的噪声标记并去除。在一些实施例中,训练样本可以是用户输入的历史数据,例如,输入的文字、语音或图片等,标记可以是类别信息。示例的,用户输入“请问这款产品近期的活动?”,系统100基于标记预测模型可以预测该问题的标记为“活动时间”“折扣”“礼品”,并为将答案“活动时间在11月19-11月25日”“5折”“若单笔订单满999,送耳机一副”。如图1所示,训练标记预测模型系统100可以包括服务器110、网络120、用户端130、数据库140。服务器110可以包含处理设备112。在一些实施例中,服务器110可以用于处理与数据处理相关的信息和/或数据。在一些实施例中,服务器110可以直接与数据库140和/或用户端130连接以访问存储于其中的信息和/或资料。例如,服务器110可以通过网本文档来自技高网...

【技术保护点】
1.一种训练标记预测模型的方法,包括:/n获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;/n分别除去所述多个样本中每个样本的噪声标记,得到所述多个样本的优化样本集;/n分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成;所述无关标记集由所述M个标记中除所述候选标记以外的标记组成;/n从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;/n将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对的个数。/n

【技术特征摘要】
1.一种训练标记预测模型的方法,包括:
获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;
分别除去所述多个样本中每个样本的噪声标记,得到所述多个样本的优化样本集;
分别从同一个所述样本的真实标记集和无关标记集中任选一个标记,生成至少一个标记对(x,y);所述真实标记集由所述至少一个候选标记中除所述噪声标记以外的标记组成;所述无关标记集由所述M个标记中除所述候选标记以外的标记组成;
从所述优化样本集中选取训练二分类器的正负样本,训练得到的目标二分类器用于预测所述标记对(x,y)的第一标记x和第二标记y;
将P个所述目标二分类器组成标记预测模型,P为生成的不同的所述标记对的个数。


2.如权利要求1所述的方法,所述方法还包括:
从所述多个样本中每个样本的真实标记集中取一个标记t与至少一个虚拟标记v配对,生成Q个不同的虚拟标记对(t,v);
从所述优化样本集中选取用于训练二分类器的正负样本,训练得到的第一二分类器用于预测所述虚拟标记对(t,v)中的标记t和所述虚拟标记v;
将P个所述目标二分类器和Q个所述第一二分类器组成所述标记预测模型。


3.如权利要求1或2所述的方法,所述方法还包括:
将待预测样本输入所述标记预测模型,得到至少一个分类结果;
确定所述至少一个分类结果中不同预测标记各自的数量,将满足预设条件的预测标记作为所述待预测样本的标记。


4.如权利要求3所述的方法,所述预设条件包括:
将所述数量大于第一阈值的预测标记作为所述待预测样本的标记,所述第一阈值为所述虚拟标记的数量。


5.如权利要求3所述的方法,所述确定所述至少一个分类结果中不同预测标记各自的数量包括:
确定所述目标二分类器或第一二分类器的权重,所述权重与训练样本量正相关;
求和输出为同一个预测标记的目标二分类器或第一二分类器的权重,得到不同预测标记各自的数量。


6.如权利要求1所述的方法,确定所述样本的所述噪声标记包括:
初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵;
基于映射矩阵迭代更新所述初始置信度矩阵,得到第一置信度矩阵;其中,所述映射矩阵用于从所述多个样本的特征空间映射至所述多个样本的标记空间;
将权重向量与所述第一置信度矩阵相乘,得到所述样本的优化置信度向量;所述权重向量中元素代表由所述样本与所述样本邻近的样本的相似度占比确定的权重;
将所述优化置信度向量中不满足预设条件的置信度对应的候选标记确定为所述样本的所述噪声标记。


7.如权利要求6所述的方法,基于流形学习算法确定所述映射矩阵。


8.如权利要求6所述的方法,基于所述映射矩阵迭代更新所述初始置信度矩阵,得到第一置信度矩阵包括:
将所述映射矩阵的转置与所述映射矩阵的乘积与迭代(t-1)次得到的中间置信度矩阵相乘,将相乘后的结果与所述置信度矩阵比例相加,得到迭代t次得到的中间置信度,t为大于等于1的整数;
直到迭代得到的中间置信度矩阵满足预设条件,迭代结束,并将迭代结束后得到的置信度矩阵作为第一置信度矩阵。


9.如权利要求6所述的方法,所述初始化所述样本包含所述M个不同标记中任一标记的概率包括:
当所述M个不同标记中任一标记为所述样本的候选标记时,将所述概率初始化为1/N,N为所述样本包含的候选标记的个数;候选标记表示所述样本存在所述标记;
当所述M个不同标记中任一标记不为所述样本的候选标记时,将所述概率初始化为0。


10.如权利要求6所述的方法,通过距离衡量所述相似度。


11.如权利要求10所述的方法,所述权重向量中权重与相似度占比负相关。


12.如权利要求1所述的方法,所述正负样本中正样本包含所述第一标记x,不包含所述第二标记y;所述正负样本中负样本包含所述第二标记y,不包含所述第一标记x。


13.如权利要求6所述的方法,在将所述权重向量与所...

【专利技术属性】
技术研发人员:方军鹏
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1