业务类别预测方法及系统技术方案

技术编号:21953727 阅读:27 留言:0更新日期:2019-08-24 18:12
本公开提供基于层级模型的业务类别预测方案。在该方案中,类别预测模型具有层级模型结构,即,第一业务类别预测模型和第二业务类别预测模型,第二业务类别是第一业务类别的子类别。第一业务类别预测模型利用具有第一业务类别标记值的第一样本数据集训练出,第二业务类别预测模型利用具有对应的第二业务类别标记值的第二样本数据集训练出。在预测时,分别使用第一和第二业务预测模型来预测出第一和第二业务类别预测结果,然后对第一和第二业务类别预测结果进行整合,并基于整合后的结果来确定业务类别。利用该方案,针对类别间具有高相关性的应用场景,能够实现高效的业务类别预测。

Business Category Prediction Method and System

【技术实现步骤摘要】
业务类别预测方法及系统
本公开通常涉及计算机
,更具体地,涉及用于训练业务类别预测模型的方法及装置,以及用于预测业务数据的类别的方法、装置和系统。
技术介绍
随着互联网的发展,人工智能技术的普及,越来越多的公司尝试应用人工智能或机器学习的相关技术来解决其业务问题。目前应用最为广泛、最为成熟的技术是二分类的监督学习任务。例如,在异常交易的挖掘中,给定的是大量具有标记信息的交易数据,标记信息为该交易是否是一笔异常交易。在之后的任务中,通过构建模型来对未来交易进行异常交易可能性预测,并对高异常可能的交易进行阻止。然而,另一方面,大量的学习任务具有多类别的特点,即,可能的标记信息具有多种。例如,以支付宝设置页面的用户点击预测为例,用户可能选择点击“安全设置”(及其子选项“密码设置”、“账号授权”、“解锁设置”、“安全中心”等)、“生物识别”(及其子选项)、“支付设置”(及其子选项)、“通用”(及其子选项)等不同选项,也就意味着类别具有多种,而非仅仅两类,此时对于建模任务而言,常常需要针对每个子选项预测用户点击的概率,因而类别总数就变得更多。显然,多分类学习任务要比二分类学习任务更为复杂和困难,因为其需要从更多的类别中选择预测的类别。此外,在工业应用场景下,常常具有类别不平衡、部分类别间的高相关性等特点。仍以支付宝设置页面的用户核身推荐为例来进行说明。首先,每个不同的选项及其子选项的点击量是极其不同的,多者可达几千万,少者可能仅有几万神之更少。其次,类别“安全设置”可细分为“密码设置”、“账号授权”、“解锁设置”、“安全中心”,而类别“生物识别”可细分为“刷脸设置”、“指纹”、“声音锁”。同样的,对于类别“支付设置”和“通用”也可以进一步细分。此时,当对“密码设置”、“账号授权”、“解锁设置”、“安全中心”、刷脸设置”、“指纹”、“声音锁”等子选项建立多分类模型时,可以看出不同子项是有其所属的大类,并且同一个大类下的子选项之间具有高相关性。如何在上述工业应用场景下进行业务类别预测,成为亟待解决的问题。
技术实现思路
鉴于上述,本公开提供了一种业务类别预测方法及装置。利用该业务类别预测方法及装置,能够针对类别间具有高相关性的应用场景,实现高效的业务类别预测。根据本公开的一个方面,提供了一种用于预测业务数据的类别的方法,包括:将待预测业务数据提供给第一业务类别预测模型来进行第一业务类别预测,以得到第一业务类别预测结果;将所述待预测业务数据提供给至少一个第二业务类别预测模型来进行第二业务类别预测,以得到至少一个第二业务类别预测结果,第二业务类别是第一业务类别的次级类别;对所得到的第一业务类别预测结果和至少一个第二业务类别预测结果进行整合处理,以得到整合后的第二业务类别预测结果;以及基于整合后的第二业务类别预测结果,从至少一个第二业务类别中确定出所述待预测业务数据的业务类别,其中,所述第一和第二业务类别预测模型是多类别预测模型,所述第二业务类别预测模型的数目与所述第一业务类别的数目相等,以及每个第二业务类别预测模型对应一个第一业务类别,其中,所述第一业务类别预测模型是利用具有第一业务类别标记值的第一样本数据集训练出的,以及所述第二业务类别预测模型是利用具有对应的第二业务类别标记值的第二样本数据集训练出的。可选地,在上述方面的一个示例中,用于训练第二业务类别预测模型的第二样本数据集是所述第一样本数据集中的所具有的第一业务类别标记值指示属于与该第二业务类别预测模型对应的第一业务类别的样本数据集。可选地,在上述方面的一个示例中,所述第一业务类别预测结果是所述待预测业务数据属于各个第一业务类别的概率,以及所述第二业务类别预测结果是所述待预测业务数据属于各个第二业务类别的概率。可选地,在上述方面的一个示例中,对所得到的第一业务类别预测结果和第二业务类别预测结果进行整合处理,以得到整合后的第二业务类别预测结果包括:针对所述至少一个第二业务类别中的各个第二业务类别,计算所述待预测业务数据属于该第二业务类别的概率与所述待预测业务数据属于与该第二业务类别对应的第一类别的概率的乘积,作为整合后的所述待预测业务数据属于该第二业务类别的概率。可选地,在上述方面的一个示例中,对所得到的第一业务类别预测结果和第二业务类别预测结果进行整合处理,以得到整合后的第二业务类别预测结果包括:针对所述至少一个第二业务类别中的各个第二业务类别,根据预定函数来计算整合后的所述待预测业务数据属于该第二业务类别的概率,所述预定函数以所述待预测业务数据属于该第二业务类别的概率和所述待预测业务数据属于与该第二业务类别对应的第一类别的概率为自变量。可选地,在上述方面的一个示例中,在用于训练第一业务类别预测模型的第一样本数据集中,各个第一业务类别所具有的样本数据数目满足第一预定比例范围要求;和/或在用于训练第二业务类别预测模型的第二样本数据集中,各个第二业务类别所具有的样本数据数目满足第二预定比例范围要求。根据本公开的另一方面,提供一种用于训练业务类别预测模型的方法,包括:使用具有第一业务类别标记值的第一样本数据集训练出第一业务类别预测模型;以及使用至少一个第二样本数据集训练出至少一个第二业务类别预测模型,第二业务类别是第一业务类别的次级类别,其中,所述第一和第二业务类别预测模型是多类别预测模型,所述第二业务类别预测模型的数目与所述第一业务类别的数目相等,每个第二业务类别预测模型对应一个第一业务类别,以及每个第二业务类别预测模型是利用具有对应的第二业务类别标记值的第二样本数据集训练出的。可选地,在上述方面的一个示例中,所述第一样本数据集和所述第二样本数据集相同,以及用于训练第二业务类别预测模型的样本数据是所具有的第一业务类别标记值指示属于与该第二业务类别预测模型对应的第一业务类别的样本数据。可选地,在上述方面的一个示例中,所述方法还可以包括:对用于训练第一业务类别预测模型的第一样本数据集进行样本数目均衡处理,以使得各个第一业务类别所具有的样本数据数目满足第一预定比例范围要求;和/或对用于训练第二业务类别预测模型的至少一个第二样本数据集进行样本数据均衡处理,以使得各个第二样本数据中的各个第二业务类别所具有的样本数据数目满足第二预定比例范围要求。根据本公开的另一方面,提供一种用于预测业务数据的类别的装置,包括:第一业务类别预测单元,被配置为将待预测业务数据提供给第一业务类别预测模型来进行第一业务类别预测,以得到第一业务类别预测结果;第二业务类别预测单元,被配置为将所述待预测业务数据提供给至少一个第二业务类别预测模型来进行第二业务类别预测,以得到至少一个第二业务类别预测结果,第二业务类别是第一业务类别的次级类别;预测结果整合单元,被配置为对所得到的第一业务类别预测结果和至少一个第二业务类别预测结果进行整合处理,以得到整合后的第二业务类别预测结果;以及业务类别确定单元,被配置为基于整合后的第二业务类别预测结果,从至少一个第二业务类别中确定出所述待预测业务数据的业务类别,其中,所述第一和第二业务类别预测模型是多类别预测模型,所述第二业务类别预测模型的数目与所述第一业务类别的数目相等,以及每个第二业务类别预测模型对应一个第一业务类别,其中,所述第一业务类别预测模型是利用本文档来自技高网
...

【技术保护点】
1.一种用于预测业务数据的类别的方法,包括:将待预测业务数据提供给第一业务类别预测模型来进行第一业务类别预测,以得到第一业务类别预测结果;将所述待预测业务数据提供给至少一个第二业务类别预测模型来进行第二业务类别预测,以得到至少一个第二业务类别预测结果,第二业务类别是第一业务类别的次级类别;对所得到的第一业务类别预测结果和至少一个第二业务类别预测结果进行整合处理,以得到整合后的第二业务类别预测结果;以及基于整合后的第二业务类别预测结果,从至少一个第二业务类别中确定出所述待预测业务数据的业务类别,其中,所述第一和第二业务类别预测模型是多类别预测模型,所述第二业务类别预测模型的数目与所述第一业务类别的数目相等,以及每个第二业务类别预测模型对应一个第一业务类别,其中,所述第一业务类别预测模型是利用具有第一业务类别标记值的第一样本数据集训练出的,以及所述第二业务类别预测模型是利用具有对应的第二业务类别标记值的第二样本数据集训练出的。

【技术特征摘要】
1.一种用于预测业务数据的类别的方法,包括:将待预测业务数据提供给第一业务类别预测模型来进行第一业务类别预测,以得到第一业务类别预测结果;将所述待预测业务数据提供给至少一个第二业务类别预测模型来进行第二业务类别预测,以得到至少一个第二业务类别预测结果,第二业务类别是第一业务类别的次级类别;对所得到的第一业务类别预测结果和至少一个第二业务类别预测结果进行整合处理,以得到整合后的第二业务类别预测结果;以及基于整合后的第二业务类别预测结果,从至少一个第二业务类别中确定出所述待预测业务数据的业务类别,其中,所述第一和第二业务类别预测模型是多类别预测模型,所述第二业务类别预测模型的数目与所述第一业务类别的数目相等,以及每个第二业务类别预测模型对应一个第一业务类别,其中,所述第一业务类别预测模型是利用具有第一业务类别标记值的第一样本数据集训练出的,以及所述第二业务类别预测模型是利用具有对应的第二业务类别标记值的第二样本数据集训练出的。2.如权利要求1所述的方法,其中,用于训练第二业务类别预测模型的第二样本数据集是所述第一样本数据集中的所具有的第一业务类别标记值指示属于与该第二业务类别预测模型对应的第一业务类别的样本数据集。3.如权利要求1或2所述的方法,其中,所述第一业务类别预测结果是所述待预测业务数据属于各个第一业务类别的概率,以及所述第二业务类别预测结果是所述待预测业务数据属于各个第二业务类别的概率。4.如权利要求3所述的方法,其中,对所得到的第一业务类别预测结果和第二业务类别预测结果进行整合处理,以得到整合后的第二业务类别预测结果包括:针对所述至少一个第二业务类别中的各个第二业务类别,计算所述待预测业务数据属于该第二业务类别的概率与所述待预测业务数据属于与该第二业务类别对应的第一类别的概率的乘积,作为整合后的所述待预测业务数据属于该第二业务类别的概率。5.如权利要求3所述的方法,其中,对所得到的第一业务类别预测结果和第二业务类别预测结果进行整合处理,以得到整合后的第二业务类别预测结果包括:针对所述至少一个第二业务类别中的各个第二业务类别,根据预定函数来计算整合后的所述待预测业务数据属于该第二业务类别的概率,所述预定函数以所述待预测业务数据属于该第二业务类别的概率和所述待预测业务数据属于与该第二业务类别对应的第一类别的概率为自变量。6.如权利要求1所述的方法,其中,在用于训练第一业务类别预测模型的第一样本数据集中,各个第一业务类别所具有的样本数据数目满足第一预定比例要求;和/或在用于训练第二业务类别预测模型的第二样本数据集中,各个第二业务类别所具有的样本数据数目满足第二预定比例要求。7.一种用于训练业务类别预测模型的方法,包括:使用具有第一业务类别标记值的第一样本数据集训练出第一业务类别预测模型;以及使用至少一个第二样本数据集训练出至少一个第二业务类别预测模型,第二业务类别是第一业务类别的次级类别,其中,所述第一和第二业务类别预测模型是多类别预测模型,所述第二业务类别预测模型的数目与所述第一业务类别的数目相等,每个第二业务类别预测模型对应一个第一业务类别,以及每个第二业务类别预测模型是利用具有对应的第二业务类别标记值的第二样本数据集训练出的。8.如权利要求7所述的方法,其中,用于训练第二业务类别预测模型的第二样本数据集是所述第一样本数据集中的所具有的第一业务类别标记值指示属于与该第二业务类别预测模型对应的第一业务类别的样本数据集。9.如权利要求7或8所述的方法,还包括:对用于训练第一业务类别预测模型的第一样本数据集进行样本数目均衡处理,以使得各个第一业务类别所具有的样本数据数目满足第一预定比例范围要求;和/或对用于训练第二业务类别预测模型的至少一个第二样本数据集进行样本数据均衡处理,以使得各个第二样本数据中的各个第二业务类别所具有的样本数据数目满足第二预定比例范围要求。10.一种用于预测业务数据的类别的装置,包括:第一业务类别预测单元,被配置为将待预测业务数据提供给第一业务类别预测模型来进行第一业务类别预测,以得到第一业务类别预测结果;第二业务类别预测单元,...

【专利技术属性】
技术研发人员:张雅淋李龙飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1