基于层次的分层训练数据的监督降维制造技术

技术编号:39257584 阅读:10 留言:0更新日期:2023-10-30 12:09
系统和方法包括识别维度分层的子层次的第一成员,第一成员与维度分层的父母层次的第二成员之间的边界相关联,基于与子层次相关联的数据来训练决策树模型,从训练的决策树模型提取子层次上的谓词,基于子层次的识别的第一成员和子层次上的提取的谓词来确定值,以及基于该值确定是在训练数据内包括父母层次和子层次,还是在训练数据内包括父母层次而不包括子层次。子层次。子层次。

【技术实现步骤摘要】
基于层次的分层训练数据的监督降维


[0001]本专利技术涉及基于层次的分层训练数据的监督降维(supervised dimensionality reduction)。

技术介绍

[0002]监督学习是基于训练数据记录来训练模型的机器学习的类型,每个训练数据记录包括目标列或特征以及其他指定维度。监督学习算法迭代地训练模型,以将训练数据记录的其他指定维度映射到目标。然后,训练的模型可以用于基于包括指定维度的输入数据来推断目标的值。
[0003]现代计算系统可以使用基于层次(level)的分层(hierarchical)维度来存储数据,其中两个或更多层次作为父母/子相关。图1A例示了包括层次洲、国家和地区的分层维度地理的实例10。洲是国家的父母层次,国家转而是地区的父母层次。因此,国家层次成员日本、中国和印度被描述为洲层次成员亚洲的子节点。类似地,地区层次成员JP1、JP2被描述为国家层次成员日本的子节点,地区层次成员CN1、CN2、CN3被描述为国家层次成员中国的子节点,地区层次成员IN1、IN2、IN3被描述为国家层次成员印度的子节点。
[0004]与和分层相关的层次相关联的存储数据必须在使用这样的数据来训练如上所述的模型之前被扁平化。扁平化包括创建将给定层次成员与目标数据进行关联的表格结构。图1B示出了对应于图1A的实例10的扁平化表格15。
[0005]图2例示了多维立方体20,其中每个子立方体表示与季度、洲和路线类型的特定组合相关联的一个或多个度量。季度、洲和路线类型分别是半程(half)、半球和路线模式层次的子层次,并且分别属于时间、源和路线分层。立方体20的分层可以促进跨两个或更多个子立方体的一个或多个度量的选择和/或聚合。立方体20的扁平化将导致表格包括三列子层次成员和三列相关联的父母层次成员。
[0006]扁平化移除了与数据内的分层关系相关的信息,因此在模型训练期间不能利用该信息。此外,扁平化数据可能包括大量的列,这可能负面地影响模型训练。例如,另外的列还可能增加训练时间,而对训练的模型的性能则没有任何可观的增益。在另一个示例中,扁平化数据的高维度可能降级训练的模型的准确度。在决策树模型的情况下,如果随机层次选择和父母层次与子层次之间的等价(equivalence)导致引用许多不同层次的单个训练的模型内的分裂,则其可解释性可能受损。
[0007]减少训练数据的维度的传统系统(例如,主分量分析)既不考虑训练目标,也不考虑维度之间的分层关系。期望系统有效地减少分层训练数据的维度。

技术实现思路

[0008]本专利技术的一个方面提供了一种系统,包括:存储器,存储处理器可执行程序代码;和至少一个处理单元,执行处理器可执行程序代码,以使系统:接收与包括层次的分层的维度相关联的目标数据;确定层次中的第一层次的第一多个成员,其中,第一多个成员中的每
个表示与由层次中的第一层次的父母层次的成员表示的目标数据内的边界相同的目标数据内的边界;生成将层次中的第一层次的成员与目标数据进行关联的记录;基于生成的记录来训练第一决策树模型;从训练的决策树模型,确定与层次中的第一层次的成员相关联的多个谓词;基于第一多个成员和多个谓词,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次;以及基于选择的一个或多个层次来训练第二决策树模型。
附图说明
[0009]图1A例示了分层维度的实例。
[0010]图1B例示了分层数据的扁平化表格。
[0011]图2例示了表示多维数据的立方体。
[0012]图3是根据一些实施例的确定用于训练模型的降维分层训练数据的架构的框图。
[0013]图4包括根据一些实施例的确定用于训练模型的降维分层训练数据的过程的流程图。
[0014]图5例示了根据一些实施例的父母层次成员和相关联的排序的子层次成员的树。
[0015]图6是根据一些实施例的用于确定训练维度的拓扑排序和编码的数据记录的表格表示。
[0016]图7是例示根据一些实施例的生成包括层次成员上的谓词(predicate)的决策树的模型的迭代训练的框图。
[0017]图8例示了根据一些实施例的包括层次成员上的谓词的决策树。
[0018]图9包括根据一些实施例的基于训练的决策树的层次成员上的谓词来确定值并基于该值来选择训练层次的过程的流程图。
[0019]图10是根据一些实施例的扁平化和拓扑排序的训练数据记录的表格表示。
[0020]图11是根据一些实施例的用于确定训练维度的拓扑排序和编码的数据记录的表格表示。
[0021]图12是根据一些实施例的降维训练数据的表格表示。
[0022]图13例示了根据一些实施例的呈现与训练的模型相关联的信息的界面。
[0023]图14例示了根据一些实施例的向应用提供模型训练的系统。
[0024]图15是根据一些实施例的用于提供模型训练的硬件系统的框图。
具体实施方式
[0025]提供以下描述以使本领域的任何人能够做出和使用所描述的实施例。然而,各种修改对于本领域技术人员来说将是非常清晰的。
[0026]一些实施例涉及减少用于训练决策树模型的分层训练数据的维度。根据一些实施例,识别父母层次的成员和子层次的成员之间的边界等价。与子层次相关联的数据用于训练决策树模型,并且基于边界等价和从训练的决策树模型中提取的分裂来确定值。值可以指示在分层训练数据内是否应该以父母层次代替子层次,或者除了子层次之外使用父母层次。
[0027]可以采用实施例来以迭代、分层感知和监督的方式(即,基于训练目标)减少训练
数据的维度。因此,实施例可以提供更快的训练、改进的模型可解释性和更高的预测准确度。
[0028]图3是根据一些实施例的确定用于训练模型的降维分层训练数据的架构300的框图。例示的组件可以使用已知的或变得已知的计算硬件和/或软件的任何合适的组合来实现。在一些实施例中,两个或更多个组件由单个计算设备实现。图3的两个或多个组件可以同定位(co

located)。一个或多个组件可以被实现为云服务(例如,软件即服务、平台即服务)。图3的任何组件的基于云的实施方式可以根据需求、需要、价格和/或任何其他度量来弹性地分派(apportion)计算资源。
[0029]数据310包括与和分层相关的维度相关联的数据。并非数据310的所有维度都必须属于维度分层。数据310可以包括在多个分层组织的维度上聚合的一个或多个度量,诸如在线分析处理(OLAP)立方体。
[0030]对于数据310内表示的每个分层,层次选择组件320选择应该包括在训练数据内的一个或多个层次。未选择的分层的层次将不包括在训练数据中。根据一些实施例,与那些层次被选择以被包括在训练数据中的情况相比,没有被层次选择组件320选择的层次,在它们将被包括在训练数据中的情况,可能导致较慢的训练、较不准确的模型和/或较不可解释的模型。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:存储器,存储处理器可执行程序代码;和至少一个处理单元,执行处理器可执行程序代码,以使系统:接收与包括层次的分层的维度相关联的目标数据;确定层次中的第一层次的第一多个成员,其中,第一多个成员中的每个表示与由层次中的第一层次的父母层次的成员表示的目标数据内的边界相同的目标数据内的边界;生成将层次中的第一层次的成员与目标数据进行关联的记录;基于生成的记录来训练第一决策树模型;从训练的决策树模型,确定与层次中的第一层次的成员相关联的多个谓词;基于第一多个成员和多个谓词,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次;以及基于选择的一个或多个层次来训练第二决策树模型。2.根据权利要求1所述的系统,其中,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次,包括:确定与第一多个成员中的一个相关联的多个谓词的第一数量;以及基于第一数量,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次。3.根据权利要求2所述的系统,其中,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次,包括:确定第一多个成员的第二数量,其中,基于第一数量和第二数量,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次。4.根据权利要求3所述的系统,其中,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次,包括:确定不与第一多个成员中的一个相关联的多个谓词的第三数量;以及确定不是第一多个成员中的一个的层次中的第一层次的成员的第四数量,其中,基于第一数量、第二数量、第三数量和第四数量,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次。5.根据权利要求1所述的系统,所述至少一个处理单元执行处理器可执行程序代码,以使系统:确定层次中的第二层次的第二多个成员,其中,第二多个成员中的每个表示与由层次中的第二层次的父母层次的成员表示的目标数据内的边界相同的目标数据内的边界;生成将层次中的第二层次的成员与目标数据相关联的第二记录;基于生成的第二记录来训练第三决策树模型;从训练的第三决策树模型,确定与层次中的第二层次的成员相关联的第二多个谓词;以及基于第二多个成员和第二多个谓词,选择层次中的第二层次的父母层次以及层次中的第二层次,或者选择层次中的第二层次的父母层次而不是层次中的第二层次,其中,基于选择的层次中的第二层次的父母层次和层次中的第二层次,或者层次中的
第二层次的父母层次而不是层次中的第二层次,来训练第二决策树模型。6.根据权利要求5所述的系统,其中,选择层次中的第一层次的父母层次以及层次中的第一层次,或者选择层次中的第一层次的父母层次而不是层次中的第一层次,包括:确定与第一多个成员中的一个相关联的多个谓词的第一数量;以及基于第一数量,选择层次中的第一层次的父母层次以及层次中的第一层次,或者选择层次中的第一层次的父母层次而不是层次中的第一层次,并且其中,选择层次中的第二层次的父母层次以及层次中的第二层次,或者选择层次中的第二层次的父母层次而不是层次中的第二层次,包括:确定与第二多个成员中的一个相关联的第二多个谓词的第二数量;以及基于第二数量,选择层次中的第二层次的父母层次以及层次中的第二层次,或者选择层次中的第二层次的父母层次而不是层次中的第二层次。7.一种方法,包括:识别维度分层的子层次的第一成员,第一成员与维度分层的父母层次的第二成员之间的边界相关联;基于与子层次相关联的数据来训练决策树模型;从训练的决策树模型提取子层次上的谓词;基于识别的子层次的第一成员和子层次上提取的谓词来确定值;以及基于所述值,确定是在训练数据内包括父母层次和子层次,还是在训练数据内包括父母层次而不包括子层次。8.根据权利要求7所述的方法,其中,确定所述值包括:确定与第一成员中的一个相关联的谓词的第一数量;以及基于第一数量确定所述值。9.根据权利要求8所述的方法,其中,确定所述值包括:确定第一成员的第二数量;以及基于第一数量和第二数量确定所述值。10.根据权利要求9所述的方法,其中,确定所述值包括:...

【专利技术属性】
技术研发人员:J多恩胡
申请(专利权)人:商业对象软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1