【技术实现步骤摘要】
基于层次的分层训练数据的监督降维
[0001]本专利技术涉及基于层次的分层训练数据的监督降维(supervised dimensionality reduction)。
技术介绍
[0002]监督学习是基于训练数据记录来训练模型的机器学习的类型,每个训练数据记录包括目标列或特征以及其他指定维度。监督学习算法迭代地训练模型,以将训练数据记录的其他指定维度映射到目标。然后,训练的模型可以用于基于包括指定维度的输入数据来推断目标的值。
[0003]现代计算系统可以使用基于层次(level)的分层(hierarchical)维度来存储数据,其中两个或更多层次作为父母/子相关。图1A例示了包括层次洲、国家和地区的分层维度地理的实例10。洲是国家的父母层次,国家转而是地区的父母层次。因此,国家层次成员日本、中国和印度被描述为洲层次成员亚洲的子节点。类似地,地区层次成员JP1、JP2被描述为国家层次成员日本的子节点,地区层次成员CN1、CN2、CN3被描述为国家层次成员中国的子节点,地区层次成员IN1、IN2、IN3被描述为国家层次成员印度的子节点。
[0004]与和分层相关的层次相关联的存储数据必须在使用这样的数据来训练如上所述的模型之前被扁平化。扁平化包括创建将给定层次成员与目标数据进行关联的表格结构。图1B示出了对应于图1A的实例10的扁平化表格15。
[0005]图2例示了多维立方体20,其中每个子立方体表示与季度、洲和路线类型的特定组合相关联的一个或多个度量。季度、洲和路线类型分别是半程(half ...
【技术保护点】
【技术特征摘要】
1.一种系统,包括:存储器,存储处理器可执行程序代码;和至少一个处理单元,执行处理器可执行程序代码,以使系统:接收与包括层次的分层的维度相关联的目标数据;确定层次中的第一层次的第一多个成员,其中,第一多个成员中的每个表示与由层次中的第一层次的父母层次的成员表示的目标数据内的边界相同的目标数据内的边界;生成将层次中的第一层次的成员与目标数据进行关联的记录;基于生成的记录来训练第一决策树模型;从训练的决策树模型,确定与层次中的第一层次的成员相关联的多个谓词;基于第一多个成员和多个谓词,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次;以及基于选择的一个或多个层次来训练第二决策树模型。2.根据权利要求1所述的系统,其中,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次,包括:确定与第一多个成员中的一个相关联的多个谓词的第一数量;以及基于第一数量,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次。3.根据权利要求2所述的系统,其中,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次,包括:确定第一多个成员的第二数量,其中,基于第一数量和第二数量,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次。4.根据权利要求3所述的系统,其中,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次,包括:确定不与第一多个成员中的一个相关联的多个谓词的第三数量;以及确定不是第一多个成员中的一个的层次中的第一层次的成员的第四数量,其中,基于第一数量、第二数量、第三数量和第四数量,选择父母层次以及层次中的第一层次,或者选择父母层次而不是层次中的第一层次。5.根据权利要求1所述的系统,所述至少一个处理单元执行处理器可执行程序代码,以使系统:确定层次中的第二层次的第二多个成员,其中,第二多个成员中的每个表示与由层次中的第二层次的父母层次的成员表示的目标数据内的边界相同的目标数据内的边界;生成将层次中的第二层次的成员与目标数据相关联的第二记录;基于生成的第二记录来训练第三决策树模型;从训练的第三决策树模型,确定与层次中的第二层次的成员相关联的第二多个谓词;以及基于第二多个成员和第二多个谓词,选择层次中的第二层次的父母层次以及层次中的第二层次,或者选择层次中的第二层次的父母层次而不是层次中的第二层次,其中,基于选择的层次中的第二层次的父母层次和层次中的第二层次,或者层次中的
第二层次的父母层次而不是层次中的第二层次,来训练第二决策树模型。6.根据权利要求5所述的系统,其中,选择层次中的第一层次的父母层次以及层次中的第一层次,或者选择层次中的第一层次的父母层次而不是层次中的第一层次,包括:确定与第一多个成员中的一个相关联的多个谓词的第一数量;以及基于第一数量,选择层次中的第一层次的父母层次以及层次中的第一层次,或者选择层次中的第一层次的父母层次而不是层次中的第一层次,并且其中,选择层次中的第二层次的父母层次以及层次中的第二层次,或者选择层次中的第二层次的父母层次而不是层次中的第二层次,包括:确定与第二多个成员中的一个相关联的第二多个谓词的第二数量;以及基于第二数量,选择层次中的第二层次的父母层次以及层次中的第二层次,或者选择层次中的第二层次的父母层次而不是层次中的第二层次。7.一种方法,包括:识别维度分层的子层次的第一成员,第一成员与维度分层的父母层次的第二成员之间的边界相关联;基于与子层次相关联的数据来训练决策树模型;从训练的决策树模型提取子层次上的谓词;基于识别的子层次的第一成员和子层次上提取的谓词来确定值;以及基于所述值,确定是在训练数据内包括父母层次和子层次,还是在训练数据内包括父母层次而不包括子层次。8.根据权利要求7所述的方法,其中,确定所述值包括:确定与第一成员中的一个相关联的谓词的第一数量;以及基于第一数量确定所述值。9.根据权利要求8所述的方法,其中,确定所述值包括:确定第一成员的第二数量;以及基于第一数量和第二数量确定所述值。10.根据权利要求9所述的方法,其中,确定所述值包括:...
【专利技术属性】
技术研发人员:J多恩胡,
申请(专利权)人:商业对象软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。