一种对数据对象筛选分类的方法、装置以及电子设备制造方法及图纸

技术编号:13463030 阅读:56 留言:0更新日期:2016-08-04 15:51
一种对数据对象筛选分类的方法,包括:读取筛选需求,根据其描述值建立分层的属性描述网络;从待筛选数据对象的描述信息中提取出其中包含的所述属性描述网络中的描述值;建立所述筛选需求与所述属性描述网络间的映射关系,生成路径依赖图;将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各描述值遍历比较;若一个描述路径的所有描述值均包含在待筛选数据对象的描述信息中,则该描述路径记为该待筛选数据对象的匹配路径;根据待筛选数据对象的各匹配路径,确定所述待筛选数据对象符合的筛选需求。该对数据对象筛选分类的方法,基于路径依赖图,合并了公共描述值与公共子描述路径,减少了筛选过程中的判断,节省了计算时间。

【技术实现步骤摘要】
【专利摘要】一种对数据对象筛选分类的方法,包括:读取筛选需求,根据其描述值建立分层的属性描述网络;从待筛选数据对象的描述信息中提取出其中包含的所述属性描述网络中的描述值;建立所述筛选需求与所述属性描述网络间的映射关系,生成路径依赖图;将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各描述值遍历比较;若一个描述路径的所有描述值均包含在待筛选数据对象的描述信息中,则该描述路径记为该待筛选数据对象的匹配路径;根据待筛选数据对象的各匹配路径,确定所述待筛选数据对象符合的筛选需求。该对数据对象筛选分类的方法,基于路径依赖图,合并了公共描述值与公共子描述路径,减少了筛选过程中的判断,节省了计算时间。【专利说明】一种对数据对象筛选分类的方法、装置以及电子设备
本申请涉及数据筛选技术,具体涉及一种对数据对象筛选分类的方法。本申请同时涉及一种对数据对象筛选分类的装置,以及一种电子设备。
技术介绍
伴随着云计算和大数据的发展,在大数据计算领域涌现出了各种各样的计算模型,用于在各种各样的数据计算场景中进行处理和计算;其中,从海量数据中筛选出部分有用数据这一数据计算场景的应用范围变得越来越广,尤其表现为根据一次性输入的大批量筛选需求,从海量用户数据中筛选出满足大批量筛选需求中各个筛选需求的目标用户群。现有的解决方案是通过Map-Reduce框架程序实现,Map-Reduce是一种用于大批量数据并行计算的软件架构,可以在数小时内处理十亿级的数据输入。Map-Reduce的基本步骤分为Map和Reduce两个阶段,Map阶段的主要流程包括:1)读入大批量筛选需求,解析其中包含的表达式,建立表达式与Map表之间的对应关系,获得与Map表相关的原子表达式并去重;2)逐条读入Map表中记录的海量用户数据,针对每一条用户数据循环执行上述原子表达式计算;3)通过Map表输出的用户数据中的用户ID,以列表的形式输出该用户在上述原子表达式中满足的至少一个原子表达式;RedUCe阶段的主要流程包括:1)读入大批量筛选需求,解析其中包含的表达式,建立表达式与Map表之间的对应关系,获得各个筛选需求需要满足的原子表达式,构成原子表达式列表;2)读入Map表中的用户数据,对每个用户在各个Map表中的用户数据进行合并,合并之后得到用户在各个Map表中满足的多个原子表达式,构成原子表达式列表;3)合并上述I)和2)两步获得的结果,得到用户和筛选需求之间的对应关系,并将用户和筛选需求之间的对应关系输出。上述现有技术提供的对数据对象筛选分类的方法存在明显的缺陷。现有技术提供的基于Map-Reduce框架程序实现,当一次性输入大批量的筛选需求之后,所需的数据计算量非常大,假设筛选需求数目为R,每个筛选需求平均的表达式数目为E,用户数为N,则实现对用户的筛选分类的数据计算总量为R*E*N,计算总量非常大,导致计算耗时较长;此外,随着筛选需求数目的增加,完成大批量数据的筛选分类所需的数据计算时间急剧增长,无法满足对大批量数据筛选分类的业务需求。
技术实现思路
本申请提供一种对数据对象筛选分类的方法,以解决现有的对数据对象筛选分类的方法存在的耗时长和无法满足大批量数据对象筛选分类的业务需求的问题。本申请同时涉及一种对数据对象筛选分类的装置,以及一种电子设备。本申请提供的一种对数据对象筛选分类的方法,包括:读取筛选需求;将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从尚到低的层级关系;读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。可选的,所述将各个筛选需求的描述值列出,建立属性描述网络,包括:获取各个筛选需求中包含的描述信息;对所述描述信息按照属性进行分类;每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;将上述各个属性字段按照从高到低的层级关系分层排布;每层对应一个属性字段,构成所述属性描述网络。可选的,所述将上述各个属性字段按照从高到低的层级关系分层排布,包括:获取所述各个属性字段下描述值的个数;根据所述各个属性字段下描述值的个数从大到小的顺序,依次将所述各个属性字段按照从高到低的层级关系分层排布。可选的,所述将上述各个属性字段按照从高到低的层级关系分层排布,包括:根据所述属性字段的性质,获取描述值为单一选择的属性字段;将所述描述值为单一选择的属性字段置于其他属性字段之上;其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。可选的,所述属性描述网络中,对于同一层的不同描述值按照预定的排序标准顺序排列。可选的,所述建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图,包括:将每个筛选需求转换为描述路径表达形式;分别生成每个描述路径表达式的至少一个描述路径;获取所述筛选需求的互不重复的描述路径构成描述路径组;将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图。可选的,所述描述路径为包括至少一个描述值或者包括多个相与关系的描述值;一个描述路径的不同描述值位于属性描述网络中的不同层级,并且不同描述值按照所在层级从高到低排列。可选的,所述将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图,包括:以层级高优先和同层的描述值在前优先的排序规则,对所述描述路径排序;按照上述排序,依次将所述描述路径映射到所述属性描述网络中;合并描述路径中具有完全相同的高层描述值的部分,生成所述路径依赖图。可选的,所述路径依赖图中的高层描述值完全相同,包括:从描述路径包含的最高层描述值向下,每一层都相同。可选的,所述将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较,在遍历比较过程中,若所述待筛选对象的描述信息中不包含某个描述值,则舍弃对路径依赖图中通过该描述值向下的描述路径的遍历。可选的,所述将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较的步骤中,所述遍历采用深度优先遍历。可选的,所述根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求的步骤,采用如下方式实现:根据每个筛选需求的描述路径表达形式,确定每个筛选需求包含的描述路径;若一个筛选需求包含的任意一个描述路径包含在所述待筛选数据对象的匹配路径中,则所述待筛选数据对象符合该筛选需求。可选的,所述根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求的步骤中,确定所述待本文档来自技高网
...

【技术保护点】
一种对数据对象筛选分类的方法,其特征在于,包括:读取筛选需求;将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄益聪付登坡王超甘云锋李俊良强琦
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1