一种人群生成方法及装置制造方法及图纸

技术编号:23704703 阅读:56 留言:0更新日期:2020-04-08 11:08
本发明专利技术公开了一种人群生成方法及装置,属于大数据技术领域。方法包括:接收用于生成人群的人群ID以及对应的人群条件,并将人群ID和人群条件关联地存储到关系型数据库中;从关系型数据库中获取需要计算的多个人群条件,并将每个人群条件解析转换为分布式搜索引擎可执行的查询语句;通过分布式计算引擎启动多线程并行地对多个查询语句在分布式搜索引擎中基于索引进行数据查询,并将查询到的数据存储到Hive表中。本发明专利技术实施例在人群生成过程中能够节省计算资源,并加快人群的生成速度。

【技术实现步骤摘要】
一种人群生成方法及装置
本专利技术涉及大数据
,尤其涉及一种人群生成方法及装置。
技术介绍
在移动互联网中,通常会对用户的基本特征和行为数据进行标签化处理,并将标签作为筛选人群的条件,从而计算出符合预期的人群,即生成人群包。目前,在人群的生成方案中,通常采用hive等离线计算引擎来进行计算,这样每次都会操作全表数据,通过创建任务的方式,对一个人群包创建一个人群计算任务,当人群包的数量越来越多的时候,将造成任务数量越来越多,计算资源需求也越来越多,从而导致计算资源浪费,并且计算时长一般都是分钟级,导致人群的生成速度较慢。
技术实现思路
为了解决上述
技术介绍
中提到的技术问题,本专利技术提供了一种人群生成方法及装置,以在人群生成过程中节省计算资源,并加快人群的生成速度。本专利技术实施例提供的具体技术方案如下:第一方面,提供一种人群生成方法,所述方法包括:接收用于生成人群的人群ID以及对应的人群条件,并将所述人群ID和所述人群条件关联地存储到关系型数据库中;从所述关系型数据库中获取需要计本文档来自技高网...

【技术保护点】
1.一种人群生成方法,其特征在于,所述方法包括:/n接收用于生成人群的人群ID以及对应的人群条件,并将所述人群ID和所述人群条件关联地存储到关系型数据库中;/n从所述关系型数据库中获取需要计算的多个人群条件,并将每个所述人群条件解析转换为分布式搜索引擎可执行的查询语句;/n通过分布式计算引擎启动多线程并行地对多个所述查询语句在所述分布式搜索引擎中基于索引进行数据查询,并将查询到的数据存储到Hive表中。/n

【技术特征摘要】
1.一种人群生成方法,其特征在于,所述方法包括:
接收用于生成人群的人群ID以及对应的人群条件,并将所述人群ID和所述人群条件关联地存储到关系型数据库中;
从所述关系型数据库中获取需要计算的多个人群条件,并将每个所述人群条件解析转换为分布式搜索引擎可执行的查询语句;
通过分布式计算引擎启动多线程并行地对多个所述查询语句在所述分布式搜索引擎中基于索引进行数据查询,并将查询到的数据存储到Hive表中。


2.根据权利要求1所述的方法,其特征在于,所述接收用于生成人群的人群ID以及对应的人群条件,并将所述人群ID和所述人群条件关联地存储到关系型数据库中,包括:
通过SparkStreaming从分布式消息队列中接收所述人群ID以及对应的人群条件;
将接收到的所述人群条件解析转换为所述分布式搜索引擎可执行的查询语句,对所述分布式搜索引擎进行查询,得到所述人群ID对应的覆盖人数;
将所述人群ID、人群条件与所述覆盖人数关联地存储到所述关系型数据库中,并根据所述覆盖人数,设置所述人群ID的计算状态。


3.根据权利要求2所述的方法,其特征在于,所述根据所述覆盖人数,设置所述人群ID的计算状态包括:
判断所述人群定义数据对应的覆盖人数是否为零值;
若是,则将所述人群ID的状态设置为计算成功状态;
若否,则将所述人群ID的状态为等待计算状态。


4.根据权利要求1所述的方法,其特征在于,所述分布式搜索引擎中预先存储有用户标签数据库以及对应的标签索引表,所述通过分布式计算引擎启动多线程并行地对多个所述查询语句在所述分布式搜索引擎中基于索引进行数据查询,包括:
针对多个所述查询语句,通过所述分布式计算引擎采用多线程的方式生成多个人群计算任务并执行;
其中,每个所述人群计算任务用于根据所述标签索引表中的与每...

【专利技术属性】
技术研发人员:王志伟谢俏邰娟李成孙迁
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1