【技术实现步骤摘要】
多特征数据交叉查询方法、设备及计算机可读存储介质
[0001]本专利技术属于数据查询
,具体涉及一种多特征数据交叉查询方法、设备及计算机可读存储介质。
技术介绍
[0002]当前大数据应用越来越广泛,随着技术和业务需要,对用户多特征特征的交叉查询性能要求也越来越高。传统对于用户多特征交叉查询主要通过创建数据库表,采用SQL语句的方式进行查询。根据业务特点,数据库表模型往往采用单个特征字段的稀疏表、或将所有特性都作为字段的宽表(超过1000个特征)。
[0003]如果采用稀疏表,则用户多特征交叉查询需要对用户群进行并集、交集、补集等运算,往往需要采用SQL语句进行复杂的表关联(left/inner/right/full join)、存在或不存在(in/not in)、去重(unique / distinct)等资源高消耗的SQL查询,不仅消耗大量宝贵的计算资源,同时需要等待较长的时间才能得到查询结果,无法满足大数据业务快速响应的需要。
[0004]如果采用宽表,对于用户一些不存在的特征仍然需要存储,可能用 ...
【技术保护点】
【技术特征摘要】
1.一种多特征数据交叉查询方法,其特征在于,包括步骤:从业务系统中抽取用户特征数据存储到列式内存数据库;基于列式内存数据库,对用户特征数据进行交叉查询以得到查询结果。2.根据权利要求1所述的多特征数据交叉查询方法,其特征在于,所述从业务系统中抽取用户特征数据存储到列式内存数据库的步骤,包括:从业务系统中抽取用户特征数据,所述用户特征数据包括:日期、用户ID、与用户ID相对应的特征值;将具有相同特征值的用户ID,集合成为用户群;对特征值、用户群进行编码;以日期作为分区键,按编码对特征值、用户群进行排序;根据不同的特征值,划分为不同的区域,将特征值、用户群按列压缩;以稀疏表的形式,将用户特征数据存储到列式内存数据库。3.根据权利要求2所述的多特征数据交叉查询方法,其特征在于,在所述将用户特征数据存储到列式内存数据库的步骤之后,还包括步骤:如新增或者更新用户特征数据时,在列式内存数据库中追加用户特征数据。4.根据权利要求1所述的多特征数据交叉查询方法,其特征在于,基于列式内存数据库,对用户特征数据进行并集查询、交集查询、补集查询以得到查询结果。5.根据权利要求1所述的多特征数据交叉查询方法,其特征在于,基于列式内存数据库,采用键值分组的方法对用户特征数据进行并集查询、交集查询、补集查询以得到查询结果。6.根据权利要求5所述的多特征数据交叉查询方法,其特征在于,所述采用键值分组的方法对用户特征数据进行并集查询查询以得到查询结果的步骤,包括:访问具有第一特征值的第一用户群,以(用户ID,1)键值对读入内存,其中,键为用户ID,值为1;依次访问具有第二特征值的第二用户群、
……
具有第N特征值的第N用户群,分别以(用户ID,1)键值对读入内存,如果键值存在,则值增加1,如果键值不存在,则值为1;输出所有的键,得到具有第一特征值、或第二特征值
……
或...
【专利技术属性】
技术研发人员:王国章,黄振琳,徐育彪,
申请(专利权)人:和元达信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。