【技术实现步骤摘要】
用户画像标签数据的处理方法
[0001]本专利技术提出了一种数据处理方法,特别是指用户画像标签数据的处理方法。
技术介绍
[0002]用户画像目标是在更细致的维度上,通过属性标签对用户或商户的偏好、需求、倾向进行数字化勾勒的技术。用户画像可以进一步发掘用户需求,分析用户偏好,从而提供给用户更具有针对性的信息推送和提高用户的使用体验。用于描述用户画像的属性标签,是依据用户的注册数据、操作行为数据、交易数据等作为数据来源,并通过可自学习自进化的算法进行开放的归属和归入,通过数据在分类归属中的分布规律作为标签属性。
[0003]用户画像的基础为构建标签库,利用现有关系型数据库构建的用户标签库主要基于宽表结构和数组结构等数据类型;但是现有的关系型数据库对于用户画像的标签存储具有明显的优势和劣势:
[0004](1)宽表结构数据类型实现的优点是大多数数据库都支持,但宽表列宽受限于数据块的页大小。以PostGreSQL数据库8kb数据库块为例,该数据库包含:主键、用户id、创建时间、修改时间等必要字段外,仅能存储约不超过2000个标签tag字段;当条件组合查询时效率会出现大幅度下降;
[0005](2)数组结构数据类型实现标签可支持更高的tag标签位,但不支持not语法索引查询,且占用存储空间较高。
技术实现思路
[0006]针对现有的针对用户画像的标签进行数据处理的数据库存在着效率低的问题,本专利技术实施例的目的是提出一种用户画像标签数据的处理方法,能够更为快捷的对用户画像标签数据局进行 ...
【技术保护点】
【技术特征摘要】
1.一种用户画像标签数据的处理方法,包括:生成用于存储用户画像标签的数据库,其中所述用于存储用户画像标签的数据库至少包括:用于存储原始数据的原始数据实时表、用于存储用户数据的用户字典表、用于存储用户以及对应的用户画像标签的用户标签表;其中所述原始数据实时表用于供应用服务写入新产生的用户id和用户画像标签id;且所述原始数据实时表还用于将原始数据增量聚合到用户标签表;其中所述原始数据实时表至少包括:字段主键id、组织机构id、用户id、标签tag_id;其中字段主键id采用自增int8类型,其中标签tag_id采用int类型;且所述原始数据实时表还包括两个布尔型标志位:标识是否删除,是否合并用户字典表;其中所述用户字典表至少包括以下字段:用户的唯一标识user_id字段,其中所述user_id字段为int类型,每一user_id字段占8字节空间;用户组织机构唯一标识org_id字段,用于表示用户所属单位;其中所述org_id字段为int类型,每一org_id字段占8字节空间;当可用于数据表超过100GB后按组织机构分表,行号row_id为int类型,占8字节空间;其中所述用户标签表以标签tag_id为维度,用于标识出每一用户对应的用户画像标签;其中该用户标签表用于为系统提供检索服务;其中该用户标签表包括以下字段:自增整数主键id,标签唯一标识,组织机构唯一标识、用户唯一标识聚合列user_ids;其中可变字串数据类型的用户唯一标识聚合列user_ids采用varbit类型,存储用户字典表中按照rowid顺位的比特字串。2.根据权利要求1所述的用户画像标签数据的处理方法,其特征在于,所述方法还包括:将原始数据实时表中的用户原始数据,合并到用户标签表中;具体包括:获取用户实时数据表中的未更新的原始数据,根据未更新的原始数据更新用户字典表中的用户的唯一标识user_id字段,然后再将数据增量聚合到用户标签表。3.根据权利要求2所述的用户画像标签数据的处理方法,其特征在于,其中所述将原始数据实时表中的用户原始数据合并到用户标签表中的步骤,采用一个事务中完成;即单独标签为一个进程并发执行。4.根据权利要求3所述的用户画像标签数据的处理方法,其特征在于,其中所述将原始数据实时表中的用户原始数据合并到用户标签表中的步骤,包括:获取用户实时的原始数据;获取该原始数据中的用户画像标签,判断该用户画像标签是否存在用户标签表中;如果不存在则在该用户标签表中增加一列新的用户画像标签。5.根据权利要求1所述的用户画像标签数据的处理方法,其特征在于,所述方法还包括:当查询方式为:选择了一个tag,需要列出所有具有该tag的用户;则输入为tagid,输出为用户id;此时需要对用户字典表和用户标签表联合进行查询:首先使用set_bit_array自订函数,对用户标签表对所需t...
【专利技术属性】
技术研发人员:佘家驹,马胜奎,刘超,肖龙,靳京,李昕,吴泽成,
申请(专利权)人:国网综合能源服务集团有限公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。