【技术实现步骤摘要】
基于动态阈值的标签生成方法、系统及存储介质
[0001]本专利技术涉及客户标签的生成、确定技术,具体为基于动态阈值的标签生成方法、系统及存储介质。
技术介绍
[0002]目前企业级客户画像系统均构建了多维度、多层级的客户标签体系,实现精准营销、差异化服务,以提升客户满意度、提高企业运营效率。各行业客户所涉及的指标繁多、数据冗杂,将指标数据标签化,数据会变得更加稳定,之前取值范围不定的数据变成了取值固定的数据,包容异常值的能力增强,方便业务人员更直接地理解指标数据的优劣,而且在后续应用中,数据标签化具有增强模型的泛化能力、加快模型的训练速度、提升模型表达能力等优点,因此在客户画像系统建设中如何科学、高效地完成数据标签化至关重要。
[0003]现有技术在构建客户画像系统时,对数据进行标签化处理时,往往采用单一的分箱方法,且在数据分箱时对数据分组所采取的阈值也为固定值。也就是说,现有技术无法根据数据的自身特点,动态地选择最合适的分箱方法,也不能自适应地调整相关分箱方法的数据划分阈值,因而无法科学、高效、准确地为数据生成相应 ...
【技术保护点】
【技术特征摘要】
1.基于动态阈值的标签生成方法,其特征在于,包括以下步骤:S1、对标签数据中取值为数值型的数据进行数据特征分析,根据数据特征分析结果选择合适的分箱方法;进行数据特征分析的维度包括数据量、数值属性、数据分布特征;S2、根据选定的分箱方法,计算相应的动态阈值,基于业务要求将单个指标划分为多个等级标签,最终实现标签的自动生成;步骤S1包括:S11、整理需要生成标签的数据,将所整理的数据中所有取值为数值型数据的指标设为待生成标签指标,然后将待生成标签指标下所有取值不为空的数据构建成原始向量,作为指标向量;S12、基于步骤S11所构建的各类指标向量,统计各类指标向量对应的数据量n,当数据量n小于设定值时计算指标向量的标准差和极差,并根据标准差和极差之间的关系选定等频分箱规则或等距分箱规则;当数据量n大于等于设定值时,转入步骤S13;S13、计算指标向量的最大值、最小值、均值和标准差,从服从均值为、标准差为的正态分布中随机抽取n个数据构成第一标准向量,从服从[,] 的均匀分布中随机抽取n个数据构成第二标准向量;S14、对步骤S11获得的指标向量、步骤S13得到的第一标准向量和第二标准向量进行内部排序形成新指标向量、新第一标准向量和新第二标准向量;S15、使用标准化欧氏距离,计算新指标向量与新第一标准向量之间的相似度,以及新指标向量与新第二标准向量之间的相似度;根据所计算的两个相似度判断待生成标签指标近似于正态分布还是均匀分布,得到待生成标签指标的数据分布特征;S16、将步骤S15得到的两个相似度进行比较,根据两个相似度的比较结果以及两个相似度的误差范围,选定等距分箱规则、正态分布法分箱规则或卡方法分箱规则。2.根据权利要求1所述的基于动态阈值的标签生成方法,其特征在于,步骤S12中极差时则指标适用等频分箱规则,极差时则指标适用等距分箱规则。3.根据权利要求1所述的基于动态阈值的标签生成方法,其特征在于,步骤S14进行内部排序时依据数据大小来排序。4.根据权利要求1所述的基于动态阈值的标签生成方法,其特征在于,步骤S16中根据下式选定所适用的分箱规则:其中为误差范围。5.根据权利要求1所述的基于动态阈值的标签生成方法,其特征在于,步骤S1选定等频
分箱规则时,步骤S2的动态阈值计算如下:把单个指标的所有指标数据由小到大排列;计算所有指标数据的分位数的位置:其中n为目标指标的数据量大小;r为自然数,最小值为1,最大值为标签等级数量减1;计算所有指标数据的分位数的取值,作为动态阈值:其中c为分位数位置的整数部分,d为分位数位置的小数部分,表示指标向量经过内部排序后排在第c位的数据。6.根据权利要求1所述的基于动态阈值的标签生成方法,其特征在于,步骤S1选定等距分箱规则时,步骤S2的动态阈值计算如下:计算指标数据极差:计算指标数据各分段的区间距:计...
【专利技术属性】
技术研发人员:姜磊,董国栋,杨钊,肖婧嫣,
申请(专利权)人:佰聆数据股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。