【技术实现步骤摘要】
一种用户特征及特征因子抽取、查询方法和系统
本专利技术涉及数据挖掘
,尤其涉及一种用户特征及特征因子抽取、查询方法和系统。
技术介绍
现有的特征筛选技术,如PCA主成分分析,Logistic回归,随机森林的特征重要性判定重要性技术,BP反向传播神经网络对于特征的广义权重技术评价等,有两个缺陷:深度:一般的降维只顾及了特征中的维度,而并未顾及维度中不同因子对于输出的影响,比如购买决策中,年龄是影响的重要特征,但年龄分为儿童,青年,中年,老年,并未分出各个不同年龄的影响,就造成了无法实践落地,只知道年龄对购买有影响,但不知如何做,如果分析出重要特征是年龄,而重要正向影响因子是20-30岁的青年,重要的反向因子是60岁以上的老年,就非常明晰了,特征筛选流程只到一维,未到二维。性价比:并未将特征,因子的有效性进行组合并进行系统归纳,记录,形成编码库,遇到类似场景需重新寻找数据。比如如果知道年龄、年龄中的青年对是否购买商场会员卡有重要影响,那么类似场景比如是否购买餐饮券,参照类似场景的有效的特征因子库的编码记录,则去找到类似场景的类似预测结果特征形成基本框架,并在此基 ...
【技术保护点】
1.一种用户特征及特征因子抽取、查询方法,其特征在于,所述方法包括:S1,创建多个场景的重要用户特征及重要因子的特征‑因子二维矩阵库;S2,将创建的不同场景下的特征‑因子二维矩阵库,根据相同或类似的行为预测特征进行关联,构建场景‑行为二维矩阵;S3,根据所述场景‑行为二维矩阵,查找相关联场景下相同或类似的行为预测特征,根据所述相同或类似的行为预测特征查找关联的特征‑因子二维矩阵,获取重要用户特征及重要特征因子。
【技术特征摘要】
1.一种用户特征及特征因子抽取、查询方法,其特征在于,所述方法包括:S1,创建多个场景的重要用户特征及重要因子的特征-因子二维矩阵库;S2,将创建的不同场景下的特征-因子二维矩阵库,根据相同或类似的行为预测特征进行关联,构建场景-行为二维矩阵;S3,根据所述场景-行为二维矩阵,查找相关联场景下相同或类似的行为预测特征,根据所述相同或类似的行为预测特征查找关联的特征-因子二维矩阵,获取重要用户特征及重要特征因子。2.如权利要求1所述的用户特征及特征因子抽取、查询方法,其特征在于,创建其中一个场景的重要用户特征及重要因子的特征-因子二维矩阵库的方法包括以下步骤(S101-S108):S101,从第一场景的用户行为统计数据库中抽取用户行为数据集;S102,对所述用户行为数据集进行预处理;S103,对预处理后的用户行为数据集进行归一化和离散化处理,得到第一用户行为特征集;S104,对第一用户行为特征集进行用户特征降维处理,获得降维后的第二用户行为特征集;S105,从第二用户行为特征集中抽取训练集和测试集,根据训练集和测试集建立候选数据预测模型并进行评价,获取优秀数据预测模型;S106,根据选出的优秀数据预测模型,对第二用户行为特征集中的用户特征进行筛选,选出重要用户特征;S107,对所述重要用户特征的特征因子进行过滤,获取重要特征因子;S108,根据所述重要用户特征及重要特征因子组合,构建第一场景的特征-因子二维矩阵库。3.如权利要求2所述的用户特征及特征因子抽取、查询方法,其特征在于,所述用户行为数据集M1包括至少一个用户特征、行为预测特征;所述行为预测特征是以用户特征为输入变量根据数据预测模型生成;设用户特征为输入变量x,行为预测特征为输出变量y,y=model(x);所述用户特征包括至少一个特征因子。4.如权利要求3所述的用户特征及特征因子抽取、查询方法,其特征在于,所述预处理包括缺失值处理、异常数据处理、数据冗余处理;所述训练集和测试集获取方法采用无放回随机抽样,等距抽样,分层抽样,分类抽样方法;所述对第一用户行为特征集进行用户特征降维处理方法包括:步骤A1,利用多重共线性降维法,找到高度关联的用户特征,删除并保留高度关联的用户特征中的一个;步骤A2,利用回归降维法进行逐步寻优,删除对行为预测特征无关的用户特征。5.如权利要求2所述的用户特征及特征因子抽取、查询方法,其特征在于,所述数据预测模型包括神经网络、随机森林、支持向量机、决策树、逻辑回归、集成学习、K近邻模型、贝叶斯、线性判别中的一个或多个。6.如权利要求5所述的用户特征及特征因子抽取、查询方法,其特征在于,所述根据训练集和测试集建立候选数据预测模型并进行评价,获取优秀数据预测模型,包括以下步骤:步骤B1,根据训练集中的用户特征变量、行为预测特征变量,构建候选数据预测模型;步骤B2,对候选数据预测模型进行评价;具体包括:b201:将测试集中的用户特征变量代入所述候选数据预测模型,计算行为预测特征值,称为第一行为预测特征值;将所述第一行为预测特征值与测试集原有行为预测特征值进行对比,根据对比的预测误差建立混淆矩阵;混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目;b202:计算候选预测模型的错判率,并存储为第一错判率矩阵;错判率=(预测错的数据量/样本总量)*100%;步骤B3:选出优秀数据预测模型;具体为:将各候选预测模型的错判率采用四分位数与箱线图法,筛选出优秀数据预测模型。7.如权利要求6所述的用户特征及特征因子抽取、查询方法,其特征在于,所述候选数据预测模型包括神经网络、随机森林、支持向量机、决策树、逻辑回归、集成学习、K近邻模型、贝叶斯、线性判别中的一个或多个;候选预测模型的错判率≤第一阈值,第一阈值由使用者设置,不超过50%。8.如权利要求7所述的用户特征及特征因子抽取、查询方法,其特征在于,所述根据选出的优秀数据预测模型,对第二用户行为特征集中的用户特征进行筛选,选出重要用户特征;具体为:步骤C1:建立用户特征循环模型并进行循环迭代,计算剔除用户特征后的错判率,并存储为第二错判率矩阵;具体为:以所述选出的优秀数据预测模型为基础,以假设剔除用户特征中的任一个,来判断错判率是上升还是下降:如果剔除该用户特征后错判率上升,则判定该用户特征对预测行为结果正影响较为显著;如剔除该用户特征后错判率下降,则判定该用户特征对预测行为结果的负影响较为显著;如果剔除该用户特征后错判率变化不大,则判定该用户特征对预测行为结果影响不显著;循环重复上述过程;步骤C2:选出重要用户特征;具体为:利用箱线图与四分位数来选择优秀数据预测模型下的重要用户特征。9.如权利要求8所述的用户特征及特征因子抽取、查询方法,其特征在于,对所述重要用户特征中的特征因子进行过滤,获取重要特征因子包括:步骤D1:对所述重要用户特征的特征因子进行降维;步骤D2:利用特征因子循环迭代法,对降维后的特征因子进行循环迭代,计算剔除用特征因子组合后的错判率,并存储为第三错判率矩阵;步骤D3:选出重要特征因子组合;利用箱线图与四分位数来选择重要用户特征中的重要特征因子组合。10.如权利要求9所述的用户特征及特征因子抽取、查询方法,其特征在于,所述对所述重要用户特征的特征因子进行降维方法包括以下步骤(d101-d103):d101,对重要用户特征中的特征因子进行离散化处理;d102,将离散化处理后的特征因子转化为模拟用户特征;即将离散化处理后的特征因子设为模拟用户特征,对特征因子的值进行区间划分分类,将分类的名称,也称特征因子变量,设置为模拟用户特征变量;d103,利用回归降维法,删除对行为预测影响无关的模拟用户特征;所述利用特征因子循环迭代法,对降维后的特征因子进行循环迭代,计算剔除用特征因子组合后的错判率,并存储为第三错判率矩阵具体包括(d201-d202):d201,将特征因子向量化;d202,建立特征因子循环模型并迭代,计算剔除特征因子组合后的错判率,并存储为第三错判率矩阵;具体为:以假设剔除重要特征中的任一特征因子组合,来判断错判率是上升还是下降:如果剔除该特征因子组合后错判率上升,则判定该特征因子组合对预测行为结果的正影响较为显著,如剔除该特征因子组合后错判率下降,则判定该特征因子组合对行为结果的负影响较为显著,如果剔除该特征因子组合后变化不大,则判定该特征因子组合对行为结果影响不显著;将重要用户特征的特征因子进行多重循环,重复上述过程。11.一种用户特征及特征因子抽取方法,所述方法与权利要求2中的创建其中一个场景的重要用户特征及重要因子的特征-因子二维矩阵库的方法相同。12.一种用户特征及特征因子抽取、查询系统,其特征在于,所述系统包括:特征-因子二维矩阵库创建装置,用于创建多个场景的重要用户特征及重要...
【专利技术属性】
技术研发人员:慕畅,
申请(专利权)人:深圳市梦网百科信息技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。