状态分析模型构建方法、分析方法及装置制造方法及图纸

技术编号：25481942 阅读：23 留言：0更新日期：2020-09-01 23:02

本申请实施例提供一种状态分析模型构建方法、分析方法及装置，涉及数据处理技术领域。方法包括获取多个训练用户在预设时间段内的训练特征数据；对训练特征数据进行分类操作获得分类结果；对分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；利用分类结果构建目标特征的回归模型，获得每一训练特征数据对应的特征系数和截距值；根据辨识度、每一训练特征数据对应的特征系数和截距值构建状态分析模型。本申请实施例通过利用状态分析模型对待测用户的特征数据进行分析，获得待测用户对应的状态分值，通过状态分值可以确定待测用户的状态信息，因此，本申请实施例能够针对待测用户个体进行分析，提高分析的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
状态分析模型构建方法、分析方法及装置
本申请涉及数据处理
，具体而言，涉及一种状态分析模型构建方法、分析方法及装置。
技术介绍
针对服务型企业，例如：网约车或外卖等，需对所有的用户状态变化进行监控，通过发现用户状态的变化，及时进行单体化的策略干预。其中，“用户沉默预警”即为一个比较常见的状态监控场景。“用户沉默预警”是指发现用户状态异常，有流失的倾向的用户的预测。现有技术中是针对某一类型的用户构建分析模型，因此其构建的分析模型只能针对某一类型的用户的状态进行分析，其对象粒度较大，因此，预测的准确性不高。
技术实现思路
有鉴于此，本申请实施例的目的在于提供一种状态分析模型构建方法、分析方法及装置，以解决上述构建的状态分析模型分析准确性低的技术问题。根据本申请的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，...

【技术保护点】
1.一种状态分析模型构建方法，其特征在于，包括：/n获取多个训练用户在预设时间段内的训练特征数据；/n对所述训练特征数据进行分类操作，获得分类结果；/n对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；/n利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值；/n根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。/n

【技术特征摘要】
1.一种状态分析模型构建方法，其特征在于，包括：
获取多个训练用户在预设时间段内的训练特征数据；
对所述训练特征数据进行分类操作，获得分类结果；
对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；
利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值；
根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。

2.根据权利要求1所述的方法，其特征在于，所述对所述训练特征数据进行分类操作，获得分类结果，包括：
对连续型的训练特征数据采用随机森林映射法进行分类操作，对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作，获得分类结果。

3.根据权利要求2所述的方法，其特征在于，所述对连续型的训练特征数据采用随机森林映射法进行分类操作，包括：
对每一连续型的训练特征数据进行排序，并根据预设深度对排序后的训练特征数据进行预分类，获得多个聚合分裂点；
计算每一所述聚合分裂点对应的信息增益，将最大的信息增益对应的聚合分裂点作为目标聚合分裂点。

4.根据权利要求3所述的方法，其特征在于，所述计算每一所述聚合分裂点对应的信息增益，包括：
利用g(D,A)＝H(D)-H(D|A)计算获得每一聚合分裂点对应的信息增益；
其中，H(D)为所述排序后的训练特征数据的熵，H(A)为通过聚合分裂点A对所述排序后的训练特征数据进行划分后的熵。

5.根据权利要求2所述的方法，其特征在于，对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作，包括：
构建每一离散型的训练特征数据对应的列联表，所述列联表包括多个类别；
利用分层聚类算法将所述列联表中的多个类别进行多次聚类合并，得到一个类别，计算每次聚类结果对应的卡方值；
根据各个聚类结果的卡方值和对应的预设自由度，获得对应的对数值，将最小的对数值对应的聚类结果作为目标聚类结果。

6.根据权利要求1所述的方法，其特征在于，所述对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度，包括：
当所述训练特征数据的类型为二分类时，根据计算每一训练特征数据对应的每一分类的辨识度；
当所述训练特征数据的类型为连续型或多分类时，根据计算每一训练特征数据对应的每一分类的辨识度；
其中，Bi为第i组的第一类型用户的数量，Gi为第i组的第二类型用户的数量，BT为第一类型用户的数量，GT为第二类型用户的总数量，Recordsi为第i组所有用户的数量。

7.根据权利要求1所述的方法，其特征在于，所述状态分析模型为：

其中，为预设的基础分值，pdo为预设的好坏比，odds为预设的初始值；
WoEi为第i个训练特征数据对应的每一分类的辨识度，βi为第i个训练特征数据对应所述特征系数，n为训练特征个数，α为所述截距值。

8.根据权利要求1所述的方法，其特征在于，在获取多个训练用户在预设时间段内的训练特征数据之后，所述方法，还包括：
采用随机森林预测法对所述训练特征数据中的缺失值进行补齐操作，以及对所述训练特征数据中的异常值进行删除操作。

9.一种用户状态分析方法，其特征在于，所述方法包括：
获取数据平台中待测用户的至少一个特征数据；
利用如权利要求1-8任一项构建的状态分析模型对所述至少一个特征数据进行分析，获得所述待测用户对应的状态分值；
根据所述状态分值确定所述待测用户的状态信息。

10.根据权利要求9所述的方法，其特征在于，所述方法，还包括：
利用状态分析模型对所述至少一个特征数据进行分析，获得所述至少一个特征数据分别对应的特征分值。

11.一种状态分析模型构建装置，其特征在于，包括：
数据获取模块，用于获取多个训练用户在预设时间段内的训练特征数据；
分类模块，用于对所述训练特征数据进行分类操作，获得分类结果；
WoE变换模块，用于对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；
第一模型构建模块，用于利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值；
...

【专利技术属性】
技术研发人员：杨凯迪，谢梁，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人