【技术实现步骤摘要】
用户访问的离散数据处理方法、装置、设备及介质
本专利技术涉及数据处理领域,尤其涉及一种用户访问的离散数据处理方法、装置、计算机设备及存储介质。
技术介绍
目前,在大数据信息化时代,数据库变得越来越大,人们迫切的需要对庞大的数据库进行数据挖掘以得到有价值信息,现有技术中,由于不稳定的离散数据会使得数据计算复杂化,因此,为了更好地进行规则提取,从大数据中进行数据挖掘的方式往往是首先摒弃大数据中的离散数据,之后对除离散数据之外的连续型数据中进行数据处理。比如,针对用户访问的大数据中的有价值用户数据的提取,往往只是首先提取用户访问数据中除离散型数据之外的稳定的连续型数据,进而根据该连续型数据确定有价值用户数据,以最终制定吸引该有价值用户数据对应的用户群体的用户维护措施。该方案的不足之处在于,离散数据中也会存在部分有用的数据,可以对吸引部分类型的用户群体具有可参考价值,而直接摒弃该部分离散数据,显然也放弃了针对吸引该部分类型的用户群体的用户维护措施的制定,因此,对于用户运营状态将产生不良影响。
技术实现思路
本专利技术提供一种用户访问的离散数据处理方法、装置、计算机设备及存储介质,实现了从现有技术中被摒弃的离散数据中快速地、准确地提取价值区域中的有价值用户数据,进而,根据提取的离散数据中的有价值用户数据以及稳定数据共同确定用于吸引有价值用户群体的用户维护措施,如此,制定的用户维护措施的针对性更强,适用范围更广,通过该用户维护措施可以更好地吸引更多用户。一种用户访问的离散数据处理方法,包括:自 ...
【技术保护点】
1.一种用户访问的离散数据处理方法,其特征在于,包括:/n自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据;所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据;/n通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域,并获取每一个所述第一数据区域内的区域访问数据;所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比;/n确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段,并获取所述历史时间段内的历史离散数据,并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域,并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比;其中,所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据;/n根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值;/n根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的相对命中率和信息量值;/ ...
【技术特征摘要】
1.一种用户访问的离散数据处理方法,其特征在于,包括:
自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据;所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据;
通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域,并获取每一个所述第一数据区域内的区域访问数据;所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比;
确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段,并获取所述历史时间段内的历史离散数据,并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域,并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比;其中,所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据;
根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值;
根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的相对命中率和信息量值;
将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数,以获取每一个所述第一数据区域的总评分值,并根据所述总评分值确定所述待处理离散数据中的价值区域,以供根据所述价值区域确定用户维护措施。
2.如权利要求1所述的用户访问的离散数据处理方法,其特征在于,所述根据所述第一人数占比和所述第二人数占比获取每一所述第一数据区域的群体稳定指标值,包括:
将所述第一人数占比和所述第二人数占比输入以下稳定指标计算模型中,以获取每一所述第一数据区域的群体稳定指标值:
Zi=(Xi-Li)×ln(Xi/Li)
其中:
Zi为第i个所述第一数据区域的群体稳定指标值;
Xi为第i个所述第一数据区域的所述第一人数占比;
Li为第i个所述第一数据区域的所述第二人数占比。
3.如权利要求1所述的用户访问的离散数据处理方法,其特征在于,每一个所述第一数据区域的所述区域访问数据中包含符合命中要求的用户访问数据以及不符合命中要求的用户访问数据;
所述根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的相对命中率,包括:
将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下命中率计算模型中,以获取每一个所述第一数据区域的相对命中率:
Ai=(Pi-PT)/PT
其中:
Ai为第i个所述第一数据区域的相对命中率;
Pi为第i个所述第一数据区域中所有符合命中要求的用户访问数据在该第一数据区域中的所有用户访问数据中所占的百分比;
PT为所有所述第一数据区域中所有符合命中要求的用户访问数据在所有所述第一数据区域中的用户访问数据中所占的百分比。
4.如权利要求1所述的用户访问的离散数据处理方法,其特征在于,
每一个所述第一数据区域的所述区域访问数据中包含符合命中要求的用户访问数据以及不符合命中要求的用户访问数据;
所述根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的信息量值,包括:
将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下信息量计算模型中,以获取每一个所述第一数据区域的信息量值:
其中:
Yi为第i个所述第一数据区域的信息量值;
#yi为第i个所述第一数据区域中所有符合命中要求的用户访问数据的总数;
#yT为所有所述第一数据区域中所有符合命中要求的用户访问数据的总数;
#ni为第i个所述第一数据区域中所有不符合命中要求的用户访问数据的总数;
#nT为所有所述第一数据区域中所有不符合命中要求的用户访问数据的总数。
5.如权利要求1所述的用户访问的离散数据处理方法,其特征在于,所述预设评估函数为:<...
【专利技术属性】
技术研发人员:杜宇衡,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。