用户访问的离散数据处理方法、装置、设备及介质制造方法及图纸

技术编号:24251488 阅读:19 留言:0更新日期:2020-05-22 23:32
本发明专利技术公开了一种用户访问的离散数据处理方法、装置、计算机设备及存储介质,所述方法包括:自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据;通过等频分箱法划分为若干第一数据区域,并获取含有第一人数占比的区域访问数据;确定历史时间段,并获取历史时间段内的历史离散数据,通过包含相同划分参数的等频分箱法划分为若干第二数据区域,并获取第二人数占比;根据第一人数占比和第二人数占比获取群体稳定指标值;获取相对命中率和信息量值;通过预设评估函数,获取第一数据区域的总评分值,并确定价值区域。如此,实现了从离散数据中提取有价值用户数据,确定用户维护措施,进而制定针对性更强的用户维护措施。

Discrete data processing methods, devices, devices and media accessed by users

【技术实现步骤摘要】
用户访问的离散数据处理方法、装置、设备及介质
本专利技术涉及数据处理领域,尤其涉及一种用户访问的离散数据处理方法、装置、计算机设备及存储介质。
技术介绍
目前,在大数据信息化时代,数据库变得越来越大,人们迫切的需要对庞大的数据库进行数据挖掘以得到有价值信息,现有技术中,由于不稳定的离散数据会使得数据计算复杂化,因此,为了更好地进行规则提取,从大数据中进行数据挖掘的方式往往是首先摒弃大数据中的离散数据,之后对除离散数据之外的连续型数据中进行数据处理。比如,针对用户访问的大数据中的有价值用户数据的提取,往往只是首先提取用户访问数据中除离散型数据之外的稳定的连续型数据,进而根据该连续型数据确定有价值用户数据,以最终制定吸引该有价值用户数据对应的用户群体的用户维护措施。该方案的不足之处在于,离散数据中也会存在部分有用的数据,可以对吸引部分类型的用户群体具有可参考价值,而直接摒弃该部分离散数据,显然也放弃了针对吸引该部分类型的用户群体的用户维护措施的制定,因此,对于用户运营状态将产生不良影响。
技术实现思路
本专利技术提供一种用户访问的离散数据处理方法、装置、计算机设备及存储介质,实现了从现有技术中被摒弃的离散数据中快速地、准确地提取价值区域中的有价值用户数据,进而,根据提取的离散数据中的有价值用户数据以及稳定数据共同确定用于吸引有价值用户群体的用户维护措施,如此,制定的用户维护措施的针对性更强,适用范围更广,通过该用户维护措施可以更好地吸引更多用户。一种用户访问的离散数据处理方法,包括:自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据;所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据;通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域,并获取每一个所述第一数据区域内的区域访问数据;所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比;确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段,并获取所述历史时间段内的历史离散数据,并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域,并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比;其中,所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据;根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值;根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的相对命中率和信息量值;将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数,以获取每一个所述第一数据区域的总评分值,并根据所述总评分值确定所述待处理离散数据中的价值区域,以供根据所述价值区域确定用户维护措施。一种用户访问的离散数据处理装置,包括:第一获取模块,用于自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据;所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据;第二获取模块,用于通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域,并获取每一个所述第一数据区域内的区域访问数据;所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比;第三获取模块,用于确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段,并获取所述历史时间段内的历史离散数据,并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域,并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比;其中,所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据;第一计算模块,用于根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值;第二计算模块,用于根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的相对命中率和信息量值;确定模块,用于将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数,以获取每一个所述第一数据区域的总评分值,并根据所述总评分值确定所述待处理离散数据中的价值区域,以供根据所述价值区域确定用户维护措施。本专利技术提供的用户访问的离散数据处理方法、装置、计算机设备及存储介质,通过获取待识别图像;通过自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据;通过等频分箱法将所述待处理离散数据划分为若干第一数据区域,并获取每一个所述第一数据区域内的区域访问数据(包含第一人数占比);确定历史时间段,并获取历史时间段内的所述历史离散数据,并将所述历史离散数据通过包含上述划分参数的等频分箱法划分为若干第二数据区域,并获取每一个所述第二数据区域的第二人数占比;根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值;根据所有所述第一数据区域的区域访问数据,获取每一个所述第一数据区域的相对命中率和信息量值;通过预设评估函数,获取每一个所述第一数据区域的总评分值,并根据总评分值确定所述待处理离散数据中的价值区域,以供根据价值区域确定用户维护措施。如此,通过对用户访问的离散数据进行划分区域,获取每一个区域的人数占比、群体稳定指标值、相对命中率和信息量值并输入至预设评估函数,以获取每一个区域的总评分值,并确定离散数据中的价值区域,从而能快速提取出离散数据中有价值用户数据。实现了从现有技术中被摒弃的离散数据中快速地、准确地提取价值区域中的有价值用户数据,进而,根据提取的离散数据中的有价值用户数据以及稳定数据共同确定用于吸引有价值用户群体的用户维护措施,如此,制定的用户维护措施的针对性更强,适用范围更广,通过该用户维护措施可以更好地吸引更多用户。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中用户访问的离散数据处理方法的应用环境示意图;图2是本专利技术一实施例中用户访问的离散数据处理方法的流程图;图3是本专利技术一实施例中用户访问的离散数据处理方法的步骤S10之前的流程图;图4是本专利技术一实施例中用户访问的离散数据处理方法的步骤S60之后的流程图;图5是本专利技术一实施例中用户访问的离散数据处理装置的原理框图;图6是本专利技术一实施例中计算机设备的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种用户访问的离散数据处理方法,其特征在于,包括:/n自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据;所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据;/n通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域,并获取每一个所述第一数据区域内的区域访问数据;所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比;/n确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段,并获取所述历史时间段内的历史离散数据,并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域,并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比;其中,所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据;/n根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值;/n根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的相对命中率和信息量值;/n将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数,以获取每一个所述第一数据区域的总评分值,并根据所述总评分值确定所述待处理离散数据中的价值区域,以供根据所述价值区域确定用户维护措施。/n...

【技术特征摘要】
1.一种用户访问的离散数据处理方法,其特征在于,包括:
自数据库中获取用户在预设时间段内访问的用户访问数据中的待处理离散数据;所述待处理离散数据是指所述预设时间段内不符合稳定性要求的用户访问数据;
通过包含划分参数的等频分箱法对所述待处理离散数据进行划分得到若干不同的第一数据区域,并获取每一个所述第一数据区域内的区域访问数据;所述区域访问数据中包含一个所述第一数据区域内的访问人数与所述预设时间段内的总访问人数之间的第一人数占比;
确定位于所述预设时间段之前且与所述预设时间段连续等长的历史时间段,并获取所述历史时间段内的历史离散数据,并通过包含所述划分参数的等频分箱法对所述历史离散数据进行划分得到若干不同的第二数据区域,并获取每一个所述第二数据区域内的访问人数与所述历史时间段内的总访问人数之间的第二人数占比;其中,所述历史离散数据是指所述历史时间段内不符合稳定性要求的用户访问数据;
根据所述第一人数占比和所述第二人数占比获取每一个所述第一数据区域的群体稳定指标值;
根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的相对命中率和信息量值;
将每一个所述第一数据区域的所述第一人数占比、所述群体稳定指标值、所述相对命中率、所述信息量值输入预设评估函数,以获取每一个所述第一数据区域的总评分值,并根据所述总评分值确定所述待处理离散数据中的价值区域,以供根据所述价值区域确定用户维护措施。


2.如权利要求1所述的用户访问的离散数据处理方法,其特征在于,所述根据所述第一人数占比和所述第二人数占比获取每一所述第一数据区域的群体稳定指标值,包括:
将所述第一人数占比和所述第二人数占比输入以下稳定指标计算模型中,以获取每一所述第一数据区域的群体稳定指标值:
Zi=(Xi-Li)×ln(Xi/Li)
其中:
Zi为第i个所述第一数据区域的群体稳定指标值;
Xi为第i个所述第一数据区域的所述第一人数占比;
Li为第i个所述第一数据区域的所述第二人数占比。


3.如权利要求1所述的用户访问的离散数据处理方法,其特征在于,每一个所述第一数据区域的所述区域访问数据中包含符合命中要求的用户访问数据以及不符合命中要求的用户访问数据;
所述根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的相对命中率,包括:
将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下命中率计算模型中,以获取每一个所述第一数据区域的相对命中率:
Ai=(Pi-PT)/PT
其中:
Ai为第i个所述第一数据区域的相对命中率;
Pi为第i个所述第一数据区域中所有符合命中要求的用户访问数据在该第一数据区域中的所有用户访问数据中所占的百分比;
PT为所有所述第一数据区域中所有符合命中要求的用户访问数据在所有所述第一数据区域中的用户访问数据中所占的百分比。


4.如权利要求1所述的用户访问的离散数据处理方法,其特征在于,
每一个所述第一数据区域的所述区域访问数据中包含符合命中要求的用户访问数据以及不符合命中要求的用户访问数据;
所述根据所述预设时间段内的所有所述第一数据区域的所述区域访问数据,获取每一个所述第一数据区域的信息量值,包括:
将所述预设时间段内的所有所述第一数据区域的所述区域访问数据输入以下信息量计算模型中,以获取每一个所述第一数据区域的信息量值:



其中:
Yi为第i个所述第一数据区域的信息量值;
#yi为第i个所述第一数据区域中所有符合命中要求的用户访问数据的总数;
#yT为所有所述第一数据区域中所有符合命中要求的用户访问数据的总数;
#ni为第i个所述第一数据区域中所有不符合命中要求的用户访问数据的总数;
#nT为所有所述第一数据区域中所有不符合命中要求的用户访问数据的总数。


5.如权利要求1所述的用户访问的离散数据处理方法,其特征在于,所述预设评估函数为:<...

【专利技术属性】
技术研发人员:杜宇衡
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1