业务数据的处理方法、装置及存储介质制造方法及图纸

技术编号:26890721 阅读:26 留言:0更新日期:2020-12-29 16:07
本申请提供一种业务数据的处理方法、装置及存储介质,其中,该方法包括:获取待处理的业务数据,该业务数据具有至少两个数据特征且业务数据中所包含的总数据样本具有时间标记,根据时间标记对业务数据中所包含的总数据样本按照时间段进行划分得到与各时间段分别对应的分桶数据样本,针对每个分桶数据样本,计算各数据特征分别对应的第一统计值,进而计算该业务数据的各数据特征的第一波动幅度,根据该业务数据的各数据特征的第一波动幅度,对全部数据特征进行特征过滤,得到业务数据的关键特征。该技术方案在特征筛选的过程中将时间维度作为考虑因素,解决了由于特征随着时间偏移会发生改变的问题,提高筛选特征的准确性。

【技术实现步骤摘要】
业务数据的处理方法、装置及存储介质
本申请涉及数据处理
,尤其涉及一种业务数据的处理方法、装置及存储介质。
技术介绍
随着人工智能技术的蓬勃发展,机器建模成为人工智能领域的一个重要方面,而如何从海量数据的多维特征中筛选出稳定且重要的特征用于机器建模是提高模型性能的关键。现有技术中,通常基于某个单一的特征的性能指标和预设的划分阈值实现特征的过滤。基于这种方法进行特征筛选时,通常只考虑某一时刻的待筛选特征在处理样本中的重要性,未考虑到数据的特征随着时间的漂移会发生改变,存在所筛选的特征不准确的问题。
技术实现思路
本申请提供一种业务数据的处理方法、装置及存储介质,以克服现有特征过滤方法中存在的所筛选的特征不准确的问题。本申请第一方面提供的一种业务数据的处理方法,包括:获取待处理的业务数据,所述业务数据具有至少两个数据特征且所述业务数据中所包含的总数据样本具有时间标记;根据所述时间标记,对所述业务数据中所包含的总数据样本按照时间段进行划分,得到与各时间段分别对应的分桶数据样本;r>针对每个分桶数据本文档来自技高网...

【技术保护点】
1.一种业务数据的处理方法,其特征在于,包括:/n获取待处理的业务数据,所述业务数据具有至少两个数据特征且所述业务数据中所包含的总数据样本具有时间标记;/n根据所述时间标记,对所述业务数据中所包含的总数据样本按照时间段进行划分,得到与各时间段分别对应的分桶数据样本;/n针对每个分桶数据样本,计算各数据特征分别对应的第一统计值,所述第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值;/n根据每个分桶数据样本中每个数据特征的第一统计值,计算所述业务数据的各数据特征的第一波动幅度;/n根据所述业务数据的各数据特征的第一波动幅度,对全部数据特征进行特征过滤,得到所述业务数据的关键特征。/n

【技术特征摘要】
1.一种业务数据的处理方法,其特征在于,包括:
获取待处理的业务数据,所述业务数据具有至少两个数据特征且所述业务数据中所包含的总数据样本具有时间标记;
根据所述时间标记,对所述业务数据中所包含的总数据样本按照时间段进行划分,得到与各时间段分别对应的分桶数据样本;
针对每个分桶数据样本,计算各数据特征分别对应的第一统计值,所述第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值;
根据每个分桶数据样本中每个数据特征的第一统计值,计算所述业务数据的各数据特征的第一波动幅度;
根据所述业务数据的各数据特征的第一波动幅度,对全部数据特征进行特征过滤,得到所述业务数据的关键特征。


2.根据权利要求1所述的方法,其特征在于,所述根据每个分桶数据样本中每个数据特征的第一统计值,计算所述业务数据的各数据特征的第一波动幅度,包括:
针对每个数据特征,计算所述数据特征对应的第一统计值的平均值;
针对每个数据特征,根据所述数据特征对应的第一统计值与所述第一统计值对应的平均值,得到所述业务数据的各数据特征的第一波动幅度。


3.根据权利要求1所述的方法,其特征在于,所述根据所述业务数据的各数据特征的第一波动幅度,对全部数据特征进行特征过滤,得到所述业务数据的关键特征,包括:
从全部数据特征中过滤掉第一波动幅度大于预设阈值的数据特征,得到所述业务数据的关键特征。


4.根据权利要求1或2所述的方法,其特征在于,所述根据所述业务数据的各数据特征的第一波动幅度,对全部数据特征进行特征过滤,得到所述业务数据的关键特征之前,还包括:
采用重要性分析模型,计算所述业务数据的各数据特征的重要性得分;
相应的,所述根据所述业务数据的各数据特征的第一波动幅度,对全部数据特征进行特征过滤,得到所述业务数据的关键特征,包括:
根据所述业务数据的各数据特征的重要性得分以及所述业务数据的各数据特征的第一波动幅度,对全部数据特征进行特征过滤,得到所述业务数据的关键特征。


5.根据权利要求4所述的方法,其特征在于,所述根据所述业务数据的各数据特征的重要性得分以及所述业务数据的各数据特征的第一波动幅度,对全部数据特征进行特征过滤,得到所述业务数据的关键特征,包括:
针对每个数据特征,根据所述数据特征的重要性得分和第一波动幅度,得到各数据特征对应的综合指标值;
根据各数据特征的综合指标值和预设阈值,得到所述业务数据的关键特征。


6.根据权利要求4所述的方法,其特征在于,所述采用重要性分析模型,计算所述业务数据的各数据特征的重要性得分,包括:
针对每个分桶数据样本,采用重要性分析模型计算各数据特征分别对应的重要性得...

【专利技术属性】
技术研发人员:杨海华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1