System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于贝叶斯优化的数据特征自动生成方法、介质及设备技术_技高网

基于贝叶斯优化的数据特征自动生成方法、介质及设备技术

技术编号:40258194 阅读:13 留言:0更新日期:2024-02-02 22:49
本申请提供一种基于贝叶斯优化的数据特征自动生成方法、介质及设备。所述方法包括:从业务场景中获取至少包含时间戳的日志数据;基于日志数据获取用户不同行为的统计特征;初始化所统计特征的时间窗口参数,并根据时间窗口参数获取对应的数据特征;基于数据特征获取一平衡参数;将平衡参数作为贝叶斯优化的目标,所述时间窗口参数作为贝叶斯优化的输入,对所述贝叶斯优化进行迭代处理,获取最优的时间窗口参数;基于所述最优的时间窗口参数生成对应的数据特征。本申请实施例基于贝叶斯优化选择确定时间窗口,消除了传统人工经验设定的局限性,更有效地搜索特征最佳时间窗口,以最大化风控模型的性能指标,提高了风控模型的效率和准确性。

【技术实现步骤摘要】

本申请属于互联网大数据,特别是涉及一种基于贝叶斯优化的数据特征自动生成方法、介质及设备


技术介绍

1、随着信息和通信技术的不断进步,大规模数据的产生和应用已成为现实,但同时也伴随着各种风险和挑战。在金融、电子商务、网络安全等领域,有效的风险控制和欺诈检测变得至关重要。当前的技术趋势强调了自动化、数据驱动的方法以及提高模型性能和解释性的需求。

2、在风险控制和欺诈检测领域,构建有效的特征是提高模型性能的关键之一。尽管现有技术在风险控制和欺诈检测方面取得了一定进展,但仍然存在一些显著的挑战。其中之一是特征生成的复杂性,通常需要大量的人工工作和领域专业知识。此外,传统方法通常依赖于经验手动设置时间窗口来计算特征,,这可能无法充分捕捉数据的动态性和复杂性。因此,需要一种自动化的特征生成方法,自动选择时间窗口的策略,以提高特征的质量,提高风险模型的性能和解释性。

3、传统的数据特征生成方法通常涉及手动选择和构建各种特征,以描述用户行为。这可能包括均值、方差、频率等统计特征。此外,通常需要在特征生成过程中手动设置时间窗口,以确定计算特征的时间范围。这种方法虽然在某些情况下有效,但存在以下问题:首先,手动构建特征可能非常耗时且容易出错。其次,固定的时间窗口设置可能无法适应不同的数据分布和动态性,从而影响模型性能。


技术实现思路

1、本申请提供一种基于贝叶斯优化的数据特征自动生成方法、介质及设备,用于自动生成风控模型所需的数据特征,提高风控模型的性能。

2、第一方面,本申请实施例提供一种基于贝叶斯优化的数据特征自动生成方法,包括:从业务场景中获取至少包含时间戳的日志数据;基于所述日志数据获取用户不同行为的统计特征;初始化所述统计特征的时间窗口参数,并根据时间窗口参数获取对应的数据特征;基于所述数据特征获取一平衡参数;将所述平衡参数作为贝叶斯优化的目标,所述时间窗口参数作为贝叶斯优化的输入,对所述贝叶斯优化进行迭代处理,获取最优的时间窗口参数;基于所述最优的时间窗口参数生成对应的数据特征。

3、在所述第一方面的一种实现方式中,利用featuretools特征生成工具对所述日志数据进行处理,自动获取用户不同行为的统计特征。

4、在所述第一方面的一种实现方式中,所述初始化所述统计特征的时间窗口参数中包括:配置时间窗口的范围并基于所述时间窗口的范围随机初始化参数。

5、在所述第一方面的一种实现方式中,所述基于所述数据特征获取一平衡参数包括:基于所述数据特征和历史样本数据训练一监督分类模型;获取衡量所述监督分类模型性能的平衡参数。

6、在所述第一方面的一种实现方式中,所述监督分类模型采用随机森林算法分类模型或梯度提升决策树分类模型;所述平衡参数为f1分数。

7、在所述第一方面的一种实现方式中,所述获取最优的时间窗口参数包括:基于当前获取的所述平衡参数和所述时间窗口参数,所述贝叶斯优化预测输出优化的时间窗口参数;基于优化的时间窗口参数更新对应的数据特征和平衡参数;以更新的平衡参数和优化的时间窗口参数对所述贝叶斯优化进行迭代处理;当所述贝叶斯优化停止迭代时,获取当前的时间窗口参数,并将当前的时间窗口参数作为最优的时间窗口参数。

8、在所述第一方面的一种实现方式中,当所述贝叶斯优化的迭代次数达到最大迭代次数阈值或所述平衡参数大于临界值时,停止迭代。

9、在所述第一方面的一种实现方式中,采用高斯过程计算所述贝叶斯优化的代理模型。

10、第二方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请第一方面中任一项所述的基于贝叶斯优化的数据特征自动生成方法。

11、第三方面,本申请实施例提供一种电子设备,所述电子设备包括:存储器,存储有一计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行本申请第一方面中任一项所述的基于贝叶斯优化的数据特征自动生成方法。

12、本申请实施例提供的基于贝叶斯优化的数据特征自动生成方法,基于贝叶斯优化选择确定时间窗口,消除了传统人工经验设定的局限性,更有效地搜索特征最佳时间窗口,以最大化风控模型的性能指标,提高了风控模型的效率和准确性。

本文档来自技高网...

【技术保护点】

1.一种基于贝叶斯优化的数据特征自动生成方法,其特征在于,包括:

2.根据权利要求1所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,利用Featuretools特征生成工具对所述日志数据进行处理,自动获取用户不同行为的统计特征。

3.根据权利要求1或2所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,所述初始化所述统计特征的时间窗口参数中包括:配置时间窗口的范围并基于所述时间窗口的范围随机初始化参数。

4.根据权利要求2或3所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,所述基于所述数据特征获取一平衡参数包括:

5.根据权利要求4所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,所述监督分类模型采用随机森林算法分类模型或梯度提升决策树分类模型;所述平衡参数为F1分数。

6.根据权利要求1所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,所述获取最优的时间窗口参数包括:

7.根据权利要求1、5或6所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,当所述贝叶斯优化的迭代次数达到最大迭代次数阈值或所述平衡参数大于临界值时,停止迭代。

8.根据权利要求1或6所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,采用高斯过程计算所述贝叶斯优化的代理模型。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于贝叶斯优化的数据特征自动生成方法。

10.一种电子设备,其特征在于,所述电子设备包括:

...

【技术特征摘要】

1.一种基于贝叶斯优化的数据特征自动生成方法,其特征在于,包括:

2.根据权利要求1所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,利用featuretools特征生成工具对所述日志数据进行处理,自动获取用户不同行为的统计特征。

3.根据权利要求1或2所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,所述初始化所述统计特征的时间窗口参数中包括:配置时间窗口的范围并基于所述时间窗口的范围随机初始化参数。

4.根据权利要求2或3所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,所述基于所述数据特征获取一平衡参数包括:

5.根据权利要求4所述的基于贝叶斯优化的数据特征自动生成方法,其特征在于,所述监督分类模型采用随机森林算法分类模型或梯度提升...

【专利技术属性】
技术研发人员:唐康周斌孙鑫焱
申请(专利权)人:上海识装信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1